Control por voz de smartphone

Existen muchas soluciones diferentes para el control por voz de las funciones de los teléfonos inteligentes, pero no todas se implementan con la calidad suficiente. Hemos seleccionado los que realmente funcionan.

El control por voz cuando se trabaja con teléfonos inteligentes y comunicadores modernos equipados con CPU suficientemente potentes es una tendencia establecida en la creación de interfaces de usuario convenientes. Es posible en diversos grados en las principales plataformas móviles. En iOS apareció en la versión 3.0 (completamente funcional a partir de la 4.0), en Google Android, en la versión 1.6 (completamente funcional, desde la 2.2). Esta función está relativamente bien implementada en Windows Mobile y S60. Hemos seleccionado varias soluciones que pueden reemplazar los módulos de control por voz estándar, así como software para ampliar la funcionalidad.

Características principales de los sistemas de reconocimiento de voz

Durante los últimos dos o tres años, el control de voz se ha considerado una de las tecnologías más prometedoras utilizadas en la creación de interfaces de usuario. Así lo anuncian los líderes de Microsoft, y los representantes de Google y Apple están mostrando un interés notable.

De hecho, el control de un dispositivo de comunicación móvil presionando botones ya parece arcaísmo. Las pantallas táctiles y la voz se comercializan como formas naturales para que los humanos interactúen con un dispositivo inteligente. Una característica importante de tales sistemas es el correcto reconocimiento de los comandos. Si todo es más o menos claro con el control táctil (los teléfonos inteligentes modernos incluso admiten el control mediante complejos gestos multitáctiles), entonces las cosas no son tan simples con los comandos de voz.

Primero, es posible que el sistema no siempre responda correctamente a cómo se pronuncian los comandos. Tendrás que adaptarte a ese control, lo cual no siempre es conveniente: es muy agotador estar al tanto del timbre de la voz y de las entonaciones todo el tiempo. En este caso, los comandos deben estar separados del ruido de fondo general, que requiere recursos computacionales.

En segundo lugar, dicho sistema no se enciende automáticamente; para activarlo, como regla general, debe presionar un botón en un dispositivo o accesorio (por ejemplo, un auricular inalámbrico). La inclusión de software no siempre es conveniente. En comunicadores con Windows Mobile con la pila de software Broadcomm, la activación de Microsoft Voice Commander desde un auricular Bluetooth puede funcionar de manera inestable o no funcionar en absoluto.

En tercer lugar, el control por voz aún no puede corregir las inexactitudes y errores del usuario. Por ejemplo, si intenta comenzar a reproducir una canción de un grupo cuyo nombre contiene el artículo "el" sin mencionarlo, entonces, en la mayoría de los casos, el dispositivo no entenderá dicho comando. También surgen dificultades al marcar los homónimos y los homónimos desde una computadora portátil; para un funcionamiento correcto, debe completar el campo "apodo" y asignar un comando de inicio adicional.

En cuarto lugar, para el uso constante de la marcación por voz (por ejemplo, al escribir un SMS), el procesador del dispositivo móvil lanza módulos del sistema de reconocimiento que consumen muchos recursos. Eso no tiene el mejor efecto sobre el rendimiento y la duración de la batería del comunicador. Sin embargo, ahora este problema se está resolviendo gradualmente.

Vlingo es un módulo de control de voz multiplataforma para trabajar con software de terceros

Speereo Voice Launcher ofrece un amplio conjunto de funciones para el control por voz e incluso comprende una pronunciación poco clara

Gestión de funciones estándar del sistema y búsqueda por voz.

En todos los sistemas operativos móviles populares, en un grado u otro, se implementa la posibilidad de reconocimiento de voz de comandos para lanzar aplicaciones típicas. Por ejemplo, marcar un número desde una libreta, abrir un cliente de correo electrónico o iniciar una lista de reproducción. Además, estos módulos pueden hacer sonar los procesos del sistema, informando que el teléfono se está agotando o está en modo de alerta silenciosa. Ninguno de los programas puede ejecutar comandos más complejos (por ejemplo, "abra un cliente de correo electrónico, escriba una carta al Sr. Ivanov y marque todos los mensajes de la Bandeja de entrada como leídos después de enviarlos"). Sin embargo, se están desarrollando gradualmente. Entonces, si le pregunta a un iPhone basado en iOS4 qué hora es ahora, se anunciará la hora del sistema. Además,el mismo programa de voz de este sistema operativo entiende las respuestas negativas del usuario: “no”, “incorrecto”, “incorrecto”, etc. En otros sistemas móviles hay que recurrir al control táctil en su lugar.

En los dispositivos WM clásicos, se utilizan dos paquetes para el control por voz: Cyberon Voice Commander y Microsoft Voice Command. Sin embargo, usarlos al mismo tiempo no funcionará; debe elegir uno.

El primero requiere cierta formación para reconocer los comandos, aunque la lista no es muy extensa. El programa puede llamar a contactos, entradas de "Calendario", ejecutar todas las aplicaciones estándar y algunas de terceros y reproducir música, así como leer mensajes entrantes. El segundo paquete controla adicionalmente el volumen, el modo de funcionamiento de las conexiones inalámbricas y también suena los eventos del sistema. Microsoft también tuvo recientemente un producto interesante, TellMe, para control de voz avanzado. Puede lanzar el cliente de búsqueda de Bing con una solicitud dictada de información, hablar sobre precios de acciones, resultados deportivos, clima, películas y condiciones del tráfico. Pero para todo esto, el dispositivo debe estar conectado a Internet y estar en el campo de visibilidad de los satélites GPS. Son estas herramientas las que se utilizan para calcular la ubicación.Además, este servicio no está disponible en ruso.

En iOS y Android por encima de la versión 2.2 de FroYo, los sistemas de marcación por voz incorporados son aproximadamente los mismos, con la excepción de que el producto de Google tiene la capacidad de enrutar rutas usando mapas a la ubicación de la oficina de una empresa determinada o un punto específico. En Symbian OS 5th Edition, el control por voz es responsable solo del rendimiento de las funciones estándar del sistema y, para la búsqueda por voz, deberá instalar un software por separado, por ejemplo, la aplicación Google Mobile.

Control por voz de funciones adicionales y lanzamiento de programas de terceros

Por supuesto, las herramientas de voz no solo deben facilitar parcialmente el trabajo diario con el comunicador, sino que deben asumir completamente el desempeño de las actividades diarias. Y no solo con programas estándar, sino también instalados adicionalmente por el usuario. Para estos fines, puede utilizar productos separados, por ejemplo, Speereo Voice Launcher. Este programa es compatible con Symbian OS (incluido S60), Windows Mobile y, en el futuro, con el sistema operativo Android. Es un shell compacto que le permite programar el inicio de cualquier aplicación y archivo y la transición a cualquier página web en el navegador.

El producto no depende mucho de las características de la voz del propietario: el motor de reconocimiento es capaz de detectar comandos pronunciados con acento o defectos menores de dicción. Se proporciona integración con programas estándar (cuaderno, organizador, cliente de mensajería instantánea), pero no hay transferencia de marcadores desde Favoritos. La definición de los comandos a ejecutar se realiza a través de la configuración de la aplicación. El usuario escribe el nombre del comando en ruso en latín o en uno de los idiomas admitidos (inglés, alemán, francés, etc.), después de lo cual se ingresa en la base de datos. Curiosamente, Speereo capta comandos incluso en entornos ruidosos.

Para las versiones de Google Android por debajo de la 2.2, hay tres aplicaciones que reemplazan el lanzador de aplicaciones Voice Actions que apareció en el sistema operativo Android FroYo. Primero, estos son los programas Edwin y Vlingo, que funcionan solo con inglés.

El primero es un cliente de reconocimiento de comandos de voz avanzado que proporciona no solo búsquedas en Google, sino también encontrar fórmulas matemáticas en Wtolfram Alpha, enviar mensajes a Twitter, etc.

El segundo cliente (se ejecuta en las plataformas iOS, WM, S60 y RIM BlackBerry) tiene las mismas características que TellMe de Microsoft. Así como la posibilidad de enviar estados a redes sociales, búsqueda de rutas e información de contacto de empresas de la zona. Finalmente, está TopVoiceControl para comunicadores de Android. Además de la marcación habitual de números de la libreta de direcciones y el reconocimiento de números hablados, puede controlar interfaces inalámbricas y abrir el calendario.

Lista de quehaceres

Los organizadores de voz siguen siendo exóticos, pero las primeras aplicaciones de este tipo ya están apareciendo y ganando cierta popularidad. Entonces, el mencionado desarrollador Speereo Software ofrece el programa Speereo Voice Organizer, diseñado para crear entradas en los correos electrónicos "Calendario" y "Tareas". Sin embargo, en este caso, la voz no se convierte en texto. El mensaje se envía como un archivo de audio adjunto y alerta sobre las tareas actuales. IOS tiene un cliente de correo electrónico QuickVoice2Text que reconoce los mensajes dictados y los traduce a formato de texto.

Para Google Android, se lanzó una aplicación de voz Taskos To Do List para agregar tareas a una lista de tareas pendientes y un programa para enviar SMS, cartas y mensajes a Twitter llamado VoiceLink.

Lista de tareas pendientes Haga una lista de tareas pendientes dictándolas a su dispositivo con sistema operativo Android

Referencia histórica

Las primeras tecnologías de reconocimiento de voz aparecieron en 1952 y permitieron detectar automáticamente los números hablados. A principios de la década de 1990, aparecieron en el mercado soluciones que podían manejar palabras y frases simples, así como oraciones simples. Eran comunes en los Estados Unidos y los usaban médicos y militares. La popularización de los sistemas de control por voz entre los consumidores comunes comenzó solo a principios del siglo XX y XXI, con la llegada de los teléfonos inteligentes.