PROGRAMAS

El reconocimiento de voz para dialogar con máquinas avanza en la industria y los móviles

Las empresas y los centros de atención al cliente implantan estos sistemas informáticos para ahorrar costes. El robot de la Agencia Tributaria atiende 2,3 millones de llamadas de contribuyentes en seis meses.

8 AGO 2002

¿Necesita que le devuelvan el IVA pero no se atreve a insistir para no parecer descortés? No hay problema: llame al 901 12 12 24 y compruebe que, tras pedirle el DNI y la cantidad de euros a devolver, le dan una respuesta efectiva. En realidad, el funcionario que le contesta es un robot. Un servidor de voz que de enero a junio ha atendido 2,3 millones de llamadas, la mayoría sobre la devolución del IVA. Su implantación en la Agencia Tributaria representa otro avance de la tecnología de reconocimiento de voz (RV) en su viaje de los dominios de la ciencia-ficción a la vida cotidiana.

Pensada para mejorar el diálogo entre humanos y máquinas, la RV se empezó a usar en ordenadores capaces de obedecer mandatos vocales y transcribir dictados. También ha hecho fortuna en los centros de atención al cliente, automatizando las gestiones telefónicas.

El impulso de VoiceXML

Una generación más sofisticada de RV se empieza a integrar en aplicaciones corporativas, aprovechando el impulso que el estándar VoiceXML da a la convergencia entre Internet y los servicios de respuesta vocal. O el de SALT, el estándar alternativo que impulsa Microsoft, entre otros, y pone el énfasis en la sincronización de los servicios de acceso que utilizan los clientes de una empresa.

Unisys, Oracle y Siebel ya incluyen aplicaciones de RV de terceros fabricantes en sus soluciones empresariales. IBM utiliza su motor, WebSphere Voice Server, disponible en castellano, para que la voz pueda interactuar con las aplicaciones web. 'Puede hacer lo mismo con las órdenes orales y la voz sintetizada que un sistema con teclado', dice Ángel Castillo, de IBM España.

Otro actor histórico en esta actividad es Philips. Tras varias décadas investigando en tecnología de voz, se está centrando ahora en soluciones sectoriales. Como Professional Speech Magic, destinado a entornos de radiología e integrado en entornos sanitarios de gestión de pacientes, cuya versión en castellano llegará en octubre.

Dos factores impulsan la confluencia entre el reconocimiento de voz y la empresa: el ahorro económico y la necesidad de automatizar las relaciones con el cliente. 'No podemos ni imaginar el coste que supone atender con personas las 720 líneas RDSI que cubre el robot', dice Santiago Segarra, jefe de Informática en la Agencia Tributaria.

Además, 'son más eficaces a la hora de interpretar datos en tiempo real, como los servicios de Bolsa', añade Luis Villarubia, responsable de tecnología del habla en Telefónica I+D.

¿Inconvenientes? 'Para dar un buen servicio hay que diseñar bien la ergonomía del sistema y prever cuál puede ser su reacción en cada fase', admite Villarrubia.

Complejidad y costes crecen cuando el sistema necesita entender diferentes lenguajes: la satisfacción de los clientes aumenta si se les atiende en su idioma. 'Nuestros productos entienden castellano, catalán, vasco y gallego, además del español peruano y argentino y el portugués brasileño', dice Villarrubia.

Los fabricantes se disponen a librar un duro pulso para sustituir a teclados y mandos en toda clase de sistemas. Grandes servidores, aparatos móviles y terminales telefónicos, pero también equipos industriales, automóviles y electrodomésticos. Y creen que esta vez lo van a ganar. 'La voz es el instrumento idóneo para el diálogo entre los seres humanos y sus herramientas', declara Javier Viver, responsable de la unidad Speech Processing de Philips para el sur de Europa.

El problema es cuándo. En sus cuatro décadas de existencia no ha conseguido llegar al gran público. En parte porque sus expectativas siempre han sido superiores a lo que la tecnología de reconocimiento de voz podía conseguir realmente en cada fase de su desarrollo. Algunos fracasos económicos tampoco han ayudado, como la quiebra de la belga L&H, una de las empresas punteras.

En España, las exigencias de rentabilidad han dado al traste con varios proyectos importantes. Otros simplemente no han continuado, como el de ATT, que culminó en la Expo de 1992 y se orientó a los entornos bancarios. Pero su socio en aquel proyecto, Telefónica I+D, ha continuado tres líneas de investigación relacionadas con la tecnología del habla: reconocimiento de voz, conversión de texto a voz y verificación de locutor mediante voz.

Uno de sus productos más conocidos es el Reconocedor Universal Multilingüe, un sistema para plataformas Windows, Unixware y Linux que permite reconocer números naturales, palabras y frases cortas. Para después del verano, esta compañía del Grupo Telefónica quiere comercializar el Reconocedor de Lenguaje Natural, una versión más ambiciosa que, asegura Villarrubia, 'utiliza el lenguaje que emplean normalmente las personas para conversar entre sí'.

Los motores de reconocimiento están pasando de entender unas decenas de palabras a dominar vocabularios de cientos de miles. Siguen lejos de poder discutir con los humanos al modo de HAL, el ordenador imaginado por Stanley Kubrick en su 2001: una odisea del espacio, pero están impacientes por demostrar su utilidad en nuevos campos. A los ya mencionados se añaden las interfaces y navegadores para discapacitados, el aprendizaje de idiomas o las aplicaciones de autenticación basadas en la voz del usuario.

Microsoft, que trabaja en esta tecnología desde 1993, está avanzando un módulo de voz enfocado al servidor de mapas Map Point. Este prototipo permite interrogar vocalmente a los sistemas de información geográficos (GIS), por ejemplo, sobre las rutas de tráfico más cortas o la ubicación del restaurante más cercano y recibir las respuestas orales. 'Creemos que el futuro de la voz pasa por este tipo de usos, especialmente desde aparatos inalámbricos', explica el madrileño Alejandro Acero, responsable del Grupo de Voz del Microsoft Research, en Redmond (Seattle).

En su conjunto, la facturación de este mercado superará los 3.500 millones de euros en 2005, según la consultora IDC. Los fabricantes aceptan que la actual situación económica puede retrasar sus previsiones, pero creen que la RV terminará por eclosionar. 'El proceso de miniaturización pasa obligatoriamente por el uso de la voz', pronostica Viver.

* Este artículo apareció en la edición impresa del Jueves, 8 de agosto de 2002