Microsoft iguala hombre y máquina: su reconocimiento de voz alcanza niveles humanos de fiabilidad

Un equipo de científicos de la división de inteligencia artificial e investigación de Microsoft ha roto una nueva barrera en la comunicación entre ordenadores y seres humanos con la creación del primer sistema de reconocimiento del habla que alcanza niveles de precisión humanos en la transcripción de palabras.

Dicho de otra forma, la tecnología desarrollada por estos investigadores hace posible que una máquina entienda las palabras dictadas por un usuario tan bien o incluso mejor que cualquier otra persona.

De acuerdo con la documentación publicada por el equipo, la tasa de palabras erróneas introducidas por el sistema es del 5,9%, lo que supone una importante mejora frente al 6,3% obtenido anteriormente. Este es aproximadamente el porcentaje de errores observado en varios sujetos de carne y hueso a los que se les pidió transcribir la misma conversación de prueba; de hecho, Microsoft asegura que no solo es el nivel más bajo jamás observado, sino que su sistema comete menos errores que las personas que se dedican profesionalmente a este tipo de labores.

Más allá de su capacidad para distinguir correctamente palabras con cierto parecido sonoro, la clave en la precisión del nuevo sistema de reconocimiento del habla de Microsoft reside en el uso de "modelos de lenguaje neuronal en los que las palabras se representan como vectores continuos en el espacio", poniendo como ejemplo palabras de cierta proximidad como "rápido" y "veloz".

La finalidad de tener el sistema de reconocimiento de voz más refinado de la industria es más que obvia: afianzar la presencia y mejorar el funcionamiento de Cortana como asistente personal. Una mayor fiabilidad en la interpretación de las palabras implica una mayor comprensión de las preguntas y órdenes de los usuarios, lo que a su vez redunda en resultados más precisos y satisfactorios.

Microsoft tiene ahora tres metas importantes para su equipo de investigadores: optimizar la tecnología para que pueda funcionar en lugares con elevados niveles de ruido, identificar distintos usuarios utilizando el mismo dispositivo y (más adelante) ampliar su tecnología de reconocimiento de voz a comprensión de voz, yendo más allá de las simples señales acústicas.

Microsoft iguala hombre y máquina: su reconocimiento de voz alcanza niveles humanos de fiabilidad

Noticias relacionadas

IBM utilizó miles de fotos de Flickr para entrenar software de reconocimiento facial sin avisar 32 13 mar 2019

Los ingresos de Microsoft suben gracias a su negocio en la nube 41 21 oct 2016

Twitter estaría en conversaciones con Google, Microsoft y Salesforce para una posible venta 71 23 sep 2016

Microsoft también preinstalará sus aplicaciones en los dispositivos Android de Lenovo 69 23 ago 2016

Microsoft ya permite la compra de Hololens a cualquier persona en Canadá y Estados Unidos 35 3 ago 2016

Microsoft despide a otros 2.850 empleados y apunta a un posible cierre de la división móvil 101 29 jul 2016

Lo más visto de la semana

Phil Spencer, director ejecutivo de Microsoft Gaming, se retira

LaLiga y Telefónica logran que Nord VPN y ProtonVPN se sometan a su bloqueo de IPs

Ha muerto Hideki Sato, diseñador de las consolas de Sega

Sony cierra Bluepoint Games, el equipo responsable del remake de Demon's Souls y Shadow of the Colossus

Pokémon Rojo Fuego y Verde Hoja llegarán a Switch el 27 de febrero por 19,99 euros cada uno

Xenoblade Chronicles X llega a Switch 2 con resolución hasta 4K y 60 FPS

El continuista Google Pixel 10a se hace oficial con el mismo chipset que el Pixel 9a y casi sin cambios importantes

Avowed celebra su primer aniversario lanzando una versión para PS5 y una gran actualización

Steam Deck OLED puede "agotarse temporalmente" por la escasez de RAM

Kingdom Come: Deliverance II y The Witcher III lideran la nueva oleada de juegos para Game Pass