Ann, quien sufría de parálisis que le impedía hablar, ha podido recuperar la capacidad de hacerlo gracias a una neuroprótesis que transmite la voz directamente desde el cerebro en tiempo real. Este avance fue desarrollado por un equipo de investigadores de UC Berkeley y UC San Francisco y está dirigido a restaurar el habla en personas con parálisis severa.
La investigación, publicada en Nature Neuroscience, resuelve el problema de la latencia en las neuroprótesis del habla, que consiste en el retraso entre el intento de hablar de una persona y la producción del sonido. Utilizando avances en inteligencia artificial, los investigadores crearon un método para sintetizar las señales cerebrales en voz audible casi instantáneamente.
Gopala Anumanchipalli, uno de los investigadores, explicó que este enfoque de transmisión incorpora la capacidad de decodificación rápida de voz, similar a la que usan dispositivos como Alexa y Siri. El algoritmo desarrollado por el equipo permite decodificar datos neuronales y generar una voz casi sincrónica, lo que resulta en una síntesis de voz más fluida y natural.
El neurocirujano Edward Chang, co-investigador principal, destacó el enorme potencial de esta tecnología para mejorar la calidad de vida de personas con parálisis grave que afecta el habla. Además, los investigadores demostraron que su enfoque funciona con diferentes interfaces de detección cerebral, incluidas matrices de microelectrodos y grabaciones no invasivas de actividad muscular.
La neuroprótesis recolecta datos neuronales de la corteza motora, la parte del cerebro que controla el habla, y los traduce en voz mediante un algoritmo basado en IA. Para entrenar este sistema, pidieron a Ann que intentara decir una oración en silencio, lo que permitió mapear la actividad neuronal y asociarla con la frase deseada sin necesidad de vocalizar.
Aunque Ann no tenía vocalización residual, los investigadores superaron este desafío utilizando inteligencia artificial para generar una simulación de audio y hacer que la voz decodificada se pareciera a la de Ann antes de la lesión. Gracias a esta técnica, la latencia de la decodificación se redujo drásticamente, permitiendo que el dispositivo produjera la salida de voz casi en tiempo real, sin interrupciones.
El equipo también probó la capacidad del modelo para sintetizar palabras fuera del vocabulario previamente entrenado, como palabras del alfabeto fonético de la OTAN, y descubrió que el modelo podía decodificar correctamente incluso esas palabras, lo que demuestra su capacidad para aprender los componentes fundamentales del sonido y la voz.