Reproducen rostro de una persona a partir del sonido de su voz
Un grupo de investigadores estadounidenses ha creado una red neuronal capaz de reconstruir una imagen aproximada del rostro de una persona a partir del análisis del sonido de su voz.
El algoritmo Speech2Face consta de tres etapas: crear una expresión facial neutral del individuo, desarrollar un espectrograma del audio para determinar sus peculiaridades y generar el rostro en función de los datos obtenidos.
En el proceso, la inteligencia artificial determina la edad, el sexo y la pertenencia étnica del individuo en base a su acento.
Para entrenar este modelo, los investigadores del Instituto de Tecnología de Massachusetts (MIT) cargaron en el sistema más de un millón de videos de personas hablando.
En el curso de los experimentos, los investigadores compararon las caras creadas por Speech2Face con la verdadera imagen de las personas cuya voz había sido analizada por el modelo. El algoritmo resultó ser no muy preciso. Por ejemplo, determinaba la edad con un margen de error de hasta diez años. Debido a las peculiaridades de las muestras, la red neuronal mostró sus mejores resultados en individuos de aspecto europeo y asiático.
Al mismo tiempo, los investigadores señalaron que no buscan reconstruir una imagen precisa de los rostros, sino intentar extraer ciertas características físicas a partir del sonido de la voz. (Texto y foto: https://actualidad.rt.com)