Qué es la síntesis del habla: tipos importantes y más de 5 desafíos

https://pixlr.com/stock/details/1001104012-robot-saying-hello/

El tema de discusión: el robot Text-to-Speech y el complejo arte de la síntesis de voz

Robot de conversión de texto a voz

Síntesis de voz

El método de generar un habla similar a la humana artificial con la ayuda de máquinas se llama síntesis de voz. Un sistema informático que se utiliza para llevar a cabo este procedimiento se denomina sintetizador de voz. El sistema requiere una mayor implementación en software o hardware, y podemos notar una aplicación del mismo en un sistema Text-to-Speech (TTS). Un sistema Text-to-Speech acepta el lenguaje humano cotidiano en forma de texto como entrada y lo convierte en voz como salida.

Síntesis de voz
Descripción general del sistema TTS

La síntesis del habla se realiza secuenciando el habla grabada en forma de unidades que se almacenan en una base de datos. Los sistemas varían en el tamaño de las unidades de voz almacenadas; el rango de salida más extenso lo proporciona un sistema que almacena teléfonos o difonos con posibilidad de pérdida de claridad.

El almacenamiento de palabras u oraciones completas permite una producción de alta calidad para dominios de usuario particulares. Este método se puede sustituir incorporando un modelo de tracto vocal y varias otras características pertenecientes a la voz humana y generando una salida de voz artificial.

La calidad de salida de un sintetizador de voz está sujeta a su cercanía a la voz humana real y a la facilidad con la que se entiende. El uso del dispositivo de síntesis de voz ha sido evidente desde la década de 1990, que se ha desarrollado a fondo para ayudar a las personas con discapacidades y deficiencias específicas.

Descripción general del sistema Text-to-Speech

Hay dos partes importantes en un discurso de texto a voz:

  • Front End- Es responsable de convertir el texto de entrada que contiene varios símbolos, números y abreviaturas en la forma equivalente de datos comprensibles y convertibles. Este proceso se denomina normalización de texto o preprocesamiento de los datos. Luego, a cada palabra se le asignan transcripciones fonéticas y separa y etiqueta el texto en unidades prosódicas, como oraciones, cláusulas y frases, a través de un proceso denominado texto a fonema o grafema a fonema. Luego, los dos aspectos se combinan para generar los datos de salida que contienen la representación lingüística simbólica.
  • Back end- Generalmente denominada "sintetizador", esta parte es responsable de la representación lingüística simbólica en sonido. En el sistema avanzado, este proceso es seguido por el cálculo de la prosodia objetivo (contorno de tono, tiempos de fonemas), que se utilizará en el habla de salida.

Tecnologías involucradas en la síntesis del habla

La naturalidad y la inteligibilidad son los atributos más importantes que determinan la calidad de un dispositivo de síntesis de voz. La naturalidad se define por la capacidad del dispositivo para reproducir la voz humana lo más fielmente posible, y la inteligibilidad determina la facilidad con la que el dispositivo puede entender el sonido de salida. Los sintetizadores de voz se esfuerzan por producir resultados óptimos en ambos aspectos.

La síntesis concatenativa y la síntesis de formantes son las dos tecnologías principales que generan formas de onda de voz sintéticas. Hay ventajas y desventajas en cada tecnología, y los usos comunes de un método de síntesis generalmente dictan la elección de uno de estos enfoques.

Síntesis concatenativa

La secuenciación de fragmentos de voz grabada de cierta manera se denomina síntesis concateativa. Este proceso normalmente produce el habla sintetizada con un sonido más natural. Sin embargo, las inconsistencias entre las variaciones naturales del habla y el diseño de los métodos automatizados de segmentación de formas de onda a menudo dan como resultado fallas de salida audibles.

Existen tres subtipos importantes de síntesis concatenativa.

  1. Síntesis de selección de unidades- La entrada para esta técnica de selección es una extensa base de datos de voz grabada. La segmentación de la base de datos se lleva a cabo utilizando un reconocedor de voz configurado en modo de alineación forzada. La segmentación da como resultado unidades como teléfonos, difonos, palabras, frases, sílabas, morfemas, oraciones, etc. La indexación de estas unidades se basa en varios parámetros como tono, duración, posición en la sílaba y los teléfonos vecinos. El proceso del árbol de decisiones selecciona las unidades más adecuadas para formar una cadena de ejecución. Cuanto más extensa sea la base de datos, más natural será el discurso de salida. Esta técnica ofrece la naturalidad más extraordinaria para la salida de voz basada en los datos registrados.
  2. Síntesis de difonos- La base de datos para esta técnica consta solo de difonos, lo que la hace relativamente pequeña. La fonotáctica de un idioma seleccionado determina el conjunto de todos los difonos únicos que se deben considerar. La base de datos de voz consta de una única grabación de cada difono. Se utilizan varias técnicas de procesamiento de señales digitales como PSOLA, MBROLA, codificación predictiva lineal para superponer la oración de destino en estas unidades de difono. El uso de la síntesis de difonos se limita a la investigación porque el habla carece de naturalidad, suena muy robótico y contiene fallas sónicas.
  3. Síntesis de dominio específico La base de datos de esta técnica se limita a palabras y frases pregrabadas. La aplicabilidad de este método de síntesis se limita al dominio en función del cual se genera la base de datos, por ejemplo, anuncios de estaciones de tren, informes meteorológicos, relojes parlantes, etc. La implementación de esta tecnología es sencilla y, al mismo tiempo, tiene un alto nivel de la naturalidad se puede lograr debido a las oraciones de salida limitadas. Para lograr una combinación fluida de palabras con un habla natural, se deben tener en cuenta muchas variaciones del idioma.

Síntesis de formantes

Para muchas aplicaciones, la naturalidad del habla no es un objetivo; más bien, la confiabilidad, la inteligencia y la precisión de alta velocidad son más importantes. Esto se puede lograr mediante la síntesis de formantes, que crea un discurso sintetizado empleando síntesis aditiva y modelado acústico. Este método, también llamado síntesis basada en reglas, crea una forma de onda de voz artificial mediante la variación de parámetros como frecuencia, niveles de ruido y voz.

Es muy poco probable que el habla artificial con sonido robótico creada por la tecnología de síntesis de formantes se confunda con el habla humana. Los fallos acústicos, que son comunes en los sistemas concatenativos, se eliminan principalmente en esta técnica. Debido a la ausencia de una base de datos extensa de grabaciones de voz, estos programas son relativamente pequeños porque encuentran uso en sistemas integrados donde la potencia de procesamiento es limitada.

Es posible transmitir una variedad de tonos de voz y emociones además de las preguntas y declaraciones estándar porque los sistemas basados ​​en formatos exhiben un control completo sobre todos los aspectos de la salida. Por ejemplo, muchos videojuegos notables han hecho uso de la tecnología de síntesis de formato para el habla interactiva.

Síntesis articulatoria

El método utilizado para generar los sonidos del habla basados ​​en el modelo del tracto vocal humano se llama síntesis articulatoria. Tiene como objetivo simular los articuladores del habla de una o más formas. Ofrece una forma de comprender el desarrollo del habla y de investigar la fonética.

La coarticulación es un efecto que ocurre naturalmente en dicho modelo, y debería ser posible tratar correctamente en teoría las propiedades de la fuente glotal, la relación del tracto vocal con los pliegues vocales y cómo el sistema subglotal, el tracto nasal y las cavidades sinusales influyen en la generación de un habla similar a la humana a través de este modelo.

La síntesis articulatoria comprende típicamente dos componentes distintos: el tracto vocal, que se divide en varios subcomponentes, y las regiones transversales correspondientes utilizadas paramétricamente para el reflejo de las características de las cuerdas vocales. En el modelo acústico, una línea de transmisión analógica eléctrica se aproxima a cada campo de sección transversal.

La simulación del tracto vocal está sujeta a los cambios que aparecen en las funciones del área con respecto al tiempo. La configuración objetivo asignada a cada sonido determina el ritmo del movimiento del tracto vocal. Si se construye correctamente, el sintetizador articulatorio puede reproducir todos los efectos relevantes en el desarrollo de fricativas y oclusivas y modelar transiciones de coarticulación para replicar los procesos involucrados en la producción real del habla.

A mediados de la década de 1970, en Haskins Laboratories, Philip Rubin, Tom Baer y Paul Mermelstein crearon el primer sintetizador articulatorio comúnmente utilizado para experimentos de laboratorio.

Síntesis basada en HMM

Se trata de una síntesis paramétrica estadística siguiendo los "modelos ocultos de Markov". HMM modele simultáneamente el espectro de frecuencia, la frecuencia fundamental y la longitud de la conversación en este método. Las formas de onda del habla creadas según el criterio de máxima verosimilitud se crean a partir de los propios HMM.

Un modelo de Markov oculto (HMM) en biología computacional es una técnica matemática que se utiliza principalmente para el modelado de secuencias biológicas. Una secuencia se modela como una salida de un método estocástico discreto en su implementación, que avanza a través de un conjunto de estados secuenciales que están "ocultos" al observador.

Síntesis de ondas sinusoidales

La síntesis de ondas sinusoidales, o voz de ondas sinusoidales, es un método de sintetizar el habla sustituyendo los silbidos de tono puro por los formantes (bandas de energía prominentes). Philip Rubin creó el primer software de síntesis de ondas senoidales (SWS) para la producción automatizada de estímulos para experimentos de percepción en Haskins Laboratories en la década de 1970.

El habla de onda sinusoidal es un fenómeno peculiar en el que algunas de las características del habla son asumidas por un pequeño número de sinusoides juntas, a las que no se parecen en absoluto en la mayoría de los aspectos. Se puede lograr una alta inteligibilidad utilizando tres sinusoides que rastrean la frecuencia y amplitud de los primeros tres formantes de voz.

Síntesis basada en aprendizaje profundo

A diferencia del enfoque basado en HMM, el método basado en Deep Learning asigna explícitamente las características lingüísticas a las características acústicas con redes neuronales profundas que han demostrado ser extremadamente exitosas en el aprendizaje de las características inherentes de los datos. La gente ha sugerido varios modelos en la larga tradición de estudios que siguen métodos basados ​​en el aprendizaje profundo para la síntesis de voz.

Una herramienta útil para la síntesis de voz se ha convertido aprendizaje profundo capaz de explotar grandes cantidades de datos de entrenamiento. Recientemente, se han realizado más y más investigaciones sobre técnicas de aprendizaje profundo o incluso sistemas de extremo a extremo, y se ha logrado un éxito de vanguardia.

Fuente de la imagen: Archivo original: Avimanyu786 Versión SVG: Tukijaaliwa, AI-ML-DL, CC BY-SA 4.0

Septiembre de 2016 marcó el comienzo de WaveNet por Mente profunda, un modelo generativo profundo de formas de onda de audio sin procesar. Hizo evidente que los modelos basados ​​en el aprendizaje profundo pueden modelar formas de onda sin procesar y funcionar bien a partir de características acústicas como espectrogramas o características lingüísticas preprocesadas específicas para generar expresión.

Ventajas de los sistemas de extremo a extremo

  • Capacidad limitada de análisis de texto utilizando un solo sistema.
  • Cantidad limitada de ingeniería de funciones.
  • Rico acondicionamiento de los atributos existentes y fácil adaptación a los más nuevos.
  • Mayor naturalidad e inteligencia.
  • Más robusto en comparación con los modelos de varias etapas.

Desventajas de los sistemas de extremo a extremo

  • Existencia de un problema de inferencia lenta.
  • Los datos menores dan como resultado un discurso de salida menos robusto.
  • Capacidad de control limitada que el enfoque concateativo.
  • La prosodia plana se desarrolla promediando los datos de entrenamiento.

Desafíos involucrados en la síntesis del habla

  1. Acomodación de palabras pronunciadas de manera diferente que tienen la misma ortografía, según el contexto.
  2. Inferencia de cómo expandir un no. basado en la palabra, el número y la puntuación circundantes. Por ejemplo, 1465 puede ser 'mil cuatrocientos sesenta y cinco' o también puede leerse como 'uno cuatro seis cinco', 'catorce sesenta y cinco' o 'catorcecientos sesenta y cinco'.
  3. Ambigüedad en abreviaturas. Por ejemplo, 'en' para 'pulgadas' debe diferenciarse de la palabra 'en'.
  4. El enfoque basado en el diccionario (buscar cada palabra en el diccionario y sustituir la ortografía con la pronunciación detallada en el diccionario para elegir la pronunciación correcta de cada palabra) del proceso de texto a fonema falla completamente para cualquier palabra que se pueda encontrar en el diccionario.
  5. Enfoque basado en reglas (para evaluar sus pronunciaciones en función de su ortografía, se aplican reglas de pronunciación a las palabras o el enfoque de "aprender a leer") del proceso de texto a fonema falla ya que el esquema tiene en cuenta ortografías o pronunciaciones inusuales porque la sofisticación de las reglas aumenta considerablemente.
  6. Dificultad en la evaluación confiable de los sistemas de síntesis de voz debido a la falta de estándares de desempeño objetivos generalmente aceptados.
  7. Desplazamiento del contorno tonal de la oración, según sea una expresión afirmativa, interrogativa o exclamativa.

Para el artículo anterior sobre el robot con ruedas Mecanum, Haga clic aquí.

Sobre Esha Chakraborty

Tengo experiencia en Ingeniería Aeroespacial, actualmente trabajando en la aplicación de la Robótica en la Defensa y la Industria de las Ciencias Espaciales. Soy un aprendiz continuo y mi pasión por las artes creativas me mantiene inclinado hacia el diseño de conceptos novedosos de ingeniería.
Con los robots sustituyendo casi todas las acciones humanas en el futuro, me gusta llevar a mis lectores los aspectos fundamentales del tema de una manera fácil pero informativa. También me gusta mantenerme actualizado con los avances en la industria aeroespacial simultáneamente.

Conéctese conmigo con LinkedIn: http://linkedin.com/in/eshachakraborty93

Frikis Lambda