Design and Evaluation of Statistical Parametric Techniques in Expressive Text-To-SpeechEmotion and Speaking Styles Transplantation
- Lorenzo Trueba, Jaime
- Juan Manuel Montero Martínez Zuzendaria
- Roberto Barra-Chicote Zuzendarikidea
Defentsa unibertsitatea: Universidad Politécnica de Madrid
Fecha de defensa: 2016(e)ko ekaina-(a)k 02
- Luis Alfonso Hernández Gómez Presidentea
- Ricardo De Córdoba Herralde Idazkaria
- Ignacio Iriondo Sanz Kidea
- Javier Macías Guarasa Kidea
- Simon King Kidea
Mota: Tesia
Laburpena
Acompañando al incremento en la implementación de las tecnologías en la vida cotidiana ha habido una gran concienciación sobre la utilidad de las tecnologías de habla como nexo entre humano y máquina. En concreto en el campo de la conversión texto a voz ha habido grandes avances en naturalidad y calidad aupados por las fuertes inversiones realizadas por grandes multinacionales tecnológicas. La mayor parte de estas mejoras se deben a los avances en las técnicas basadas en redes neuronales profundas, capaces de generar voces de muy alta calidad en aplicaciones tradicionales. A pesar de ello, conseguir sistemas de síntesis de voz expresivos de alta naturalidad sigue siendo un problema debido a la escasez de datos de entrenamiento. Generalmente conseguir buenos sintetizadores requiere elevadas cantidades de información, algo fácil de conseguir en habla leida pero mucho más difícil si pensamos en expresividades concretas como emociones o estilos de habla. Tradicionalmente la forma de solucionar esta limitación ha sido la aplicación de técnicas de adaptación para convertir modelos robustos entrenados con datos de diferentes fuentes en el locutor y expresividad deseada, pero esto también tiene sus limitaciones. Esta tesis busca solucionar los problemas existentes en las técnicas tradicionales de síntesis de voz expresiva centrándose en un aspecto concreto: la escalabilidad. Por una parte, conseguir datos para todas las expresividades y locutores es una tarea inafrontable, y por otro lado las soluciones tradicionales suelen introducir otra clase de limitaciones en la naturalidad o intensidad expresiva. Esta tesis presenta en primer lugar un sistema capaz de controlar las características paralingüísticas de la voz (los cambios dinámicos en la forma de hablar que transmiten información expresiva), permitiéndonos controlar la intensidad expresiva generada en la síntesis. Así se vuelve posible generar diferentes niveles de intensidad expresiva partiendo de un único nivel de partida. En segundo lugar presenta un sistema de trasplante de información paralingüística que permite incluir información expresiva en un locutor destino sin necesidad de tener información expresiva de dicho locutor. Finalmente se introduce un sistema completo de conversión texto a voz expresivo automático capaz de detectar qué expresividad es la más adecuada para transmitir el texto que se desea sintetizar, y posteriormente generar el mensaje hablado correspondiente sin ninguna interacción por parte del usuario más allá de introducir el texto deseado. Todos los sistemas propuestos y sus variantes han sido evaluados perceptualmente gracias a la colaboración de numerosos voluntarios, lo que nos ha permitido certificar los beneficios que aportan a las técnicas de síntesis de habla expresiva. Las evaluaciones fueron diseñadas para minimizar posibles sesgos en las evaluaciones y fueron analizadas con estrictos criterios de significancia estadística, fijando bandas de confianza del 95%. Los resultados de las evaluaciones demostraron que el sistema de control de características paralingüísticas es capaz de controlar de forma prácticamente lineal la intensidad emocional generada (0,97 de correlación con el sistema ideal) a la vez que aporta un 70,6% de tasas de reconocimiento de las emociones sintetizadas, valores muy superiores a los conseguidos con las técnicas tradicionales. En cuanto al sistema de trasplante de información paralingüística vemos que es capaz de mejorar en 1,2 puntos de la escala MOS la intensidad emocional generada en el locutor destino a costa de únicamente 0,4 puntos de calidad, traduciéndose en una media de 87% de preferencia de los evaluadores hacia un sistema trasplantado frente a un sistema no emocional. Los resultados se confirmaron también para el trasplante de estilos de habla como retransmisión de partidos de fútbol o discurso político. Por último se probó las capacidades de trasplante de emociones a través de idiomas, de emociones de un locutor español a uno inglés concretamente, dando resultados razonables. Finalmente, para la evaluación y diseño del sistema completo de conversión texto a voz expresivo automático empezamos por grabar una base de datos de estilos de habla de un único locutor en castellano, Spanish Speaking Styles. Esta base de datos es la primera de su clase pensada explícitamente para la tarea de síntesis de estilos de habla, tarea para la que constar con un único locutor aumenta significativamente la calidad. Con estos datos se evaluaron tres enfoques del sistema de síntesis: uno discreto en el que se predice el estilo de habla a partir del texto y se sintetiza directamente, uno semi-continuo en el que además se extrae información del texto que permite generar una intensidad expresiva más adecuada y finalmente un sistema contínuo que no depende de ninguna predicción sino que directamente utiliza información léxica para generar la voz. Los resultados muestran que los tres sistemas son capaces de mejorar significativamente los resultados de la síntesis tradicional en términos de adecuación de la voz generada (en media entre 1,0 y 1,5 por encima) y en intensidad expresiva (entre 1,1 y 2,0 mejor dependiendo del sistema). En cuanto a calidad los sistemas discreto y semi-continuo no sufren ninguna caida en comparación a los mejores sistemas neutros (4 puntos en la escala MOS en media). El sistema continuo, principalmente debido a la naturaleza semi-continua de los datos de entrenamiento, introduce artefactos que estropean la calidad de la voz generada. ABSTRACT Together with the rise in the implementation of technology in daily life the awareness of the usefulness of speech technology as a nexus between humans and machines has risen too. Concretely in the field of text to speech conversion there have been huge advancements in terms of naturalness and quality spurred by big investments carried out by some of the most successful multinational technological companies. Most of the advances have come thanks to the progress made in techniques based on deep neural networks, capable of generating voices of very high quality in traditional applications. Nonetheless, designing expressive text to speech synthesis systems with high naturalness is still a problem mainly because of data scarcity. Generally obtaining good synthesizers require vast amounts of information, something that is reasonably easy to obtain for neutral, read speech, but significantly harder to obtain when thinking about particular expressiveness such as emotions or speaking styles. Traditionally, the way to solve this limitation has been the application of adaptation-based techniques that convert robust models trained with diverse and abundant data into models for the desired speaker and expressiveness, but those approaches also have their limits. The present document aims to solve some of the existing problems in the traditional expressive speech synthesis techniques by focusing in one particular aspect: scalability. On one hand, gathering data for every expressiveness and speaker is a task that cannot realistically be tackled. On the other hand, traditional solutions typically induce limitations in naturalness or expressive intensity. This thesis presents first of all a system capable of controlling the paralinguistic properties of speech (the dynamic changes in the way of speaking that convey expressive information), allowing us to control the expressive strength produced by the synthesis. Thus, it becomes possible to generate different levels of expressive intensity even if the source data does not contemplate it. Secondly, it presents a system for transplanting the paralinguistic information into a different target speaker which allows us to imbue expressive information into a target speaker for whom no expressive information is available. Finally it introduces a complete and automatic expressive text to speech system, capable of detecting the most adequate expressiveness for conveying the text to be synthesized and then generate the corresponding audio file without any further interaction from the user. All the proposed systems and their variants have been perceptually evaluated thanks to the collaboration of numerous volunteers, which has allowed us to certify the benefits that our systems provide to the field of expressive speech synthesis. The evaluations were designed to minimize evaluation bias and were analyzed with strict statistical significance criteria, fixing a 95% confidence band. The results of the evaluations proved that the paralinguistic features control system is capable of controlling in a practically linear fashion the produced emotional strength (correlation coefficient of 0.97 when compared with the ideal linear system) while providing a 70.6% of emotion identification rates. These results are significantly better to those achievable by traditional techniques. In terms of the transplantation system, we see how it is capable of increasing by 1.2 points in the MOS scale the produced expressive strength of the target speaker when compared to the non transplanted version at a cost of just 0.4 points in speech quality. This translates into an average preference rate for the transplanted system of 87% when compared with a neutral system. The results are consistent when transplanting speaking styles such as live sports broadcasts or political speech. The system was also modified to add cross-lingual transplantation capabilities, which worked reasonably well when transplanting Spanish paralinguistic information into an English speaker. Finally, for the evaluation and design of the complete expressive text to speech system we began by recording a single speaker Spanish speaking styles database, SSS. This database is the first of is kind to be designed explicitly with speech synthesis in mind, a task for which using data for a single speaker significantly helps increase quality. With these data we evaluated three approaches to the speech synthesis system: a discrete one in which the most adequate speaking style is predicted from the genre of the text to be synthesized, a semi-continuous approach that improves on the discrete system by adding expressive intensity information and finally a continuous system that does not rely on gender prediction techniques and directly makes use of lexical information to generate the speech. The results show how all three systems are capable of significantly improving traditional speech synthesis systems in terms of adequacy (average improvements between 1.0 and 1.5 depending on the system) and in terms of produced expressive strength (improvements between 1.1 and 2.0 in this case). In terms of speech quality both the discrete and the semi-continuous system are capable of maintaining neutral speech synthesis rates (averages of 4 points in the MOS scale). The continuous system, mainly due to the semi-continuous nature of the training data, introduces artifacts in the synthetic speech that harm the produced speech quality.