Síntesis de voz

Contenido

Definición - ¿Qué significa la síntesis de voz?
Una introducción a Microsoft Azure y la nube de Microsoft | A lo largo de esta guía, aprenderá de qué se trata la computación en la nube y cómo Microsoft Azure puede ayudarlo a migrar y administrar su negocio desde la nube.
Techopedia explica la síntesis de voz

Definición - ¿Qué significa la síntesis de voz?

La síntesis del habla es una simulación artificial del habla humana con una computadora u otro dispositivo. Como contrapartida del reconocimiento de voz, la síntesis de voz se usa principalmente para traducir información en información de audio y en aplicaciones como servicios habilitados para voz y aplicaciones móviles. Además de esto, también se utiliza en tecnología de asistencia para ayudar a las personas con discapacidad visual a leer contenido.

Una introducción a Microsoft Azure y la nube de Microsoft | A lo largo de esta guía, aprenderá de qué se trata la computación en la nube y cómo Microsoft Azure puede ayudarlo a migrar y administrar su negocio desde la nube.

Techopedia explica la síntesis de voz

Homer Dudleys VODER, que se basó en el codificador de voz de los Laboratorios Bell, se considera el primer sintetizador de voz completamente funcional. La computadora utilizada en la síntesis de voz se conoce como sintetizador de voz o computadora de voz. La calidad de la computadora del habla a menudo se juzga por su similitud con la voz humana. La mayoría de los sistemas operativos informáticos han incorporado sintetizadores de voz desde principios de los años noventa. El discurso sintetizado generalmente se genera con la ayuda de concatenar piezas de discurso grabado, que está contenido en una base de datos.

La etapa inicial en la síntesis del habla es el preprocesamiento, lo que elimina la ambigüedad que rodea la forma en que se debe leer la palabra específica, y que también incluye el manejo de homógrafos. En la siguiente etapa de síntesis de voz, la computadora toma la ayuda de fonemas para convertir la secuencia en sonidos. La última etapa implica el uso de grabaciones humanas o técnicas básicas de generación de sonido para imitar el mecanismo de la voz humana y leer todo. Una de las ramas populares de la síntesis de voz es la síntesis de voz audiovisual o síntesis de voz multimodal, que utiliza una cara animada estrechamente sincronizada para complementar la voz sintetizada. La síntesis de voz multimodal también incorpora características adicionales, como las señales no verbales del discurso para ayudar a comunicar las palabras de los usuarios con mayor precisión. Muchos sistemas de síntesis de voz permiten a los usuarios elegir el tipo de voz, como la voz masculina o femenina.

La mayoría de los sistemas de síntesis de voz son capaces de leer sy emitirlos de una manera muy inteligente, aunque la voz a veces puede ser aburrida. Sin embargo, la síntesis de voz aún no ha desarrollado la capacidad de imitar completamente el amplio espectro de entonaciones y cadencias humanas.