El pasado mes de agosto se presentó Meta Sin costuraM4T, su modelo de IA de traducción multimodal que admite casi 100 idiomas diferentes para texto y 36 para voz. Una herramienta muy completa en sí misma, pero que la compañía planea ampliar aún más para mejorar aún más las traducciones de las conversaciones. más espontáneo y expresivo. Es precisamente por esta razón que Meta presentó recientemente «TransparenteExpresivo««,un modelo para preservar la expresión en la traducción de voz a voz«, transferir detalles expresivos en la traducciónMe gusta el tono, el volumen, la velocidad al hablar y las pausas. Una novedad que no resulta nada interesante, sabiendo que hasta ahora las traducciones siempre han resultado ser robóticas. Por el momento, las funciones soportan seis idiomas: Inglés, Español, Alemán, Francés, italiano Y Chino.
Pero eso no es todo. Meta anunció que también había desarrollado el modelo «Transmisión fluida«, comienza capaz la traducción de un discurso. mientras el orador sigue hablando, permitiendo así que la audiencia escuche la traducción más rápidamente. Por ahora, parece que todavía está allí. un intervalo de 2 segundos entre las palabras del hablante y su traducción, pero al menos ya no será necesario esperar al final de una frase para obtener la traducción. De hecho, el modelo apoya “reconocimiento automático de voz y traducción de voz a texto para casi 100 idiomas de entrada y salida, así como traducción de voz a voz para casi 100 idiomas de entrada y 36 idiomas de salida«. Teniendo en cuenta que los diferentes lenguajes tienen diferentes construcciones sintácticas, la empresa tuvo que desarrollar un algoritmo, Efficient Monotonic Multihead Attention (EMMA), dedicado a estudio parcial de entrada de audiopara que pueda decidir de forma independiente si hay suficiente contexto para comenzar a generar resultados traducidos o si, en cambio, debe continuar escuchando.
En definitiva, Meta ha trabajado duro para poder crear modelos de traducción que apoyen a los usuarios en todas las situaciones, pero sin descuidar nunca la seguridad. Cada pista traducida estará marcada con una marca de agua de audio«,una señal imperceptible para el oído humano, pero aún detectable en audio usando un modelo de detector«. Un consejo útil paraprevenir el riesgo de imitación y otras formas de uso inapropiado«. Entonces, en general, los modelos de IA de Meta parecen estar listos para llegar a la corriente principal, pero aún no está claro cuándo sucederá eso realmente.
«Ninja de Internet. Erudito incurable de la televisión. Apasionado amante del café. Aficionado a las redes sociales. Pensador general».