Las mejores herramientas de transcripción automática para periodistas

26 de noviembre de 2017

Siri acaba de cumplir seis años. Alexa acaba de cumplir tres. Si podemos preguntar a nuestros teléfonos el clima en Albuquerque y obligar a un cilindro de plástico a leer el Washington Post en voz alta, ¿por qué todavía estamos transcribiendo entrevistas a mano?

Bueno, resulta que realmente no tenemos que hacerlo. Las herramientas automáticas de transcripción han estado en el mercado por un tiempo, y finalmente se están volviendo buenas. Ahora solo lleva unos minutos, y unos pocos dólares, cargar un audio o video en un sitio, y recibir una transcripción bastante completa.

Pero, como todas las herramientas, algunas son mejores que otras. Poynter probó ocho de las herramientas de transcripción más populares dirigidas a periodistas, incluidas Dragon Dictation, Happy Scribe, oTranscribe, Recordly, Rev, Sonix, Trint y YouTube.

Las elegidas
Una combinación de precisión, características y facilidad de uso hacen de Trint la mejor opción para la transcripción automática para periodistas. Aunque no fue la herramienta más precisa, más rica en funciones o la más barata, sus herramientas de edición de transcripciones y su capacidad para adaptarse al flujo de trabajo de un periodista la ayuda a superar a sus competidores.

El experimento

En primer lugar, para reflejar una amplia gama de personas, voces y acentos, grabaron un audio de muestra con cuatro participantes de diferentes nacionalidades. Uno de ellos se unió a través de Google Hangouts / YouTube Live, cosa que la mayoría de las herramientas de transcripción automática advierten abiertamente (el audio de un teléfono o chat de video parece ser universalmente difícil de manejar).

Para torturar los algoritmos aún más, también leyeron pasajes a un ritmo mucho más rápido de lo que se suele hablar, y en una variedad de idiomas extranjeros (italiano, español, francés y griego).

El audio fue grabado de tres maneras: con un micrófono de mano Zoom H4nPro colocado entre los participantes; con un iPhone 6S Plus, usando la aplicación Recordly para grabar; y con un YouTube Live privado.

Luego subieron el audio a cada herramienta y llevaron un registro del tiempo que cada una tomó para transcribir. Normalizaron las transcripciones resultantes utilizando Microsoft Word, eliminando marcas de tiempo y asegurándose de que los nombres de los hablantes fueran congruentes.

Calidad de la transcripción – Ganador: Happy Scribe

El único servicio de transcripción humano que probaron venció las transcripciones automáticas por un amplio margen. Rev obtuvo una calificación de precisión del 82 por ciento, con el traductor humano en su mayoría fallando al no captar idiomas extranjeros (que, para ser justos, es un servicio separado), algunos sustantivos propios, algunas diafonías, algunas palabras de argot y trozos de murmullos. Aunque las otras herramientas también omitieron estas cosas, los transcriptores humanos en Rev al menos anotaron cosas como «[inaudible]» y «[diafonía]» o «[idioma extranjero]», que fueron marcadores útiles para correcciones posteriores. Pero incluso con los bits faltantes, la transcripción de Rev es completamente legible y coherente.

La siguiente transcripción más precisa fue YouTube. El sitio de alojamiento de videos creó automáticamente subtítulos para nuestro video en vivo de YouTube que tenían una precisión del 72 por ciento. Pero incluso con solo un 10 por ciento de disminución en la calidad general, la transcripción es significativamente menos legibles que la de Rev, porque YouTube no proporciona puntuación ni segmentación del hablante. Los subtítulos existen como un bloque de texto masivo. Sin emparejarlo con el audio, sería casi imposible que alguien que no fuera parte de la conversación entendiera la conversación.

Happy Scribe demostró ser la herramienta de transcripción no humana más precisa, con una precisión del 62 por ciento en el experimento. La herramienta advierte en su página de carga que se debe «evitar el ruido de fondo», evitar los acentos fuertes, «evitar las entrevistas telefónicas y de Skype», y «mantener el micrófono cerca del altavoz», todo lo cual ignoraron diligentemente.

La transcripción es casi exacta en los lugares donde estaban hablando, especialmente cuando no había diafonía y no se usaban nombres propios, pero hubo problemas con la transcripción de algunos participantes. Reconoció diferentes oradores en nuevos párrafos en algunos lugares, pero falló en otros. La transcripción general varía entre completamente coherente en algunos lugares, y extrañamente incoherente en otros.

Trint ofreció resultados similares, con un 61 por ciento de precisión. Cometió errores en muchos de los mismos lugares, a tientas con acentos, audio de YouTube y secciones con diafonía o hablando en voz baja. En general, la transcripción de Trint es un poco más fácil de leer que la de Happy Scribe, porque hace un mejor trabajo al diferenciar a los hablantes y dividirlos en nuevos párrafos. No es perfecta, pero agrega mucha claridad cuando funciona.

Sonix demostró ser el próximo más preciso, al 50 por ciento. Sonix funcionó un poco mejor que Happy Scribe y Trint cuando un solo hablante hablaba en voz alta. Pero cualquier cantidad de diafonía, ruido de fondo o incluso risas (todas cosas que probablemente aparecerán en el uso de la herramienta en el mundo real), parecen confundirlo más que las otras. Al igual que las otras herramientas, Sonix intentó dividir los parlantes en diferentes párrafos, pero parecía ser un poco peor.

Recordly fue la menos precisa de las herramientas de transcripción automática, con una precisión del 48 por ciento. Al igual que YouTube, la transcripción de Recordly es un bloque de texto gigante. A diferencia de YouTube, agrega puntuación, aunque con menos frecuencia y con menor precisión que las otras herramientas. La transcripción de Recordly es la menos útil fuera de contexto.

Nota completa

Rosatti, el killer

Cuando putean juego mejor

Milei no es un dictador

Armenia: la memoria, el dolor y la fe

Partícipe necesario

Un navegador más seguro que el modo Incógnito de Chrome

¿El frío afecta más a la salud que el calor? Lo que revela un estudio en Rusia

Científicos argentinos investigan los procesos cerebrales detrás del sarcasmo

Internet se pudre: ¿estamos perdiendo nuestra memoria digital?

EE.UU.: la restricción del juego con la cabeza en el fútbol infantil redujo los índices de conmoción cerebral

Medias para tu helado: la nueva promoción de un supermercado japonés

Jóvenes chinos pagan para fingir que trabajan: la extraña solución ante el desempleo

Récord mundial entre la nieve: enterrado por más de dos horas con el cuerpo descubierto

Dormir al borde del abismo: una nueva atracción turística en China desafía el vértigo

El boxeo del futuro: en China ya organizan peleas de androides

Las mejores herramientas de transcripción automática para periodistas

Lo último

Los mayores fracasos en la historia de Netflix

Día Mundial de los Océanos 2025: las mejores imágenes marinas

La lectura en la era de la inteligencia artificial: ¿estamos ante...

Organismos y medios internacionales, contra el hostigamiento de Milei a los...

Las series y películas más vistas en streaming en junio de...

Las mejores herramientas de transcripción automática para periodistas

Tal vez te interese

Lo último