Medios

Las mejores herramientas de transcripción automática para periodistas

Siri acaba de cumplir seis años. Alexa acaba de cumplir tres. Si podemos preguntar a nuestros teléfonos el clima en Albuquerque y obligar a un cilindro de plástico a leer el Washington Post en voz alta, ¿por qué todavía estamos transcribiendo entrevistas a mano?


Bueno, resulta que realmente no tenemos que hacerlo. Las herramientas automáticas de transcripción han estado en el mercado por un tiempo, y finalmente se están volviendo buenas. Ahora solo lleva unos minutos, y unos pocos dólares, cargar un audio o video en un sitio, y recibir una transcripción bastante completa.

Pero, como todas las herramientas, algunas son mejores que otras. Poynter probó ocho de las herramientas de transcripción más populares dirigidas a periodistas, incluidas Dragon Dictation, Happy Scribe, oTranscribe, Recordly, Rev, Sonix, Trint y YouTube.

Las elegidas
Una combinación de precisión, características y facilidad de uso hacen de Trint la mejor opción para la transcripción automática para periodistas. Aunque no fue la herramienta más precisa, más rica en funciones o la más barata, sus herramientas de edición de transcripciones y su capacidad para adaptarse al flujo de trabajo de un periodista la ayuda a superar a sus competidores.

El experimento

En primer lugar, para reflejar una amplia gama de personas, voces y acentos, grabaron un audio de muestra con cuatro participantes de diferentes nacionalidades. Uno de ellos se unió a través de Google Hangouts / YouTube Live, cosa que la mayoría de las herramientas de transcripción automática advierten abiertamente (el audio de un teléfono o chat de video parece ser universalmente difícil de manejar).

Para torturar los algoritmos aún más, también leyeron pasajes a un ritmo mucho más rápido de lo que se suele hablar, y en una variedad de idiomas extranjeros (italiano, español, francés y griego).

El audio fue grabado de tres maneras: con un micrófono de mano Zoom H4nPro colocado entre los participantes; con un iPhone 6S Plus, usando la aplicación Recordly para grabar; y con un YouTube Live privado.

Luego subieron el audio a cada herramienta y llevaron un registro del tiempo que cada una tomó para transcribir. Normalizaron las transcripciones resultantes utilizando Microsoft Word, eliminando marcas de tiempo y asegurándose de que los nombres de los hablantes fueran congruentes.

 

Calidad de la transcripción – Ganador: Happy Scribe

El único servicio de transcripción humano que probaron venció las transcripciones automáticas por un amplio margen. Rev obtuvo una calificación de precisión del 82 por ciento, con el traductor humano en su mayoría fallando al no captar idiomas extranjeros (que, para ser justos, es un servicio separado), algunos sustantivos propios, algunas diafonías, algunas palabras de argot y trozos de murmullos. Aunque las otras herramientas también omitieron estas cosas, los transcriptores humanos en Rev al menos anotaron cosas como «[inaudible]» y «[diafonía]» o «[idioma extranjero]», que fueron marcadores útiles para correcciones posteriores. Pero incluso con los bits faltantes, la transcripción de Rev es completamente legible y coherente.

 

La siguiente transcripción más precisa fue YouTube. El sitio de alojamiento de videos creó automáticamente subtítulos para nuestro video en vivo de YouTube que tenían una precisión del 72 por ciento. Pero incluso con solo un 10 por ciento de disminución en la calidad general, la transcripción es significativamente menos legibles que la de Rev, porque YouTube no proporciona puntuación ni segmentación del hablante. Los subtítulos existen como un bloque de texto masivo. Sin emparejarlo con el audio, sería casi imposible que alguien que no fuera parte de la conversación entendiera la conversación.

Happy Scribe demostró ser la herramienta de transcripción no humana más precisa, con una precisión del 62 por ciento en el experimento. La herramienta advierte en su página de carga que se debe «evitar el ruido de fondo», evitar los acentos fuertes, «evitar las entrevistas telefónicas y de Skype», y «mantener el micrófono cerca del altavoz», todo lo cual ignoraron diligentemente.

La transcripción es casi exacta en los lugares donde estaban hablando, especialmente cuando no había diafonía y no se usaban nombres propios, pero hubo problemas con la transcripción de algunos participantes. Reconoció diferentes oradores en nuevos párrafos en algunos lugares, pero falló en otros. La transcripción general varía entre completamente coherente en algunos lugares, y extrañamente incoherente en otros.

Trint ofreció resultados similares, con un 61 por ciento de precisión. Cometió errores en muchos de los mismos lugares, a tientas con acentos, audio de YouTube y secciones con diafonía o hablando en voz baja. En general, la transcripción de Trint es un poco más fácil de leer que la de Happy Scribe, porque hace un mejor trabajo al diferenciar a los hablantes y dividirlos en nuevos párrafos. No es perfecta, pero agrega mucha claridad cuando funciona.

Sonix demostró ser el próximo más preciso, al 50 por ciento. Sonix funcionó un poco mejor que Happy Scribe y Trint cuando un solo hablante hablaba en voz alta. Pero cualquier cantidad de diafonía, ruido de fondo o incluso risas (todas cosas que probablemente aparecerán en el uso de la herramienta en el mundo real), parecen confundirlo más que las otras. Al igual que las otras herramientas, Sonix intentó dividir los parlantes en diferentes párrafos, pero parecía ser un poco peor.

Recordly fue la menos precisa de las herramientas de transcripción automática, con una precisión del 48 por ciento. Al igual que YouTube, la transcripción de Recordly es un bloque de texto gigante. A diferencia de YouTube, agrega puntuación, aunque con menos frecuencia y con menor precisión que las otras herramientas. La transcripción de Recordly es la menos útil fuera de contexto.

Nota completa