Medios

La Biblioteca del Congreso de EE.UU. procesa con IA millones de imágenes históricas de periódicos

Un nuevo proyecto de la Biblioteca del Congreso de Estados Unidos ha digitalizado y organizado fotos e ilustraciones de siglos de noticias utilizando el aprendizaje automático de última generación.


Dirigido por Ben Lee, investigador de la Universidad de Washington que ocupa el puesto de «Innovador en residencia» de la Biblioteca, el Navegador de Periódicos recopila y muestra datos de imágenes de unos 16 millones de páginas de periódicos a lo largo de la historia de Estados Unidos.

Lee y sus colegas se inspiraron en el trabajo que ya se está realizando en Chronicling America, un esfuerzo continuo de digitalización para periódicos viejos y otros materiales impresos similares. Si bien ese trabajo utilizó el reconocimiento óptico de caracteres para escanear el contenido de todos los documentos, también hubo un proyecto de crowdsourcing en el que las personas identificaron y delinearon imágenes para su posterior análisis. Los voluntarios dibujaron cuadros alrededor de imágenes relacionadas con la Primera Guerra Mundial, luego transcribieron los subtítulos y clasificaron la imagen. Este esfuerzo limitado hizo pensar al equipo.

“Me encantó porque enfatizaba la naturaleza visual de las páginas: al ver la diversidad visual del contenido que salía del proyecto, pensé que era genial, y me pregunté cómo sería hacer una crónica de contenido como este de todo el país», dijo Lee.

También se dio cuenta de que lo que los voluntarios habían creado era de hecho un conjunto ideal de datos de capacitación para un sistema de aprendizaje automático. «La pregunta era, ¿podríamos usar esto para crear un modelo de detección de objetos para revisar cada periódico y abrir el cofre del tesoro?»

La respuesta, felizmente, fue sí. Utilizando el trabajo inicial impulsado por humanos de delinear imágenes y subtítulos como datos de entrenamiento, crearon un agente de IA que podría hacerlo solo. Después de los ajustes y la optimización habituales, lo liberaron en la base de datos completa de escaneos de periódicos de Chronicling America.

«Funcionó durante 19 días sin parar, definitivamente el trabajo informático más grande que he realizado», dijo Lee. Pero los resultados son notables: millones de imágenes que abarcan tres siglos (de 1789 a 1963) y organizadas con metadatos extraídos de sus propios subtítulos. Suponiendo que los subtítulos son exactos, estas imágenes, hasta hace poco solo accesibles al recorrer los archivos fecha por fecha, y documento por documento, pueden buscarse por contenido, como cualquier otro corpus.

«Esperemos que sea una excelente manera de reunir a las personas para que piensen en formas creativas en las que se pueda usar el conjunto de datos», dijo Lee. “La idea que realmente me entusiasma desde una perspectiva de aprendizaje automático es tratar de construir una interfaz de usuario donde las personas puedan construir su propio conjunto de datos. Caricaturas políticas o anuncios de moda, simplemente dejar que los usuarios definan lo que les interesa, y capacitar un clasificador basado en eso”.

En otras palabras, el agente de inteligencia artificial de Newspaper Navigator podría ser el padre de toda una serie de otros más específicos que podrían usarse para escanear y digitalizar otras colecciones. Ese es en realidad el plan dentro de la Biblioteca del Congreso, donde el equipo de colecciones digitales se ha deleitado con las posibilidades presentadas por Newspaper Navigator y el aprendizaje automático en general.

El Navegador de Periódicos, el código detrás de él, y todas las imágenes y resultados son completamente de dominio público, y de uso o modificación gratuitos para cualquier propósito.