La Biblioteca del Congreso de EE.UU. procesa con IA millones de imágenes históricas de periódicos

13 de mayo de 2020

Un nuevo proyecto de la Biblioteca del Congreso de Estados Unidos ha digitalizado y organizado fotos e ilustraciones de siglos de noticias utilizando el aprendizaje automático de última generación.

Dirigido por Ben Lee, investigador de la Universidad de Washington que ocupa el puesto de «Innovador en residencia» de la Biblioteca, el Navegador de Periódicos recopila y muestra datos de imágenes de unos 16 millones de páginas de periódicos a lo largo de la historia de Estados Unidos.

Lee y sus colegas se inspiraron en el trabajo que ya se está realizando en Chronicling America, un esfuerzo continuo de digitalización para periódicos viejos y otros materiales impresos similares. Si bien ese trabajo utilizó el reconocimiento óptico de caracteres para escanear el contenido de todos los documentos, también hubo un proyecto de crowdsourcing en el que las personas identificaron y delinearon imágenes para su posterior análisis. Los voluntarios dibujaron cuadros alrededor de imágenes relacionadas con la Primera Guerra Mundial, luego transcribieron los subtítulos y clasificaron la imagen. Este esfuerzo limitado hizo pensar al equipo.

“Me encantó porque enfatizaba la naturaleza visual de las páginas: al ver la diversidad visual del contenido que salía del proyecto, pensé que era genial, y me pregunté cómo sería hacer una crónica de contenido como este de todo el país», dijo Lee.

También se dio cuenta de que lo que los voluntarios habían creado era de hecho un conjunto ideal de datos de capacitación para un sistema de aprendizaje automático. «La pregunta era, ¿podríamos usar esto para crear un modelo de detección de objetos para revisar cada periódico y abrir el cofre del tesoro?»

La respuesta, felizmente, fue sí. Utilizando el trabajo inicial impulsado por humanos de delinear imágenes y subtítulos como datos de entrenamiento, crearon un agente de IA que podría hacerlo solo. Después de los ajustes y la optimización habituales, lo liberaron en la base de datos completa de escaneos de periódicos de Chronicling America.

«Funcionó durante 19 días sin parar, definitivamente el trabajo informático más grande que he realizado», dijo Lee. Pero los resultados son notables: millones de imágenes que abarcan tres siglos (de 1789 a 1963) y organizadas con metadatos extraídos de sus propios subtítulos. Suponiendo que los subtítulos son exactos, estas imágenes, hasta hace poco solo accesibles al recorrer los archivos fecha por fecha, y documento por documento, pueden buscarse por contenido, como cualquier otro corpus.

«Esperemos que sea una excelente manera de reunir a las personas para que piensen en formas creativas en las que se pueda usar el conjunto de datos», dijo Lee. “La idea que realmente me entusiasma desde una perspectiva de aprendizaje automático es tratar de construir una interfaz de usuario donde las personas puedan construir su propio conjunto de datos. Caricaturas políticas o anuncios de moda, simplemente dejar que los usuarios definan lo que les interesa, y capacitar un clasificador basado en eso”.

En otras palabras, el agente de inteligencia artificial de Newspaper Navigator podría ser el padre de toda una serie de otros más específicos que podrían usarse para escanear y digitalizar otras colecciones. Ese es en realidad el plan dentro de la Biblioteca del Congreso, donde el equipo de colecciones digitales se ha deleitado con las posibilidades presentadas por Newspaper Navigator y el aprendizaje automático en general.

El Navegador de Periódicos, el código detrás de él, y todas las imágenes y resultados son completamente de dominio público, y de uso o modificación gratuitos para cualquier propósito.

Rosatti, el killer

Cuando putean juego mejor

Milei no es un dictador

Armenia: la memoria, el dolor y la fe

Partícipe necesario

Un navegador más seguro que el modo Incógnito de Chrome

¿El frío afecta más a la salud que el calor? Lo que revela un estudio en Rusia

Científicos argentinos investigan los procesos cerebrales detrás del sarcasmo

Internet se pudre: ¿estamos perdiendo nuestra memoria digital?

EE.UU.: la restricción del juego con la cabeza en el fútbol infantil redujo los índices de conmoción cerebral

Medias para tu helado: la nueva promoción de un supermercado japonés

Jóvenes chinos pagan para fingir que trabajan: la extraña solución ante el desempleo

Récord mundial entre la nieve: enterrado por más de dos horas con el cuerpo descubierto

Dormir al borde del abismo: una nueva atracción turística en China desafía el vértigo

El boxeo del futuro: en China ya organizan peleas de androides

La Biblioteca del Congreso de EE.UU. procesa con IA millones de imágenes históricas de periódicos

Lo último

Los mayores fracasos en la historia de Netflix

Día Mundial de los Océanos 2025: las mejores imágenes marinas

La lectura en la era de la inteligencia artificial: ¿estamos ante...

Organismos y medios internacionales, contra el hostigamiento de Milei a los...

Las series y películas más vistas en streaming en junio de...

La Biblioteca del Congreso de EE.UU. procesa con IA millones de imágenes históricas de periódicos

Tal vez te interese

Lo último