jueves 25 de abril de 2024
Cursos de periodismo

Tabula, una herramienta para extraer datos de un PDF

El formato PDF es uno de los más populares del mundo para compartir investigaciones, artículos periodísticos y hasta libros. Pero no se trata de un formato muy amigable si deseamos extraer datos para, por ejemplo, pasarlos a Excel y luego trabajar con ellos.

Afortunadamente existen herramientas para ayudar en este caso. Una de ellas, y completamente gratuita, es Tabula. Esta herramienta nos permite extraer los datos del PDF, exportarlos y manipularlos de forma muy conveniente.

¿Cómo funciona? Lo primero que debemos hacer es subir el PDF al sitio. Luego hay que ir específicamente a los datos que queremos extraer, seleccionarlos y listo: la información ya queda disponible para exportarla a un fortmato CSV o XLS de Excel.

Tabula también tiene una opción «detectar automáticamente las tablas», por si acaso subimos un PDF muy largo, de 50 o 70 páginas y no queremos seleccionar todo manualmente, algo que llevaría mucho tiempo.

El único aspecto «negativo» de Tabula es que no es un sitio online: requiere que descarguemos archivos a nuestra computadora.

Como se ve, el PDF es un formato muy conveniente. Pero si se lo combina con estas herramientas online, la experiencia mejora muchísimo.

- Publicidad -

Lo último