PDF raspado utilizando R

He estado utilizando el paquete xml con éxito para extraer tablas HTML, pero quiero extenderlo a PDF. De las preguntas anteriores, no parece que haya una solución de R simple, pero se preguntó si había habido algún desarrollo reciente

En su defecto, ¿hay alguna manera en Python (en la que soy un principiante completo) para obtener y manipular los PDF para que pueda terminar el trabajo con el paquete R XML

10

4 Respuestas

Extraer texto de archivos PDF es difícil, y casi siempre requiere mucho cuidado.

Comenzaría con las herramientas de línea de comando como pdftotext y vería lo que escupen. El problema es que los archivos PDF pueden almacenar el texto en cualquier orden, pueden usar codificaciones de fuente incómodas y pueden hacer cosas como usar caracteres de ligadura (el 'ff' y el 'ij' que ves en la tipografía adecuada) para lanzarte.

pdftotext es instalable en cualquier sistema Linux ...

10
agregado
Bueno, pdftotext funciona bien para producir una página de texto limpio, pero no está en ninguna forma para crear fácilmente lo que quiero. Gracias de todos modos
agregado el autor pssguy, fuente
agregado el autor pssguy, fuente
Secundado El hecho de hacerlo en R no vale la pena el esfuerzo de nadie para desarrollar y mantener, cuando hay opciones que se mantienen mucho mejor fuera de R. Si necesita hacer muchos archivos, intente usar find utilidad en Unix (o en la colección GNU para Windows), o uno puede hacer que R envíe comandos al shell, repitiendo los nombres de archivos ... Incluso Adobe tuvo un terrible extractor de texto durante mucho tiempo (no estoy seguro de que sea mejor ahora) , mientras que Xerox tuvo una buena.
agregado el autor Iterator, fuente
¿Nos puede indicar un archivo PDF representativo?
agregado el autor Spacedman, fuente
La ejecución de pdftotext no es brillante en esa página, pero convertir a ps primero o simplemente ejecutar ps2txt en el PDF produce una tabla casi perfecta con algunas cabezas/pies de página para eliminar.
agregado el autor Spacedman, fuente
También he tenido buena suerte con pdftotext en windows
agregado el autor pguardiario, fuente

Es posible que desee consultar el minería de texto tm . Recuerdo que implementaron los llamados lectores, y también hubo uno para los archivos PDF.

5
agregado
Gracias. Revisé los documentos. Utiliza pdftotext de alguna manera
agregado el autor pssguy, fuente

AFAIK no hay una forma fácil de convertir las tablas PDF en algo útil para el análisis de datos. Puede usar la utilidad Archivo a Texto de Data Science Toolkit (interfaz R a través de RDSTK package), luego analice el texto resultante. Se advierte: el análisis a menudo es no trivial.


EDITAR: hay una discusión útil sobre la conversión de archivos PDF a xml en discerning.com . La respuesta corta es que probablemente necesitará comprar una herramienta comercial.

4
agregado
+1 Gracias por eso. Revisé la discusión e intenté descargar el producto ABBYY en prueba pero no se configuró correctamente. Supongo que estoy condenado
agregado el autor pssguy, fuente

El corazón de la aplicación tabula que puede extraer tablas de documentos PDF está disponible como una simple aplicación Java de línea de comandos, tabula-extractor .

Esta aplicación Java se ha envuelto en R por el paquete tabulizer . Pase la ruta a un archivo PDF e intentará extraer las tablas de datos por usted y devolverlas como datos.

Para un ejemplo, vea Cuando los documentos se convierten en bases de datos - Tabulizer R Wrapper para Tabula PDF Table Extractor .

1
agregado