domingo, 30 de septiembre de 2012

Análisis de PDF con Python


Para esto podemos usar tres herramientas:

  • peepdf.py
  • pdf-parser.py
  • pdfid.py
Estoy usando MS-DOS, pero también pueden usar  la terminal de PowerShell o la de Linux y funciona igual. El fin de esto es comprobar que los documentos están bien formados antes de realizar un parseo.



peepdf.py

Antes se debe tener asignada la variable de entorno (la ruta a la carpeta) en el path.














Volcado de comando en MS-DOS:

comando opciones > archivo.txt


En la terminal de comandos teclear:

peepdf.py  documento.pdf  >  archivo.txt

Con lo anterior se realiza el análisis del documento. Para ver el contenido del análisis teclear:

start notepad archivo.txt


pdfid.py

Antes se debe tener asignada la variable de entorno (la ruta a la carpeta) en el path.

En la terminal de comandos teclear:

pdfid.py  documento.pdf  >  archivo.txt

Con lo anterior se realiza el análisis del documento. Para ver el contenido del análisis teclear:

start notepad archivo.txt

pdf-parser.py

Antes se debe tener asignada la variable de entorno (la ruta a la carpeta) en el path.

En la terminal de comandos teclear:

pdf-parser.py  documento.pdf  >  archivo.txt

Con lo anterior se realiza el análisis del documento. Para ver el contenido del análisis teclear:

start notepad archivo.txt

nota: en caso de generar un documento vacío indica que el documento no es un PDF válido

Hay otras herramientas (librerías,programas,etc.) que nos permiten analizar PDF, pero creo estas son las mejores.

No hay comentarios:

Publicar un comentario