Para esto podemos usar tres herramientas:
- peepdf.py
- pdf-parser.py
- pdfid.py
Estoy usando MS-DOS, pero también pueden usar la terminal de PowerShell o la de Linux y funciona igual. El fin de esto es comprobar que los documentos están bien formados antes de realizar un parseo.
peepdf.py
Antes se debe tener asignada la variable de entorno (la ruta a la carpeta) en el path.
Volcado de comando en MS-DOS:
comando opciones > archivo.txt
En la terminal de comandos teclear:
peepdf.py documento.pdf > archivo.txt
Con lo anterior se realiza el análisis del documento. Para ver el contenido del análisis teclear:
start notepad archivo.txt
pdfid.py
Antes se debe tener asignada la variable de entorno (la ruta a la carpeta) en el path.
En la terminal de comandos teclear:
pdfid.py documento.pdf > archivo.txt
Con lo anterior se realiza el análisis del documento. Para ver el contenido del análisis teclear:
start notepad archivo.txt
pdf-parser.py
Antes se debe tener asignada la variable de entorno (la ruta a la carpeta) en el path.
En la terminal de comandos teclear:
pdf-parser.py documento.pdf > archivo.txt
Con lo anterior se realiza el análisis del documento. Para ver el contenido del análisis teclear:
start notepad archivo.txt
nota: en caso de generar un documento vacío indica que el documento no es un PDF válido
Hay otras herramientas (librerías,programas,etc.) que nos permiten analizar PDF, pero creo estas son las mejores.