Portal    Foro    Buscar    FAQ    Registrarse    Conectarse


Publicar nuevo tema  Responder al tema 
Página 1 de 1
 
 
Analizar La Información Contenida En Un Archivo PDF
Autor Mensaje
Responder citando   Descargar mensaje  
Mensaje Analizar La Información Contenida En Un Archivo PDF 
 
Para "parsear" o "analizar sintacticamente", un archivo xmlm por ejemplo de alguna factura electróonica, las reglas serían: impuestos, montos, cliente, proveedor, códigos, etc. si lo hacemos con un html algunas reglas serían si cuenta con la declaración del BODY, DOCUMENT TYPE, HEAD etc.

Bueno para los archivos PDF, en primera instancia ¿Existe una estructura? u por seguir como se puede leer esta información?

Alguien ha hecho algún programa que indague un PDF para buscar algunos datos ?

Saludos.
 



 
tincho - Ver perfil del usuarioEnviar mensaje privado 
Volver arribaPágina inferior
Responder citando   Descargar mensaje  
Mensaje Re: Analizar La Información Contenida En Un Archivo PDF 
 
Citar:
Alguien ha hecho algún programa que indague un PDF para buscar algunos datos ?

Sí, aparte del programa pdfman, que ya has visto basado en la librería pdftk, tengo unas rutinas que buscan datos en pdf.
Se parte siempre de convertir a texto el pdf. En este caso tienes que tener instalado el paquete poppler-utils, que viene en los repositorios de ubuntu (no recuerdo si viene instalado por defecto) y ahí utilizas el siguiente código:


   Shell "pdftotext -layout -nopgbrk \"" & fichpdf.text & "\" " & ftxtpath
 

Donde fichpdf.text es el fichero de texto a generar y ftxtpath es el fichero .pdf

A partir de ese fichero de texto, buscas lo que quieras.

Saludos.
 




===================
No podemos regresar
 
shordi - Ver perfil del usuarioEnviar mensaje privado 
Volver arribaPágina inferior
Mostrar mensajes anteriores:    
 
OcultarTemas parecidos
Tema Autor Foro Respuestas último mensaje
No hay nuevos mensajes Extraer Información De Un Archivo Midi Co... vuott Aplicaciones/Fragmentos de Código 2 Miercoles, 03 Septiembre 2014, 22:07 Ver último mensaje
vuott
No hay nuevos mensajes Analizar Archivos PDF tincho Aplicaciones/Fragmentos de Código 11 Jueves, 09 Agosto 2018, 12:25 Ver último mensaje
tincho
No hay nuevos mensajes Analizar Expresiones Que Ya No Existen En ... Shell General 0 Lunes, 11 Marzo 2019, 10:31 Ver último mensaje
Shell
No hay nuevos mensajes Funcion Que Devuelve Información De Un Ar... tincho Aplicaciones/Fragmentos de Código 2 Domingo, 22 Diciembre 2019, 20:58 Ver último mensaje
vuott
 

Publicar nuevo tema  Responder al tema  Página 1 de 1
 

Usuarios navegando en este tema: 0 registrados, 0 ocultos y 1 invitado
Usuarios registrados conectados: Ninguno


 
Lista de permisos
No puede crear mensajes
No puede responder temas
No puede editar sus mensajes
No puede borrar sus mensajes
No puede votar en encuestas
No puede adjuntar archivos
Puede descargar archivos
No puede publicar eventos en el calendario



  

 

cron