Para "parsear" o "analizar sintacticamente", un archivo xmlm por ejemplo de alguna factura electróonica, las reglas serían: impuestos, montos, cliente, proveedor, códigos, etc. si lo hacemos con un html algunas reglas serían si cuenta con la declaración del BODY, DOCUMENT TYPE, HEAD etc.
Bueno para los archivos PDF, en primera instancia ¿Existe una estructura? u por seguir como se puede leer esta información?
Alguien ha hecho algún programa que indague un PDF para buscar algunos datos ?
Saludos.