Pipeline optimizado para la conversion de documentos PDF a formatos estructurados (Markdown/JSON/LaTeX) enfocada en contenido cientifico y matematico.
Implementacion de parches para asegurar la compatibilidad entre versiones criticas:
- Transformers: Resolucion de conflictos en
PreTrainedConfig. - Albumentations/Pydantic: Correccion de validacion en esquemas de compresion de imagenes.
- pypdfium2: Soporte multiversion para renderizado en Windows/Linux.
- Markdown (.mmd): Salida cruda de Nougat.
- LaTeX (.tex): Documento estructurado listo para compilacion academica.
- Reporte (PDF): Verificacion visual dinamica de paginas detectadas como vacias.
- JSON: Metadatos de ecuaciones y secciones para ingesta RAG.
- Instalar dependencias:
local_setup.bat. - PDFs en carpeta
input/. - Ejecutar:
python nougat_local.py.
- Cargar
nougat_pipeline.ipynb. - Activar T4 GPU.
- Seguir celdas de configuracion.
/input: Fuente./output: Resultados (.mmd, .json, .tex, .pdf)./failed: Captura de errores de procesamiento./checkpoint: Persistencia y logs.