Parser Service

Extracts text from 7 file formats.

Supported Formats

Format

Library

PDF

PyMuPDF (fitz)

Word (.docx)

python-docx

PowerPoint (.pptx)

python-pptx

Excel (.xlsx)

openpyxl

Images (.png/.jpg)

Tesseract OCR

Markdown (.md)

Raw text

Text (.txt)

Python built-in

Source Code

backend.services.parser_service.parse_file(file_path: str) str[source]

Liest eine Datei und gibt den extrahierten Text zurück. Erkennt automatisch das Format anhand der Dateiendung.