Страница 1 из 1

PDF Reading

Добавлено: Пт дек 08, 2023 12:29 pm
katit
Есть тут кто-то кто сталкивался с такого рода задачами?

Типа есть PDF Invoice, надо его распарсить и получить данные.

Re: PDF Reading

Добавлено: Пт дек 08, 2023 12:34 pm
self
katit писал(а): Пт дек 08, 2023 12:29 pm Есть тут кто-то кто сталкивался с такого рода задачами?

Типа есть PDF Invoice, надо его распарсить и получить данные.

Сочувствую. Читайте

https://nanonets.com/blog/pdf-parser/

Re: PDF Reading

Добавлено: Пт дек 08, 2023 12:45 pm
katit
Да читал я уже ето.. Больше интересует если кто-то владеет инфой с "первых рук" так сказать, кто делал чтоб проконсультироваться.

Re: PDF Reading

Добавлено: Пт дек 08, 2023 2:33 pm
Работяга
katit писал(а): Пт дек 08, 2023 12:29 pm Есть тут кто-то кто сталкивался с такого рода задачами?

Типа есть PDF Invoice, надо его распарсить и получить данные.

Код: Выделить всё

# Install PyMuPDF
# pip install PyMuPDF

import fitz  # PyMuPDF

# string path to the PDF file
# file_path

def extract_text_from_pdf(file_path):
    with fitz.open(file_path) as doc:
        text = ""
        for page in doc:
            text += page.get_text()
        return text

pdf_text = extract_text_from_pdf('example.pdf')
print(pdf_text)

Re: PDF Reading

Добавлено: Пт дек 08, 2023 2:35 pm
katit
Работяга писал(а): Пт дек 08, 2023 2:33 pm
katit писал(а): Пт дек 08, 2023 12:29 pm Есть тут кто-то кто сталкивался с такого рода задачами?

Типа есть PDF Invoice, надо его распарсить и получить данные.

Код: Выделить всё

# Install PyMuPDF
# pip install PyMuPDF

import fitz  # PyMuPDF

# string path to the PDF file
# file_path

def extract_text_from_pdf(file_path):
    with fitz.open(file_path) as doc:
        text = ""
        for page in doc:
            text += page.get_text()
        return text

pdf_text = extract_text_from_pdf('example.pdf')
print(pdf_text)
Супер! Проблема решена!

Re: PDF Reading

Добавлено: Пт дек 08, 2023 3:38 pm
katit
Если что это сарказм был.

Те товарищи по ссылке сверху те документы что я им скормил тоже на 2+ справились

Re: PDF Reading

Добавлено: Пт дек 08, 2023 3:45 pm
Работяга
katit писал(а): Пт дек 08, 2023 3:38 pm Если что это сарказм был.

Те товарищи по ссылке сверху те документы что я им скормил тоже на 2+ справились
А вы хотеле, что бы вам эпп забабахали с PyTorch или TensorFlow, еще подогнали UI с Zoning for free :D Это тоже был сарказм.

Re: PDF Reading

Добавлено: Пт дек 08, 2023 3:59 pm
katit
Я хотел чтобы тот кто это делал хотя бы в трех строчках описал суть проблемы

А если есть те кто этим занимается и может сделать так я и заплатить могу с удовольствием

Re: PDF Reading

Добавлено: Пт дек 08, 2023 4:09 pm
Работяга
katit писал(а): Пт дек 08, 2023 3:59 pm Я хотел чтобы тот кто это делал хотя бы в трех строчках описал суть проблемы

А если есть те кто этим занимается и может сделать так я и заплатить могу с удовольствием
Если цена вопроса нет проблем, то давайте в личке пообщаемся :beer:

Re: PDF Reading

Добавлено: Пт дек 08, 2023 4:56 pm
self
katit писал(а): Пт дек 08, 2023 3:59 pm Я хотел чтобы тот кто это делал хотя бы в трех строчках описал суть проблемы

А если есть те кто этим занимается и может сделать так я и заплатить могу с удовольствием
Проблема очень проста. PDF - изначально очень плохо структурированный формат. В худшем случае - это одна картинка в формате TIFF (обычно из сканера такое выходит).
Чтоб разoбрать, что изображено на картинке нужен хороший AI, да и тот не гарантирует.

Так что в общем случае хорошего ответа на ваш вопрос нет. Нужно смотреть конкретно на именно ваши входящие файлы и подбирать под них софт методом проб и ошибок.

Re: PDF Reading

Добавлено: Сб дек 09, 2023 8:21 am
Mad Hatter
Когда-то на такой задаче Abby поднялся 😂

Re: PDF Reading

Добавлено: Сб дек 09, 2023 9:12 am
alex_127
Mad Hatter писал(а): Сб дек 09, 2023 8:21 am Когда-то на такой задаче Abby поднялся 😂
Это по принципу - есть ли хороший Парсер Для ворда - А То У Микросовта Такого Нет...

Re: PDF Reading

Добавлено: Сб дек 09, 2023 12:25 pm
self
Mad Hatter писал(а): Сб дек 09, 2023 8:21 am Когда-то на такой задаче Abby поднялся 😂
Ну с тех пор OCR далеко продвинулся. Даже мой дешевый сканер имеет опцию Save as Searchable PDF, когда вместе с изображением сохраняет индекс из распознанных слов.

Re: PDF Reading

Добавлено: Сб дек 09, 2023 1:24 pm
Mad Hatter
self писал(а): Сб дек 09, 2023 12:25 pm
Mad Hatter писал(а): Сб дек 09, 2023 8:21 am Когда-то на такой задаче Abby поднялся 😂
Ну с тех пор OCR далеко продвинулся. Даже мой дешевый сканер имеет опцию Save as Searchable PDF, когда вместе с изображением сохраняет индекс из распознанных слов.
Конечно. В то время не было ML OCR как сейчас.

Re: PDF Reading

Добавлено: Сб дек 09, 2023 3:46 pm
Работяга
self писал(а): Сб дек 09, 2023 12:25 pm
Mad Hatter писал(а): Сб дек 09, 2023 8:21 am Когда-то на такой задаче Abby поднялся 😂
Ну с тех пор OCR далеко продвинулся. Даже мой дешевый сканер имеет опцию Save as Searchable PDF, когда вместе с изображением сохраняет индекс из распознанных слов.
Ну если бы всё так было просто и легко, то моя компания не тратила бы по 150-200 миллионов в год на разработку OCR, а AWS вообще придлагал бесплатную опцию в пакете услуг и не чарджил чуть ли за каждое слово, плюс это стоимость будет капать на тренировке, а не в риальной жизне.

Re: PDF Reading

Добавлено: Сб дек 09, 2023 8:51 pm
katit
self писал(а): Сб дек 09, 2023 12:25 pm
Mad Hatter писал(а): Сб дек 09, 2023 8:21 am Когда-то на такой задаче Abby поднялся 😂
Ну с тех пор OCR далеко продвинулся. Даже мой дешевый сканер имеет опцию Save as Searchable PDF, когда вместе с изображением сохраняет индекс из распознанных слов.
У меня нет проблем сохранить PDF в текст. Задача другого плана, но в общем ситуацию я понял, keywords выучил попробуем покопать в сторону aws