Страница 1 из 1
PDF Reading
Добавлено: Пт дек 08, 2023 12:29 pm
katit
Есть тут кто-то кто сталкивался с такого рода задачами?
Типа есть PDF Invoice, надо его распарсить и получить данные.
Re: PDF Reading
Добавлено: Пт дек 08, 2023 12:34 pm
self
katit писал(а): ↑Пт дек 08, 2023 12:29 pm
Есть тут кто-то кто сталкивался с такого рода задачами?
Типа есть PDF Invoice, надо его распарсить и получить данные.
Сочувствую. Читайте
https://nanonets.com/blog/pdf-parser/
Re: PDF Reading
Добавлено: Пт дек 08, 2023 12:45 pm
katit
Да читал я уже ето.. Больше интересует если кто-то владеет инфой с "первых рук" так сказать, кто делал чтоб проконсультироваться.
Re: PDF Reading
Добавлено: Пт дек 08, 2023 2:33 pm
Работяга
katit писал(а): ↑Пт дек 08, 2023 12:29 pm
Есть тут кто-то кто сталкивался с такого рода задачами?
Типа есть PDF Invoice, надо его распарсить и получить данные.
Код: Выделить всё
# Install PyMuPDF
# pip install PyMuPDF
import fitz # PyMuPDF
# string path to the PDF file
# file_path
def extract_text_from_pdf(file_path):
with fitz.open(file_path) as doc:
text = ""
for page in doc:
text += page.get_text()
return text
pdf_text = extract_text_from_pdf('example.pdf')
print(pdf_text)
Re: PDF Reading
Добавлено: Пт дек 08, 2023 2:35 pm
katit
Работяга писал(а): ↑Пт дек 08, 2023 2:33 pm
katit писал(а): ↑Пт дек 08, 2023 12:29 pm
Есть тут кто-то кто сталкивался с такого рода задачами?
Типа есть PDF Invoice, надо его распарсить и получить данные.
Код: Выделить всё
# Install PyMuPDF
# pip install PyMuPDF
import fitz # PyMuPDF
# string path to the PDF file
# file_path
def extract_text_from_pdf(file_path):
with fitz.open(file_path) as doc:
text = ""
for page in doc:
text += page.get_text()
return text
pdf_text = extract_text_from_pdf('example.pdf')
print(pdf_text)
Супер! Проблема решена!
Re: PDF Reading
Добавлено: Пт дек 08, 2023 3:38 pm
katit
Если что это сарказм был.
Те товарищи по ссылке сверху те документы что я им скормил тоже на 2+ справились
Re: PDF Reading
Добавлено: Пт дек 08, 2023 3:45 pm
Работяга
katit писал(а): ↑Пт дек 08, 2023 3:38 pm
Если что это сарказм был.
Те товарищи по ссылке сверху те документы что я им скормил тоже на 2+ справились
А вы хотеле, что бы вам эпп забабахали с PyTorch или TensorFlow, еще подогнали UI с Zoning for free
Это тоже был сарказм.
Re: PDF Reading
Добавлено: Пт дек 08, 2023 3:59 pm
katit
Я хотел чтобы тот кто это делал хотя бы в трех строчках описал суть проблемы
А если есть те кто этим занимается и может сделать так я и заплатить могу с удовольствием
Re: PDF Reading
Добавлено: Пт дек 08, 2023 4:09 pm
Работяга
katit писал(а): ↑Пт дек 08, 2023 3:59 pm
Я хотел чтобы тот кто это делал хотя бы в трех строчках описал суть проблемы
А если есть те кто этим занимается и может сделать так я и заплатить могу с удовольствием
Если цена вопроса нет проблем, то давайте в личке пообщаемся
Re: PDF Reading
Добавлено: Пт дек 08, 2023 4:56 pm
self
katit писал(а): ↑Пт дек 08, 2023 3:59 pm
Я хотел чтобы тот кто это делал хотя бы в трех строчках описал суть проблемы
А если есть те кто этим занимается и может сделать так я и заплатить могу с удовольствием
Проблема очень проста. PDF - изначально очень плохо структурированный формат. В худшем случае - это одна картинка в формате TIFF (обычно из сканера такое выходит).
Чтоб разoбрать, что изображено на картинке нужен хороший AI, да и тот не гарантирует.
Так что в общем случае хорошего ответа на ваш вопрос нет. Нужно смотреть конкретно на именно ваши входящие файлы и подбирать под них софт методом проб и ошибок.
Re: PDF Reading
Добавлено: Сб дек 09, 2023 8:21 am
Mad Hatter
Когда-то на такой задаче Abby поднялся
Re: PDF Reading
Добавлено: Сб дек 09, 2023 9:12 am
alex_127
Mad Hatter писал(а): ↑Сб дек 09, 2023 8:21 am
Когда-то на такой задаче Abby поднялся
Это по принципу - есть ли хороший Парсер Для ворда - А То У Микросовта Такого Нет...
Re: PDF Reading
Добавлено: Сб дек 09, 2023 12:25 pm
self
Mad Hatter писал(а): ↑Сб дек 09, 2023 8:21 am
Когда-то на такой задаче Abby поднялся
Ну с тех пор OCR далеко продвинулся. Даже мой дешевый сканер имеет опцию Save as Searchable PDF, когда вместе с изображением сохраняет индекс из распознанных слов.
Re: PDF Reading
Добавлено: Сб дек 09, 2023 1:24 pm
Mad Hatter
self писал(а): ↑Сб дек 09, 2023 12:25 pm
Mad Hatter писал(а): ↑Сб дек 09, 2023 8:21 am
Когда-то на такой задаче Abby поднялся
Ну с тех пор OCR далеко продвинулся. Даже мой дешевый сканер имеет опцию Save as Searchable PDF, когда вместе с изображением сохраняет индекс из распознанных слов.
Конечно. В то время не было ML OCR как сейчас.
Re: PDF Reading
Добавлено: Сб дек 09, 2023 3:46 pm
Работяга
self писал(а): ↑Сб дек 09, 2023 12:25 pm
Mad Hatter писал(а): ↑Сб дек 09, 2023 8:21 am
Когда-то на такой задаче Abby поднялся
Ну с тех пор OCR далеко продвинулся. Даже мой дешевый сканер имеет опцию Save as Searchable PDF, когда вместе с изображением сохраняет индекс из распознанных слов.
Ну если бы всё так было просто и легко, то моя компания не тратила бы по 150-200 миллионов в год на разработку OCR, а AWS вообще придлагал бесплатную опцию в пакете услуг и не чарджил чуть ли за каждое слово, плюс это стоимость будет капать на тренировке, а не в риальной жизне.
Re: PDF Reading
Добавлено: Сб дек 09, 2023 8:51 pm
katit
self писал(а): ↑Сб дек 09, 2023 12:25 pm
Mad Hatter писал(а): ↑Сб дек 09, 2023 8:21 am
Когда-то на такой задаче Abby поднялся
Ну с тех пор OCR далеко продвинулся. Даже мой дешевый сканер имеет опцию Save as Searchable PDF, когда вместе с изображением сохраняет индекс из распознанных слов.
У меня нет проблем сохранить PDF в текст. Задача другого плана, но в общем ситуацию я понял, keywords выучил попробуем покопать в сторону aws