it-swarm.com.ru

Дополнительно PDF Разбор с использованием Python (извлечение текста без таблиц и т. Д.): Какая библиотека лучше?

Я ищу библиотеку PDF, которая позволит мне извлечь текст из документа PDF. Я посмотрел на PyPDF, и это может очень красиво извлечь текст из PDF документа. Проблема заключается в том, что если в документе есть таблицы, текст в таблицах извлекается в соответствии с остальным текстом документа. Это может быть проблематично, потому что он создает фрагменты текста, которые бесполезны и выглядят искаженными (например, большое количество чисел смешано).

Я ищу что-то более продвинутое. Я хотел бы извлечь текст из документа PDF, исключая любых таблиц и специального форматирования. Есть ли библиотека, которая делает это? Или я вынужден выполнить некоторую постобработку выходного текста, чтобы избавиться от этих разделов?

79
Mike Cialowicz

Вы также можете взглянуть на PDFMiner , другой PDF синтаксический анализатор в Python.

Особенность PDFMiner, которая может вас заинтересовать, заключается в том, что вы можете контролировать, как он перегруппирует текстовые части при выполнении извлечения. Вы делаете это, определяя пространство между строками, словами, символами и т.д. Итак, возможно, изменяя это, вы можете достичь того, чего хотите (это зависит от изменчивости ваших документов). PDFMiner также может дать вам расположение текста на странице, он может извлекать данные по идентификатору объекта и другие вещи. Так что копайтесь в PDFMiner и будьте креативны!

Но ваша проблема на самом деле нелегко решить, потому что в PDF текст не является непрерывным, а состоит из множества небольших групп символов, расположенных абсолютно на странице. Цель PDF - сохранить макет без изменений. Он не ориентирован на контент, а на презентацию.

56
Etienne

Это трудная проблема для решения, поскольку визуально похожие PDF-файлы могут иметь сильно отличающуюся структуру в зависимости от того, как они были созданы. В худшем случае библиотека должна будет действовать как OCR. С другой стороны, PDF может содержать достаточную структуру и метаданные для легкого удаления таблиц и рисунков, которые могут быть адаптированы для библиотеки.

Я почти уверен, что нет инструментов с открытым исходным кодом, которые решают вашу проблему для широкого спектра PDF-файлов, но я помню, что слышал о коммерческом программном обеспечении, заявляющем, что оно делает именно то, что вы просите. Я уверен, что вы столкнетесь с ними во время поиска в Google.

0
akaihola