logo

Ekstrahirajte besedilo iz datoteke PDF z uporabo Pythona

Vsi morate vedeti, kaj so PDF-ji. Pravzaprav so eden najpomembnejših in najbolj razširjenih digitalnih medijev. PDF pomeni Prenosni format dokumenta . Uporablja se .pdf razširitev. Uporablja se za zanesljivo predstavitev in izmenjavo dokumentov, neodvisno od programske, strojne opreme ali operacijskega sistema.

Besedilo bomo ekstrahirali iz datotek pdf z uporabo dveh knjižnic Python, pypdf in PyMuPDF , v tem članku.



Ekstrahiranje besedila iz datoteke PDF s knjižnico pypdf.

Paket Python pypdf lahko uporabimo za dosego tega, kar želimo (ekstrakcija besedila), čeprav lahko naredi več od tistega, kar potrebujemo. Ta paket se lahko uporablja tudi za ustvarjanje, dešifriranje in združevanje datotek PDF. Opomba: Za več informacij glejte Delo z datotekami PDF v Pythonu

Namestitev

Če želite namestiti ta paket, v terminal vnesite spodnji ukaz.

pip install pypdf>

primer: Vnos PDF: ekstrakt-pdf-besedilo-python



Python3






vba

# importing required modules> from> pypdf>import> PdfReader> > # creating a pdf reader object> reader>=> PdfReader(>'example.pdf'>)> > # printing number of pages in pdf file> print>(>len>(reader.pages))> > # getting a specific page from the pdf file> page>=> reader.pages[>0>]> > # extracting text from page> text>=> page.extract_text()> print>(text)>

>

>

gimp zamenja barvo

Izhod:

ekstrakt-pdf-python

Poskusimo razumeti zgornjo kodo v delih:

reader = PdfReader('example.pdf')>
  • Ustvarili smo predmet PdfReader razreda iz pypdf modul.
  • The PdfReader razred sprejme zahtevani pozicijski argument poti do datoteke pdf.
print(len(reader.pages))>
  • strani Lastnina daje Seznam PageObjects . Torej, tukaj lahko uporabimo vgrajeno samo() funkcija pythona za pridobitev števila strani v datoteki pdf.
page = reader.pages[0]>
  • Zdaj, kot bralec.strani je seznam PageObjects , lahko dobimo določeno Stran pdf tako, da se dotaknete indeksa strani. V python seznamu se indeksiranje začne od 0, torej reader.pages[0] nam prikaže prvo stran datoteke pdf.
text = page.extract_text() print(text)>
  • Predmet strani ima funkcijo izvleček_besedila() za ekstrahiranje besedila s strani pdf.

Ekstrahiranje besedila iz datoteke PDF s knjižnico PyMuPDF.

PyMuPDF je knjižnica Python, ki podpira formate datotek, kot so XPS, PDF, CBR in CBZ. Toda za zdaj se bomo v tem članku osredotočili na datoteke PDF (Portable Document Format).

Namestitev

pip install pymupdf pip install fitz>

Če želite izvleči besedilo iz pdf-ja, moramo slediti naslednjim korakom:

  1. Uvažanje knjižnice
  2. Otvoritveni dokument
  3. Ekstrahiranje besedila

Opomba: Tukaj uporabljamo sample.pdf; če želite dobiti pdf, uporabite spodnjo povezavo.

vzorec.pdf – Povezava

1. Uvoz knjižnice

Python3




import> fitz>

>

>

2. Otvoritveni dokument

Python3


seznam proti naboru v Javi



doc>=> fitz.>open>(>'sample.pdf'>)>

>

>

Tukaj smo ustvarili objekt, imenovan doc , ime datoteke pa mora biti niz Python.

3. Ekstrahiranje besedila

Python3

algoritem za krožno razporejanje




for> page>in> doc:> >text>=> page.get_text()> >print>(text)>

>

>

Tukaj smo ponovili strani v pdf in uporabili get_text() metodo za ekstrahiranje vsake strani iz datoteke.

Vsa koda za ekstrahiranje besedila

Python3


zgodovina v Javi



import> fitz> doc>=> fitz.>open>(>'sample.pdf'>)> text>=> ''> for> page>in> doc:> >text>+>=>page.get_text()> print>(text)>

>

>

Izhod:

Zaključek

Videli smo dve knjižnici Python, pypdf in PyMuPDF , ki lahko izvleče besedilo iz datoteke PDF. Komentirajte svojo najljubšo knjižnico iz zgornjih dveh knjižnic.