Wyodrębnij tekst z dokumentów PDF za pomocą interfejsu API REST w języku Python

Wyodrębnij tekst z pliku PDF za pomocą Python

Może być konieczne odczytanie i wyodrębnienie tekstu z dokumentów PDF w aplikacjach Python. Tak więc, jako programista Python, możesz łatwo programowo wyodrębnić cały tekst z dokumentów PDF w chmurze. W tym artykule wyjaśniono, jak wyodrębnić tekst z dokumentów PDF za pomocą interfejsu API REST w języku Python.

W tym artykule zostaną omówione następujące tematy:

Interfejs API REST parsera dokumentów i zestaw SDK języka Python
Wyodrębnij tekst z pliku PDF za pomocą interfejsu API REST

Interfejs API REST parsera dokumentów i zestaw SDK języka Python

Aby wyodrębnić tekst z dokumentu PDF, użyję Python SDK of GroupDocs.Parser Cloud API. Pozwala pythonowi pobierać tekst z pdf i analizować dane ze wszystkich popularnych typów dokumentów. Możesz wyodrębniać tekst, obrazy i analizować dane według szablonu za pomocą zestawu SDK. Udostępnia również zestawy SDK .NET, Java, PHP, Ruby i Node.js jako członkowie rodziny parserów dokumentów dla Cloud API.

Możesz zainstalować GroupDocs.Parser Cloud w swoim projekcie Python za pomocą pip (package installer for python), używając następującego polecenia w konsoli:

pip install groupdocs_parser_cloud

Uzyskaj swój identyfikator klienta i klucz tajny klienta z panelu nawigacyjnego, zanim zaczniesz postępować zgodnie z instrukcjami i dostępnymi przykładami kodu. Po uzyskaniu identyfikatora klienta i klucza tajnego dodaj kod, jak pokazano poniżej:

client_id = "112f0f38-9dae-42d5-b4fc-cc84ae644972"
client_secret = "16ad3fe0bdc39c910f57d2fd48a5d618"

configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""

Wyodrębnij tekst z pliku PDF za pomocą interfejsu API REST w języku Python

Możesz wyodrębnić tekst z dokumentów PDF, wykonując proste czynności wymienione poniżej:

Prześlij plik PDF do chmury
Wyodrębnij tekst z dokumentów PDF za pomocą Python
Odczytywanie tekstu według numerów stron z dokumentów PDF przy użyciu języka Python
Pobierz tekst z dokumentu załączonego w formacie PDF za pomocą Python

Prześlij dokument

Przede wszystkim prześlij dokument PDF, aby uzyskać tekst z pdf python, korzystając z przykładowego kodu podanego poniżej:

# inicjalizacja API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""

request = groupdocs_parser_cloud.UploadFileRequest("sample.pdf", "C:\\Files\\sample.pdf", my_storage)
response = file_api.upload_file(request)

W rezultacie przesłany plik PDF (sample.pdf) będzie dostępny w sekcji plików Twojego pulpitu nawigacyjnego w chmurze. Teraz możesz wyodrębnić zawartość z pliku PDF.

Wyodrębnij tekst z dokumentów PDF za pomocą Python

Możesz łatwo programowo wyodrębnić tekst z pliku PDF za pomocą Python, wykonując czynności wymienione poniżej.

Utwórz instancję ParseApi
Zdefiniuj opcje tekstu
Ustaw ścieżkę do pliku PDF
Utwórz TextRequest
Uzyskaj wyniki, wywołując metodę ParseApi.text().

Poniższy przykładowy kod pokazuje, jak wyodrębnić cały tekst z dokumentu PDF przy użyciu interfejsu API REST.

# inicjalizacja API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# zdefiniuj opcje tekstowe
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

print("Text: " + result.text)

Czytaj tekst według numerów stron z dokumentów PDF za pomocą Python

Możesz łatwo programowo wyodrębnić tekst z określonych stron pliku PDF, wykonując czynności wymienione poniżej.

Utwórz instancję ParseApi
Zdefiniuj opcje tekstu
Podaj ścieżkę do pliku PDF
Ustaw numer strony początkowej
ustaw liczbę stron do wyodrębnienia
Utwórz TextRequest
Uzyskaj wyniki, wywołując metodę ParseApi.text().

Poniższy przykładowy kod pokazuje, jak wyodrębnić słowa z pliku PDF w języku Python według zakresu numerów stron przy użyciu interfejsu API REST.

# inicjalizacja API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# zdefiniuj opcje tekstowe
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
options.start_page_number = 1
options.count_pages_to_extract = 2

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

for page in result.pages:
    print("PageIndex: " + str(page.page_index) + ". Text: " + page.text)

Wyodrębnij tekst z pliku pdf według zakresu numerów stron — *Wyodrębnij tekst według zakresu numerów stron*

Uzyskaj tekst z dokumentu załączonego w formacie PDF za pomocą Python

Możesz programowo wyodrębnić tekst z dokumentu znajdującego się w kontenerze, który jest dostępny jako załącznik w pliku PDF, wykonując czynności wymienione poniżej.

Utwórz instancję ParseApi
Zdefiniuj opcje tekstu
Ustaw ścieżkę do pliku PDF
Zdefiniuj ContainerItemInfo
Podaj ścieżkę względną dokumentu wewnętrznego
Ustaw numer strony początkowej
ustaw liczbę stron do wyodrębnienia
Utwórz TextRequest
Uzyskaj wyniki, wywołując metodę ParseApi.text().

Poniższy przykładowy kod pokazuje, jak wyodrębnić tekst z dokumentu w dokumencie PDF przy użyciu interfejsu API REST.

# inicjalizacja API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# zdefiniuj opcje tekstowe
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "PDF_with_attachements.pdf"
options.file_info.password = "password"
container_info = groupdocs_parser_cloud.ContainerItemInfo()
container_info.relative_path = "template-document.pdf"
options.container_item_info = container_info
options.start_page_number = 2
options.count_pages_to_extract = 1

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

print("Text: " + result.pages[0].text)

*Wyodrębnij tekst z dokumentu wewnątrz kontenera*

Wypróbuj online

Jak bezpłatnie wyodrębnić tekst z pliku pdf online? Wypróbuj następujące bezpłatne narzędzie online do analizowania plików PDF, aby bezpłatnie wyodrębnić tekst z pliku PDF. Ten ekstraktor tekstu PDF został opracowany przy użyciu powyższego interfejsu API. https://products.groupdocs.app/parser/pdf

Wniosek

W tym artykule nauczyłeś się, jak wyodrębniać tekst z dokumentów PDF w chmurze. W tym artykule wyjaśniono również, jak programowo przesłać plik PDF do chmury i ekstraktora tekstu pdf online. Ponadto nauczyliśmy się również wyodrębniać tylko tekst z pliku PDF według numeru strony i wyodrębniać tekst Python z pliku PDF z załączonego dokumentu.

Możesz dowiedzieć się więcej o GroupDocs.Parser Cloud API korzystając z dokumentacji. Udostępniamy również sekcję Informacje o interfejsach API, która umożliwia wizualizację naszych interfejsów API i interakcję z nimi bezpośrednio w przeglądarce. W przypadku jakichkolwiek niejasności dotyczących ekstrakcji tekstu pdf i wyodrębniania tekstu z pythona pdf, prosimy o kontakt na forum.

Zobacz też

Rozwiązanie REST API do analizowania dokumentów i wyodrębniania danych

Interfejs API REST parsera dokumentów i zestaw SDK języka Python#

Wyodrębnij tekst z pliku PDF za pomocą interfejsu API REST w języku Python#

Prześlij dokument#

Wyodrębnij tekst z dokumentów PDF za pomocą Python#

Czytaj tekst według numerów stron z dokumentów PDF za pomocą Python#

Uzyskaj tekst z dokumentu załączonego w formacie PDF za pomocą Python#

Wypróbuj online#

Wniosek#

Zobacz też#