Może być konieczne odczytanie i wyodrębnienie tekstu z dokumentów PDF w aplikacjach Python. Tak więc, jako programista Python, możesz łatwo programowo wyodrębnić cały tekst z dokumentów PDF w chmurze. W tym artykule wyjaśniono, jak wyodrębnić tekst z dokumentów PDF za pomocą interfejsu API REST w języku Python.
W tym artykule zostaną omówione następujące tematy:
- Interfejs API REST parsera dokumentów i zestaw SDK języka Python
- Wyodrębnij tekst z pliku PDF za pomocą interfejsu API REST
Interfejs API REST parsera dokumentów i zestaw SDK języka Python
Aby wyodrębnić tekst z dokumentu PDF, użyję Python SDK of GroupDocs.Parser Cloud API. Pozwala pythonowi pobierać tekst z pdf i analizować dane ze wszystkich popularnych typów dokumentów. Możesz wyodrębniać tekst, obrazy i analizować dane według szablonu za pomocą zestawu SDK. Udostępnia również zestawy SDK .NET, Java, PHP, Ruby i Node.js jako członkowie rodziny parserów dokumentów dla Cloud API.
Możesz zainstalować GroupDocs.Parser Cloud w swoim projekcie Python za pomocą pip (package installer for python), używając następującego polecenia w konsoli:
pip install groupdocs_parser_cloud
Uzyskaj swój identyfikator klienta i klucz tajny klienta z panelu nawigacyjnego, zanim zaczniesz postępować zgodnie z instrukcjami i dostępnymi przykładami kodu. Po uzyskaniu identyfikatora klienta i klucza tajnego dodaj kod, jak pokazano poniżej:
client_id = "112f0f38-9dae-42d5-b4fc-cc84ae644972"
client_secret = "16ad3fe0bdc39c910f57d2fd48a5d618"
configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""
Wyodrębnij tekst z pliku PDF za pomocą interfejsu API REST w języku Python
Możesz wyodrębnić tekst z dokumentów PDF, wykonując proste czynności wymienione poniżej:
- Prześlij plik PDF do chmury
- Wyodrębnij tekst z dokumentów PDF za pomocą Python
- Odczytywanie tekstu według numerów stron z dokumentów PDF przy użyciu języka Python
- Pobierz tekst z dokumentu załączonego w formacie PDF za pomocą Python
Prześlij dokument
Przede wszystkim prześlij dokument PDF, aby uzyskać tekst z pdf python, korzystając z przykładowego kodu podanego poniżej:
# inicjalizacja API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""
request = groupdocs_parser_cloud.UploadFileRequest("sample.pdf", "C:\\Files\\sample.pdf", my_storage)
response = file_api.upload_file(request)
W rezultacie przesłany plik PDF (sample.pdf) będzie dostępny w sekcji plików Twojego pulpitu nawigacyjnego w chmurze. Teraz możesz wyodrębnić zawartość z pliku PDF.
Wyodrębnij tekst z dokumentów PDF za pomocą Python
Możesz łatwo programowo wyodrębnić tekst z pliku PDF za pomocą Python, wykonując czynności wymienione poniżej.
- Utwórz instancję ParseApi
- Zdefiniuj opcje tekstu
- Ustaw ścieżkę do pliku PDF
- Utwórz TextRequest
- Uzyskaj wyniki, wywołując metodę ParseApi.text().
Poniższy przykładowy kod pokazuje, jak wyodrębnić cały tekst z dokumentu PDF przy użyciu interfejsu API REST.
# inicjalizacja API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# zdefiniuj opcje tekstowe
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)
print("Text: " + result.text)
Czytaj tekst według numerów stron z dokumentów PDF za pomocą Python
Możesz łatwo programowo wyodrębnić tekst z określonych stron pliku PDF, wykonując czynności wymienione poniżej.
- Utwórz instancję ParseApi
- Zdefiniuj opcje tekstu
- Podaj ścieżkę do pliku PDF
- Ustaw numer strony początkowej
- ustaw liczbę stron do wyodrębnienia
- Utwórz TextRequest
- Uzyskaj wyniki, wywołując metodę ParseApi.text().
Poniższy przykładowy kod pokazuje, jak wyodrębnić słowa z pliku PDF w języku Python według zakresu numerów stron przy użyciu interfejsu API REST.
# inicjalizacja API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# zdefiniuj opcje tekstowe
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
options.start_page_number = 1
options.count_pages_to_extract = 2
request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)
for page in result.pages:
print("PageIndex: " + str(page.page_index) + ". Text: " + page.text)
Uzyskaj tekst z dokumentu załączonego w formacie PDF za pomocą Python
Możesz programowo wyodrębnić tekst z dokumentu znajdującego się w kontenerze, który jest dostępny jako załącznik w pliku PDF, wykonując czynności wymienione poniżej.
- Utwórz instancję ParseApi
- Zdefiniuj opcje tekstu
- Ustaw ścieżkę do pliku PDF
- Zdefiniuj ContainerItemInfo
- Podaj ścieżkę względną dokumentu wewnętrznego
- Ustaw numer strony początkowej
- ustaw liczbę stron do wyodrębnienia
- Utwórz TextRequest
- Uzyskaj wyniki, wywołując metodę ParseApi.text().
Poniższy przykładowy kod pokazuje, jak wyodrębnić tekst z dokumentu w dokumencie PDF przy użyciu interfejsu API REST.
# inicjalizacja API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# zdefiniuj opcje tekstowe
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "PDF_with_attachements.pdf"
options.file_info.password = "password"
container_info = groupdocs_parser_cloud.ContainerItemInfo()
container_info.relative_path = "template-document.pdf"
options.container_item_info = container_info
options.start_page_number = 2
options.count_pages_to_extract = 1
request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)
print("Text: " + result.pages[0].text)
Wypróbuj online
Jak bezpłatnie wyodrębnić tekst z pliku pdf online? Wypróbuj następujące bezpłatne narzędzie online do analizowania plików PDF, aby bezpłatnie wyodrębnić tekst z pliku PDF. Ten ekstraktor tekstu PDF został opracowany przy użyciu powyższego interfejsu API. https://products.groupdocs.app/parser/pdf
Wniosek
W tym artykule nauczyłeś się, jak wyodrębniać tekst z dokumentów PDF w chmurze. W tym artykule wyjaśniono również, jak programowo przesłać plik PDF do chmury i ekstraktora tekstu pdf online. Ponadto nauczyliśmy się również wyodrębniać tylko tekst z pliku PDF według numeru strony i wyodrębniać tekst Python z pliku PDF z załączonego dokumentu.
Możesz dowiedzieć się więcej o GroupDocs.Parser Cloud API korzystając z dokumentacji. Udostępniamy również sekcję Informacje o interfejsach API, która umożliwia wizualizację naszych interfejsów API i interakcję z nimi bezpośrednio w przeglądarce. W przypadku jakichkolwiek niejasności dotyczących ekstrakcji tekstu pdf i wyodrębniania tekstu z pythona pdf, prosimy o kontakt na forum.