Możesz łatwo analizować dokumenty PDF i programowo wyodrębniać cały tekst w chmurze. W tym artykule dowiesz się, jak wyodrębnić tekst z dokumentów PDF za pomocą REST API w Node.js.
W tym artykule zostaną omówione następujące tematy:
- PDF Parser REST API i Node.js SDK do wyodrębniania tekstu
- Wyodrębnij tekst z pliku PDF za pomocą interfejsu API REST w Node.js
- Uzyskaj tekst według numerów stron z dokumentów PDF za pomocą Node.js
- Wyodrębnij tekst z dokumentów dołączonych do pliku PDF za pomocą Node.js
PDF Parser REST API i Node.js SDK do wyodrębniania tekstu
Do analizowania dokumentów PDF będę używał Node.js SDK of GroupDocs.Parser Cloud API. Pozwala analizować dane z ponad 50 typów obsługiwanych formatów dokumentów. Obsługuje również parsowanie kontenerów, takich jak archiwa ZIP, pliki danych poczty OST, e-booki, znaczniki i portfolio PDF w aplikacjach Node.js. Możesz wyodrębniać tekst, obrazy i analizować dane za pomocą szablonu za pomocą zestawu SDK. Udostępnia również zestawy SDK .NET, Java, PHP, Ruby i Python jako członkowie rodziny parserów dokumentów dla Cloud API.
Możesz zainstalować GroupDocs.Parser Cloud w swojej aplikacji Node.js za pomocą następującego polecenia w konsoli:
npm install groupdocs-parser-cloud
Proszę pobierz swój identyfikator klienta i klucz tajny z pulpitu nawigacyjnego przed wykonaniem wspomnianych kroków. Po uzyskaniu identyfikatora i tajnego kodu dodaj kod, jak pokazano poniżej:
global.clientId = "112f0f38-9dae-42d5-b4fc-cc84ae644972";
global.clientSecret = "16ad3fe0bdc39c910f57d2fd48a5d618";
global.myStorage = "";
const configuration = new groupdocs_parser_cloud.Configuration(clientId, clientSecret);
configuration.apiBaseUrl = "https://api.groupdocs.cloud";
Wyodrębnij tekst z pliku PDF za pomocą interfejsu API REST w Node.js
Możesz wyodrębnić tekst z dokumentów PDF, wykonując proste czynności wymienione poniżej:
- Prześlij plik PDF do chmury
- Wyodrębnij tekst z dokumentów PDF za pomocą Node.js
Prześlij dokument
Najpierw prześlij dokument PDF do chmury, korzystając z przykładowego kodu podanego poniżej:
// Skonstruuj FileApi
let fileApi = groupdocs_parser_cloud.FileApi.fromConfig(configuration);
let filePath = 'C:\\Files\\Parser\\sample.pdf';
fs.readFile(filePath, (err, fileStream) => {
// Utwórz żądanie przesłania pliku
let request = new groupdocs_parser_cloud.UploadFileRequest("sample.pdf", fileStream, myStorage);
// Przesyłanie pliku
fileApi.uploadFile(request);
});
W rezultacie przesłany plik PDF będzie dostępny w sekcji plików Twojego pulpitu nawigacyjnego w chmurze.
Wyodrębnij tekst z dokumentów PDF za pomocą Node.js
Możesz łatwo wyodrębnić cały tekst z dokumentów PDF programowo, wykonując czynności podane poniżej:
- Utwórz instancję ParseApi.
- Utwórz instancję FileInfo.
- Następnie ustaw ścieżkę do pliku PDF.
- Utwórz instancję TextOptions.
- Następnie przypisz FileInfo do TextOptions.
- Teraz utwórz instancję TextRequest z TextOptions.
- Na koniec uzyskaj wyniki, wywołując metodę ParseApi.text() z TextRequest.
Poniższy przykładowy kod pokazuje, jak wyodrębnić cały tekst z dokumentu PDF przy użyciu interfejsu API REST w Node.js.
// Inicjalizacja interfejsu API
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);
// Plik wejściowy
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.pdf";
// Zdefiniuj opcje tekstu
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
// Utwórz prośbę tekstową
let request = new groupdocs_parser_cloud.TextRequest(options);
// Wyodrębnij tekst
let result = await parseApi.text(request);
console.log(result.text);
Uzyskaj tekst według numerów stron z dokumentów PDF za pomocą Node.js
Możesz programowo wyodrębnić tekst z określonych stron pliku PDF, wykonując poniższe czynności:
- Utwórz instancję ParseApi.
- Utwórz instancję FileInfo.
- Następnie ustaw ścieżkę do pliku PDF.
- Utwórz instancję TextOptions.
- Następnie przypisz FileInfo do TextOptions.
- Ustaw numer strony początkowej i całkowitą liczbę stron do wyodrębnienia.
- Teraz utwórz instancję TextRequest z TextOptions.
- Na koniec uzyskaj wyniki, wywołując metodę ParseApi.text() z TextRequest.
Poniższy przykładowy kod pokazuje, jak wyodrębnić tekst według numerów stron z dokumentu PDF przy użyciu interfejsu API REST.
// Inicjalizacja interfejsu API
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);
// Wprowadź ścieżkę pliku
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.pdf";
// Zdefiniuj opcje tekstu
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.startPageNumber = 0;
options.countPagesToExtract = 1;
// Utwórz prośbę tekstową
let request = new groupdocs_parser_cloud.TextRequest(options);
// Wyodrębnij tekst
let result = await parseApi.text(request);
// Pokaż wyniki
let pages = result.pages;
pages.forEach(page => console.log("Page No: " + page.pageIndex + 1 + " - " + page.text));
Wyodrębnij tekst z dokumentów dołączonych do pliku PDF za pomocą Node.js
Możesz programowo wyodrębnić tekst z dokumentu znajdującego się w kontenerze, który jest dostępny jako załącznik w pliku PDF, wykonując czynności wymienione poniżej.
- Utwórz instancję ParseApi.
- Utwórz instancję FileInfo.
- Następnie ustaw ścieżkę do pliku PDF.
- Opcjonalnie podaj hasło do pliku.
- Teraz utwórz wystąpienie klasy ContainerItemInfo
- Następnie ustaw ścieżkę względną dla załączonego pliku
- Utwórz instancję TextOptions.
- Następnie przypisz FileInfo i ContainerItemInfo do TextOptions.
- Teraz utwórz instancję TextRequest z TextOptions
- Na koniec uzyskaj wyniki, wywołując metodę ParseApi.text() z TextRequest
Poniższy przykładowy kod pokazuje, jak wyodrębnić tekst z dokumentu w dokumencie PDF przy użyciu interfejsu API REST.
// Inicjalizacja interfejsu API
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);
// Plik wejściowy
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "PDF_with_Attachments.pdf";
fileInfo.password = "password";
// Element kontenera wejściowego
let containerInfo = new groupdocs_parser_cloud.ContainerItemInfo();
containerInfo.relativePath = "template-document.pdf";
// Zdefiniuj opcje tekstu
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.containerItemInfo = containerInfo;
// Utwórz prośbę tekstową
let request = new groupdocs_parser_cloud.TextRequest(options);
// Wyodrębnij tekst
let result = await parseApi.text(request);
console.log(result.text);
Wypróbuj online
Wypróbuj następujące bezpłatne narzędzie online do analizowania plików PDF, które zostało opracowane przy użyciu powyższego interfejsu API. https://products.groupdocs.app/parser/pdf
Wniosek
W tym artykule nauczyłeś się analizować dokumenty PDF w chmurze. Ponadto widziałeś, jak wyodrębniać tekst według numerów stron i elementów kontenera plików PDF za pomocą interfejsu API REST w Node.js. W tym artykule wyjaśniono również, jak programowo przesłać plik PDF do chmury. Poza tym możesz dowiedzieć się więcej o GroupDocs.Parser Cloud API korzystając z dokumentacji. Udostępniamy również sekcję Informacje o interfejsach API, która umożliwia wizualizację naszych interfejsów API i interakcję z nimi bezpośrednio w przeglądarce. W przypadku jakichkolwiek niejasności prosimy o kontakt na forum.