Wyodrębnij tekst z PDF za pomocą REST API w Node.js

Możesz łatwo analizować dokumenty PDF i programowo wyodrębniać cały tekst w chmurze. W tym artykule dowiesz się, jak wyodrębnić tekst z dokumentów PDF za pomocą REST API w Node.js.

W tym artykule zostaną omówione następujące tematy:

PDF Parser REST API i Node.js SDK do wyodrębniania tekstu
Wyodrębnij tekst z pliku PDF za pomocą interfejsu API REST w Node.js
Uzyskaj tekst według numerów stron z dokumentów PDF za pomocą Node.js
Wyodrębnij tekst z dokumentów dołączonych do pliku PDF za pomocą Node.js

PDF Parser REST API i Node.js SDK do wyodrębniania tekstu

Do analizowania dokumentów PDF będę używał Node.js SDK of GroupDocs.Parser Cloud API. Pozwala analizować dane z ponad 50 typów obsługiwanych formatów dokumentów. Obsługuje również parsowanie kontenerów, takich jak archiwa ZIP, pliki danych poczty OST, e-booki, znaczniki i portfolio PDF w aplikacjach Node.js. Możesz wyodrębniać tekst, obrazy i analizować dane za pomocą szablonu za pomocą zestawu SDK. Udostępnia również zestawy SDK .NET, Java, PHP, Ruby i Python jako członkowie rodziny parserów dokumentów dla Cloud API.

Możesz zainstalować GroupDocs.Parser Cloud w swojej aplikacji Node.js za pomocą następującego polecenia w konsoli:

npm install groupdocs-parser-cloud

Proszę pobierz swój identyfikator klienta i klucz tajny z pulpitu nawigacyjnego przed wykonaniem wspomnianych kroków. Po uzyskaniu identyfikatora i tajnego kodu dodaj kod, jak pokazano poniżej:

global.clientId = "112f0f38-9dae-42d5-b4fc-cc84ae644972";
global.clientSecret = "16ad3fe0bdc39c910f57d2fd48a5d618";
global.myStorage = "";

const configuration = new groupdocs_parser_cloud.Configuration(clientId, clientSecret);
configuration.apiBaseUrl = "https://api.groupdocs.cloud";

Wyodrębnij tekst z pliku PDF za pomocą interfejsu API REST w Node.js

Możesz wyodrębnić tekst z dokumentów PDF, wykonując proste czynności wymienione poniżej:

Prześlij plik PDF do chmury
Wyodrębnij tekst z dokumentów PDF za pomocą Node.js

Prześlij dokument

Najpierw prześlij dokument PDF do chmury, korzystając z przykładowego kodu podanego poniżej:

// Skonstruuj FileApi
let fileApi = groupdocs_parser_cloud.FileApi.fromConfig(configuration);
let filePath = 'C:\\Files\\Parser\\sample.pdf';

fs.readFile(filePath, (err, fileStream) => {
  // Utwórz żądanie przesłania pliku
  let request = new groupdocs_parser_cloud.UploadFileRequest("sample.pdf", fileStream, myStorage);
  // Przesyłanie pliku
  fileApi.uploadFile(request);
});

W rezultacie przesłany plik PDF będzie dostępny w sekcji plików Twojego pulpitu nawigacyjnego w chmurze.

Wyodrębnij tekst z dokumentów PDF za pomocą Node.js

Możesz łatwo wyodrębnić cały tekst z dokumentów PDF programowo, wykonując czynności podane poniżej:

Utwórz instancję ParseApi.
Utwórz instancję FileInfo.
Następnie ustaw ścieżkę do pliku PDF.
Utwórz instancję TextOptions.
Następnie przypisz FileInfo do TextOptions.
Teraz utwórz instancję TextRequest z TextOptions.
Na koniec uzyskaj wyniki, wywołując metodę ParseApi.text() z TextRequest.

Poniższy przykładowy kod pokazuje, jak wyodrębnić cały tekst z dokumentu PDF przy użyciu interfejsu API REST w Node.js.

// Inicjalizacja interfejsu API
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// Plik wejściowy
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.pdf";

// Zdefiniuj opcje tekstu
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;

// Utwórz prośbę tekstową
let request = new groupdocs_parser_cloud.TextRequest(options);

// Wyodrębnij tekst
let result = await parseApi.text(request);
console.log(result.text);

Wyodrębnij tekst z pliku PDF za pomocą interfejsu API REST w Node.js

Uzyskaj tekst według numerów stron z dokumentów PDF za pomocą Node.js

Możesz programowo wyodrębnić tekst z określonych stron pliku PDF, wykonując poniższe czynności:

Utwórz instancję ParseApi.
Utwórz instancję FileInfo.
Następnie ustaw ścieżkę do pliku PDF.
Utwórz instancję TextOptions.
Następnie przypisz FileInfo do TextOptions.
Ustaw numer strony początkowej i całkowitą liczbę stron do wyodrębnienia.
Teraz utwórz instancję TextRequest z TextOptions.
Na koniec uzyskaj wyniki, wywołując metodę ParseApi.text() z TextRequest.

Poniższy przykładowy kod pokazuje, jak wyodrębnić tekst według numerów stron z dokumentu PDF przy użyciu interfejsu API REST.

// Inicjalizacja interfejsu API
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// Wprowadź ścieżkę pliku
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.pdf";

// Zdefiniuj opcje tekstu
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.startPageNumber = 0;
options.countPagesToExtract = 1;

// Utwórz prośbę tekstową
let request = new groupdocs_parser_cloud.TextRequest(options);

// Wyodrębnij tekst
let result = await parseApi.text(request);

// Pokaż wyniki
let pages = result.pages;
pages.forEach(page => console.log("Page No: " + page.pageIndex + 1 + " - " + page.text));

Uzyskaj tekst według numerów stron z dokumentów PDF za pomocą Node.js

Wyodrębnij tekst z dokumentów dołączonych do pliku PDF za pomocą Node.js

Możesz programowo wyodrębnić tekst z dokumentu znajdującego się w kontenerze, który jest dostępny jako załącznik w pliku PDF, wykonując czynności wymienione poniżej.

Utwórz instancję ParseApi.
Utwórz instancję FileInfo.
Następnie ustaw ścieżkę do pliku PDF.
Opcjonalnie podaj hasło do pliku.
Teraz utwórz wystąpienie klasy ContainerItemInfo
Następnie ustaw ścieżkę względną dla załączonego pliku
Utwórz instancję TextOptions.
Następnie przypisz FileInfo i ContainerItemInfo do TextOptions.
Teraz utwórz instancję TextRequest z TextOptions
Na koniec uzyskaj wyniki, wywołując metodę ParseApi.text() z TextRequest

Poniższy przykładowy kod pokazuje, jak wyodrębnić tekst z dokumentu w dokumencie PDF przy użyciu interfejsu API REST.

// Inicjalizacja interfejsu API
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// Plik wejściowy
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "PDF_with_Attachments.pdf";
fileInfo.password = "password";

// Element kontenera wejściowego
let containerInfo = new groupdocs_parser_cloud.ContainerItemInfo();
containerInfo.relativePath = "template-document.pdf";

// Zdefiniuj opcje tekstu
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.containerItemInfo = containerInfo;

// Utwórz prośbę tekstową
let request = new groupdocs_parser_cloud.TextRequest(options);

// Wyodrębnij tekst
let result = await parseApi.text(request);
console.log(result.text);

Wyodrębnij tekst z dokumentów dołączonych do pliku PDF za pomocą Node.js

Wypróbuj online

Wypróbuj następujące bezpłatne narzędzie online do analizowania plików PDF, które zostało opracowane przy użyciu powyższego interfejsu API. https://products.groupdocs.app/parser/pdf

Wniosek

W tym artykule nauczyłeś się analizować dokumenty PDF w chmurze. Ponadto widziałeś, jak wyodrębniać tekst według numerów stron i elementów kontenera plików PDF za pomocą interfejsu API REST w Node.js. W tym artykule wyjaśniono również, jak programowo przesłać plik PDF do chmury. Poza tym możesz dowiedzieć się więcej o GroupDocs.Parser Cloud API korzystając z dokumentacji. Udostępniamy również sekcję Informacje o interfejsach API, która umożliwia wizualizację naszych interfejsów API i interakcję z nimi bezpośrednio w przeglądarce. W przypadku jakichkolwiek niejasności prosimy o kontakt na forum.

Zobacz też

Analizuj dokumenty Worda za pomocą REST API w Node.js

PDF Parser REST API i Node.js SDK do wyodrębniania tekstu#

Wyodrębnij tekst z pliku PDF za pomocą interfejsu API REST w Node.js#

Prześlij dokument#

Wyodrębnij tekst z dokumentów PDF za pomocą Node.js#

Uzyskaj tekst według numerów stron z dokumentów PDF za pomocą Node.js#

Wyodrębnij tekst z dokumentów dołączonych do pliku PDF za pomocą Node.js#

Wypróbuj online#

Wniosek#

Zobacz też#