Wyodrębnij tekst z PDF za pomocą REST API w Node.js

Możesz łatwo analizować dokumenty PDF i programowo wyodrębniać cały tekst w chmurze. W tym artykule dowiesz się, jak wyodrębnić tekst z dokumentów PDF za pomocą REST API w Node.js.

W tym artykule zostaną omówione następujące tematy:

PDF Parser REST API i Node.js SDK do wyodrębniania tekstu

Do analizowania dokumentów PDF będę używał Node.js SDK of GroupDocs.Parser Cloud API. Pozwala analizować dane z ponad 50 typów obsługiwanych formatów dokumentów. Obsługuje również parsowanie kontenerów, takich jak archiwa ZIP, pliki danych poczty OST, e-booki, znaczniki i portfolio PDF w aplikacjach Node.js. Możesz wyodrębniać tekst, obrazy i analizować dane za pomocą szablonu za pomocą zestawu SDK. Udostępnia również zestawy SDK .NET, Java, PHP, Ruby i Python jako członkowie rodziny parserów dokumentów dla Cloud API.

Możesz zainstalować GroupDocs.Parser Cloud w swojej aplikacji Node.js za pomocą następującego polecenia w konsoli:

npm install groupdocs-parser-cloud

Proszę pobierz swój identyfikator klienta i klucz tajny z pulpitu nawigacyjnego przed wykonaniem wspomnianych kroków. Po uzyskaniu identyfikatora i tajnego kodu dodaj kod, jak pokazano poniżej:

global.clientId = "112f0f38-9dae-42d5-b4fc-cc84ae644972";
global.clientSecret = "16ad3fe0bdc39c910f57d2fd48a5d618";
global.myStorage = "";

const configuration = new groupdocs_parser_cloud.Configuration(clientId, clientSecret);
configuration.apiBaseUrl = "https://api.groupdocs.cloud";

Wyodrębnij tekst z pliku PDF za pomocą interfejsu API REST w Node.js

Możesz wyodrębnić tekst z dokumentów PDF, wykonując proste czynności wymienione poniżej:

Prześlij dokument

Najpierw prześlij dokument PDF do chmury, korzystając z przykładowego kodu podanego poniżej:

// Skonstruuj FileApi
let fileApi = groupdocs_parser_cloud.FileApi.fromConfig(configuration);
let filePath = 'C:\\Files\\Parser\\sample.pdf';

fs.readFile(filePath, (err, fileStream) => {
  // Utwórz żądanie przesłania pliku
  let request = new groupdocs_parser_cloud.UploadFileRequest("sample.pdf", fileStream, myStorage);
  // Przesyłanie pliku
  fileApi.uploadFile(request);
});

W rezultacie przesłany plik PDF będzie dostępny w sekcji plików Twojego pulpitu nawigacyjnego w chmurze.

Wyodrębnij tekst z dokumentów PDF za pomocą Node.js

Możesz łatwo wyodrębnić cały tekst z dokumentów PDF programowo, wykonując czynności podane poniżej:

  • Utwórz instancję ParseApi.
  • Utwórz instancję FileInfo.
  • Następnie ustaw ścieżkę do pliku PDF.
  • Utwórz instancję TextOptions.
  • Następnie przypisz FileInfo do TextOptions.
  • Teraz utwórz instancję TextRequest z TextOptions.
  • Na koniec uzyskaj wyniki, wywołując metodę ParseApi.text() z TextRequest.

Poniższy przykładowy kod pokazuje, jak wyodrębnić cały tekst z dokumentu PDF przy użyciu interfejsu API REST w Node.js.

// Inicjalizacja interfejsu API
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// Plik wejściowy
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.pdf";

// Zdefiniuj opcje tekstu
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;

// Utwórz prośbę tekstową
let request = new groupdocs_parser_cloud.TextRequest(options);

// Wyodrębnij tekst
let result = await parseApi.text(request);
console.log(result.text);
Wyodrębnij tekst z pliku PDF za pomocą interfejsu API REST w Node.js

Wyodrębnij tekst z pliku PDF za pomocą interfejsu API REST w Node.js

Uzyskaj tekst według numerów stron z dokumentów PDF za pomocą Node.js

Możesz programowo wyodrębnić tekst z określonych stron pliku PDF, wykonując poniższe czynności:

  • Utwórz instancję ParseApi.
  • Utwórz instancję FileInfo.
  • Następnie ustaw ścieżkę do pliku PDF.
  • Utwórz instancję TextOptions.
  • Następnie przypisz FileInfo do TextOptions.
  • Ustaw numer strony początkowej i całkowitą liczbę stron do wyodrębnienia.
  • Teraz utwórz instancję TextRequest z TextOptions.
  • Na koniec uzyskaj wyniki, wywołując metodę ParseApi.text() z TextRequest.

Poniższy przykładowy kod pokazuje, jak wyodrębnić tekst według numerów stron z dokumentu PDF przy użyciu interfejsu API REST.

// Inicjalizacja interfejsu API
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// Wprowadź ścieżkę pliku
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.pdf";

// Zdefiniuj opcje tekstu
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.startPageNumber = 0;
options.countPagesToExtract = 1;

// Utwórz prośbę tekstową
let request = new groupdocs_parser_cloud.TextRequest(options);

// Wyodrębnij tekst
let result = await parseApi.text(request);

// Pokaż wyniki
let pages = result.pages;
pages.forEach(page => console.log("Page No: " + page.pageIndex + 1 + " - " + page.text));
Uzyskaj tekst według numerów stron z dokumentów PDF za pomocą Node.js

Uzyskaj tekst według numerów stron z dokumentów PDF za pomocą Node.js

Wyodrębnij tekst z dokumentów dołączonych do pliku PDF za pomocą Node.js

Możesz programowo wyodrębnić tekst z dokumentu znajdującego się w kontenerze, który jest dostępny jako załącznik w pliku PDF, wykonując czynności wymienione poniżej.

  • Utwórz instancję ParseApi.
  • Utwórz instancję FileInfo.
  • Następnie ustaw ścieżkę do pliku PDF.
  • Opcjonalnie podaj hasło do pliku.
  • Teraz utwórz wystąpienie klasy ContainerItemInfo
  • Następnie ustaw ścieżkę względną dla załączonego pliku
  • Utwórz instancję TextOptions.
  • Następnie przypisz FileInfo i ContainerItemInfo do TextOptions.
  • Teraz utwórz instancję TextRequest z TextOptions
  • Na koniec uzyskaj wyniki, wywołując metodę ParseApi.text() z TextRequest

Poniższy przykładowy kod pokazuje, jak wyodrębnić tekst z dokumentu w dokumencie PDF przy użyciu interfejsu API REST.

// Inicjalizacja interfejsu API
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// Plik wejściowy
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "PDF_with_Attachments.pdf";
fileInfo.password = "password";

// Element kontenera wejściowego
let containerInfo = new groupdocs_parser_cloud.ContainerItemInfo();
containerInfo.relativePath = "template-document.pdf";

// Zdefiniuj opcje tekstu
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.containerItemInfo = containerInfo;

// Utwórz prośbę tekstową
let request = new groupdocs_parser_cloud.TextRequest(options);

// Wyodrębnij tekst
let result = await parseApi.text(request);
console.log(result.text);
Wyodrębnij tekst z dokumentów dołączonych do pliku PDF za pomocą Node.js

Wyodrębnij tekst z dokumentów dołączonych do pliku PDF za pomocą Node.js

Wypróbuj online

Wypróbuj następujące bezpłatne narzędzie online do analizowania plików PDF, które zostało opracowane przy użyciu powyższego interfejsu API. https://products.groupdocs.app/parser/pdf

Wniosek

W tym artykule nauczyłeś się analizować dokumenty PDF w chmurze. Ponadto widziałeś, jak wyodrębniać tekst według numerów stron i elementów kontenera plików PDF za pomocą interfejsu API REST w Node.js. W tym artykule wyjaśniono również, jak programowo przesłać plik PDF do chmury. Poza tym możesz dowiedzieć się więcej o GroupDocs.Parser Cloud API korzystając z dokumentacji. Udostępniamy również sekcję Informacje o interfejsach API, która umożliwia wizualizację naszych interfejsów API i interakcję z nimi bezpośrednio w przeglądarce. W przypadku jakichkolwiek niejasności prosimy o kontakt na forum.

Zobacz też