
Może być konieczne wyodrębnienie tekstu lub obrazów z dokumentów programu Word do różnych celów. Możesz łatwo analizować dokumenty Worda i programowo odczytywać tekst w swoich aplikacjach Node.js. Jako programista Node.js możesz programowo wyodrębnić cały tekst i obrazy z plików DOCX w chmurze. Ten artykuł skupi się na tym, jak analizować dokumenty Worda przy użyciu interfejsu API REST w Node.js.
W tym artykule zostaną omówione następujące tematy:
- Interfejs API REST parsera dokumentów i zestaw SDK Node.js
- Analizuj dokumenty Word i wyodrębniaj obrazy za pomocą REST API w Node.js
- Wyodrębnij tekst z dokumentów programu Word za pomocą interfejsu API REST
Interfejs API REST parsera dokumentów i zestaw SDK Node.js
Do analizowania dokumentów DOCX będę używał Node.js SDK of GroupDocs.Parser Cloud API. Pozwala analizować dane z ponad 50 typów dokumentów. Obsługuje również parsowanie kontenerów, takich jak archiwa ZIP, pliki danych poczty OST/PST, książki elektroniczne, znaczniki i portfolio PDF w aplikacjach Node.js. Możesz wyodrębniać tekst, obrazy i analizować dane za pomocą szablonu za pomocą zestawu SDK. Udostępnia również zestawy SDK .NET, Java, PHP, Ruby i Python jako członkowie rodziny parserów dokumentów dla Cloud API.
Możesz zainstalować GroupDocs.Parser Cloud w swojej aplikacji Node.js za pomocą następującego polecenia w konsoli:
npm install groupdocs-parser-cloud
Przed wykonaniem wspomnianych kroków uzyskaj swój identyfikator klienta i klucz tajny z panelu nawigacyjnego. Po uzyskaniu identyfikatora i tajnego kodu dodaj kod, jak pokazano poniżej:
global.clientId = "112f0f38-9dae-42d5-b4fc-cc84ae644972";
global.clientSecret = "16ad3fe0bdc39c910f57d2fd48a5d618";
global.myStorage = "";
const configuration = new groupdocs_parser_cloud.Configuration(clientId, clientSecret);
configuration.apiBaseUrl = "https://api.groupdocs.cloud";
Analizuj dokumenty Word i wyodrębniaj obrazy za pomocą REST API w Node.js
Możesz analizować dokumenty programu Word i wyodrębniać obrazy programowo, wykonując czynności wymienione poniżej:
- Prześlij plik Word do chmury
- Wyodrębnij obrazy z dokumentów Word za pomocą Node.js
- Pobierz wyodrębnione obrazy
Prześlij dokument
Najpierw prześlij dokument Word (DOCX) do chmury, korzystając z przykładowego kodu podanego poniżej:
// zainicjować API
let fileApi = groupdocs_parser_cloud.FileApi.fromConfig(configuration);
let resourcesFolder = 'C:\\Files\\sample.docx';
// przeczytaj plik
fs.readFile(resourcesFolder, (err, fileStream) => {
// utwórz żądanie przesłania pliku
let request = new groupdocs_parser_cloud.UploadFileRequest("sample.docx", fileStream, myStorage);
// Przesyłanie pliku
fileApi.uploadFile(request);
});
W rezultacie przesłany plik DOCX będzie dostępny w sekcji plików Twojego pulpitu nawigacyjnego w chmurze.
Wyodrębnij obrazy z dokumentów Word za pomocą Node.js
Możesz łatwo wyodrębnić wszystkie obrazy z dokumentów programu Word, wykonując czynności wymienione poniżej.
- Utwórz instancję ParseApi
- Utwórz instancję FileInfo
- Ustaw ścieżkę do pliku DOCX
- Utwórz instancję ImageOptions
- Przypisz FileInfo do ImageOptions
- Utwórz żądanie obrazów
- Uzyskaj wyniki, wywołując metodę ParseApi.images().
Poniższy przykładowy kod pokazuje, jak wyodrębnić obrazy z pliku DOCX przy użyciu interfejsu API REST.
// inicjalizacja API
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);
// przykładowe informacje o pliku
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.docx";
// zdefiniuj opcje obrazu
let options = new groupdocs_parser_cloud.ImagesOptions();
options.fileInfo = fileInfo;
// utwórz żądanie obrazu
let request = new groupdocs_parser_cloud.ImagesRequest(options);
// dostać obrazy
let result = await parseApi.images(request);
// pokaż ścieżkę pobierania obrazów
let images = result.images;
images.forEach(image => {
console.log("Image path in storage: " + image.path);
console.log("Download url: " + image.downloadUrl);
console.log("Image format: " + image.fileFormat + ". Page index: " + image.pageIndex);
});

Wyodrębnij obrazy z dokumentów Word za pomocą Node.js
Pobierz wyodrębnione obrazy
Powyższy przykładowy kod zapisze wyodrębnione obrazy w chmurze. Możesz pobrać te obrazy, korzystając z przykładowego kodu podanego poniżej:
// zainicjować api
var fileApi = groupdocs_parser_cloud.FileApi.fromConfig(configuration);
// utwórz żądanie pobrania pliku
let request = new groupdocs_parser_cloud.DownloadFileRequest("parser/images/sample_docx/image_0.png", myStorage);
// pobieranie pliku
let response = await fileApi.downloadFile(request);
// zapisz plik obrazu w katalogu roboczym
fs.writeFile("C:\\Files\\images\\image_0.png", response, "binary", function (err) { });
console.log(response);
Wyodrębnij tekst z dokumentów Word za pomocą Node.js
Możesz łatwo wyodrębnić cały tekst z dokumentów programu Word, wykonując czynności wymienione poniżej.
- Utwórz instancję ParseApi
- Utwórz instancję FileInfo
- Ustaw ścieżkę do pliku DOCX
- Utwórz instancję TextOptions
- Przypisz FileInfo do TextOptions
- Ustaw numer strony początkowej
- Zdefiniuj FormattedTextOptions
- Utwórz TextRequest
- Uzyskaj wyniki, wywołując metodę ParseApi.text().
Poniższy przykładowy kod pokazuje, jak wyodrębnić tekst z pliku DOCX przy użyciu interfejsu API REST.
// inicjalizacja API
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);
// przykładowe informacje o pliku
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.docx";
// zdefiniuj opcje tekstowe
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.startPageNumber = 0;
options.countPagesToExtract = 1;
options.formattedTextOptions = new groupdocs_parser_cloud.FormattedTextOptions({
mode: "Html" // extract text in HTML
});
// utwórz żądanie tekstowe
let request = new groupdocs_parser_cloud.TextRequest(options);
// dostać tekst
let result = await parseApi.text(request);
// pokaż wyodrębniony tekst
let pages = result.pages;
pages.forEach(page => console.log(page.text));

Wyodrębnij tekst z dokumentów Word za pomocą Node.js
Wypróbuj online
Wypróbuj następujące bezpłatne narzędzie online do analizowania DOCX, które zostało opracowane przy użyciu powyższego interfejsu API. https://products.groupdocs.app/parser/docx
Wniosek
W tym artykule nauczyłeś się analizować dokumenty programu Word w chmurze. Nauczyłeś się również, jak wyodrębniać obrazy i tekst z plików DOCX za pomocą REST API w Node.js. W tym artykule wyjaśniono również, jak programowo przesłać plik DOCX do chmury i pobrać pliki obrazów z chmury. Możesz dowiedzieć się więcej o GroupDocs.Parser Cloud API korzystając z dokumentacji. Udostępniamy również sekcję Informacje o interfejsach API, która umożliwia wizualizację naszych interfejsów API i interakcję z nimi bezpośrednio w przeglądarce. W przypadku jakichkolwiek niejasności prosimy o kontakt na forum.