Analyzujte dokumenty Word pomocí REST API v Node.js

Možná budete muset extrahovat text nebo obrázky z dokumentů aplikace Word pro různé účely. Můžete snadno analyzovat dokumenty aplikace Word a číst text programově v aplikacích Node.js. Jako vývojář Node.js můžete extrahovat veškerý text a obrázky ze souborů DOCX programově v cloudu. Tento článek se zaměří na to, jak analyzovat dokumenty aplikace Word pomocí rozhraní REST API v Node.js.

Tento článek bude obsahovat následující témata:

REST API analyzátoru dokumentů a Node.js SDK

Pro analýzu dokumentů DOCX budu používat Node.js SDK of GroupDocs.Parser Cloud API. Umožňuje analyzovat data z více než 50 typů dokumentů. Podporuje také analýzu kontejnerů, jako jsou archivy ZIP, datové soubory pošty OST/PST, elektronické knihy, značky a portfolia PDF ve vašich aplikacích Node.js. Pomocí sady SDK můžete extrahovat text, obrázky a analyzovat data podle šablony. Poskytuje také .NET, Java, PHP, Ruby a Python SDK jako členové rodiny analyzátorů dokumentů pro Cloud API.

GroupDocs.Parser Cloud můžete nainstalovat do své aplikace Node.js pomocí následujícího příkazu v konzole:

npm install groupdocs-parser-cloud 

Než provedete uvedené kroky, získejte prosím své ID klienta a tajný klíč z dashboard. Jakmile budete mít své ID a tajemství, přidejte kód, jak je uvedeno níže:

global.clientId = "112f0f38-9dae-42d5-b4fc-cc84ae644972";
global.clientSecret = "16ad3fe0bdc39c910f57d2fd48a5d618";
global.myStorage = "";

const configuration = new groupdocs_parser_cloud.Configuration(clientId, clientSecret);
configuration.apiBaseUrl = "https://api.groupdocs.cloud";

Analyzujte dokumenty Wordu a extrahujte obrázky pomocí REST API v Node.js

Dokumenty Wordu můžete analyzovat a extrahovat obrázky programově podle následujících kroků:

Nahrajte dokument

Nejprve nahrajte dokument Word (DOCX) do cloudu pomocí příkladu kódu uvedeného níže:

// inicializovat API
let fileApi = groupdocs_parser_cloud.FileApi.fromConfig(configuration);
let resourcesFolder = 'C:\\Files\\sample.docx';

// číst soubor
fs.readFile(resourcesFolder, (err, fileStream) => {
  // vytvořit požadavek na nahrání souboru
  let request = new groupdocs_parser_cloud.UploadFileRequest("sample.docx", fileStream, myStorage);
  // nahrát soubor
  fileApi.uploadFile(request);
});

V důsledku toho bude nahraný soubor DOCX dostupný v sekce souborů vašeho řídicího panelu v cloudu.

Extrahujte obrázky z dokumentů aplikace Word pomocí Node.js

Všechny obrázky můžete snadno extrahovat z dokumentů aplikace Word podle níže uvedených kroků.

  • Vytvořte instanci rozhraní ParseApi
  • Vytvořte instanci souboru FileInfo
  • Nastavte cestu k souboru DOCX
  • Vytvořte instanci ImageOptions
  • Přiřaďte FileInfo k ImageOptions
  • Vytvořit ImagesRequest
  • Získejte výsledky voláním metody ParseApi.images()

Následující ukázka kódu ukazuje, jak extrahovat obrázky ze souboru DOCX pomocí REST API.

// inicializace api
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// informace o ukázkovém souboru
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.docx";

// definovat možnosti obrázku
let options = new groupdocs_parser_cloud.ImagesOptions();
options.fileInfo = fileInfo;

// vytvořit žádost o obrázek
let request = new groupdocs_parser_cloud.ImagesRequest(options);

// získat obrázky
let result = await parseApi.images(request);

// zobrazit cestu ke stažení obrázků
let images = result.images;
images.forEach(image => {
  console.log("Image path in storage: " + image.path);
  console.log("Download url: " + image.downloadUrl);
  console.log("Image format: " + image.fileFormat + ". Page index: " + image.pageIndex);
});
Extrahujte obrázky z dokumentů aplikace Word pomocí Node.js

Extrahujte obrázky z dokumentů aplikace Word pomocí Node.js

Stáhněte si extrahované obrázky

Výše uvedená ukázka kódu uloží extrahované obrázky do cloudu. Tyto obrázky si můžete stáhnout pomocí níže uvedeného příkladu kódu:

// inicializovat api
var fileApi = groupdocs_parser_cloud.FileApi.fromConfig(configuration);

// vytvořit požadavek na stažení souboru
let request = new groupdocs_parser_cloud.DownloadFileRequest("parser/images/sample_docx/image_0.png", myStorage);

// stáhnout soubor
let response = await fileApi.downloadFile(request);

// uložit soubor obrázku do pracovního adresáře
fs.writeFile("C:\\Files\\images\\image_0.png", response, "binary", function (err) { });
console.log(response);

Extrahujte text z dokumentů aplikace Word pomocí Node.js

Podle níže uvedených kroků můžete snadno extrahovat veškerý text z dokumentů aplikace Word.

  • Vytvořte instanci rozhraní ParseApi
  • Vytvořte instanci souboru FileInfo
  • Nastavte cestu k souboru DOCX
  • Vytvořte instanci TextOptions
  • Přiřaďte FileInfo k TextOptions
  • Nastavte číslo úvodní stránky
  • Definujte možnosti FormattedTextOptions
  • Vytvořte TextRequest
  • Získejte výsledky voláním metody ParseApi.text()

Následující ukázka kódu ukazuje, jak extrahovat text ze souboru DOCX pomocí REST API.

// inicializace api
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// informace o ukázkovém souboru
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.docx";

// definovat možnosti textu
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.startPageNumber = 0;
options.countPagesToExtract = 1;
options.formattedTextOptions = new groupdocs_parser_cloud.FormattedTextOptions({
  mode: "Html"  // extract text in HTML
});

// vytvořit textovou žádost
let request = new groupdocs_parser_cloud.TextRequest(options);

// získat text
let result = await parseApi.text(request);

// zobrazit extrahovaný text
let pages = result.pages;
pages.forEach(page => console.log(page.text));
Extrahujte text z dokumentů aplikace Word pomocí Node.js

Extrahujte text z dokumentů aplikace Word pomocí Node.js

Vyzkoušejte online

Vyzkoušejte prosím následující bezplatný online nástroj pro analýzu DOCX, který je vyvinut pomocí výše uvedeného API. https://products.groupdocs.app/parser/docx

Závěr

V tomto článku jste se naučili, jak analyzovat dokumenty Wordu v cloudu. Také jste se naučili, jak extrahovat obrázky a text ze souborů DOCX pomocí REST API v Node.js. Tento článek také vysvětluje, jak programově nahrát soubor DOCX do cloudu a stáhnout soubory obrázků z cloudu. Více o GroupDocs.Parser Cloud API se můžete dozvědět pomocí dokumentace. Poskytujeme také sekci API Reference, která vám umožní vizualizovat a pracovat s našimi API přímo prostřednictvím prohlížeče. V případě jakýchkoliv nejasností nás neváhejte kontaktovat na fóru.

Viz také