Možná budete muset extrahovat text nebo obrázky z dokumentů aplikace Word pro různé účely. Můžete snadno analyzovat dokumenty aplikace Word a číst text programově v aplikacích Node.js. Jako vývojář Node.js můžete extrahovat veškerý text a obrázky ze souborů DOCX programově v cloudu. Tento článek se zaměří na to, jak analyzovat dokumenty aplikace Word pomocí rozhraní REST API v Node.js.
Tento článek bude obsahovat následující témata:
- REST API analyzátoru dokumentů a Node.js SDK
- Analyzujte dokumenty Wordu a extrahujte obrázky pomocí REST API v Node.js
- Extrahujte text z dokumentů aplikace Word pomocí rozhraní REST API
REST API analyzátoru dokumentů a Node.js SDK
Pro analýzu dokumentů DOCX budu používat Node.js SDK of GroupDocs.Parser Cloud API. Umožňuje analyzovat data z více než 50 typů dokumentů. Podporuje také analýzu kontejnerů, jako jsou archivy ZIP, datové soubory pošty OST/PST, elektronické knihy, značky a portfolia PDF ve vašich aplikacích Node.js. Pomocí sady SDK můžete extrahovat text, obrázky a analyzovat data podle šablony. Poskytuje také .NET, Java, PHP, Ruby a Python SDK jako členové rodiny analyzátorů dokumentů pro Cloud API.
GroupDocs.Parser Cloud můžete nainstalovat do své aplikace Node.js pomocí následujícího příkazu v konzole:
npm install groupdocs-parser-cloud
Než provedete uvedené kroky, získejte prosím své ID klienta a tajný klíč z dashboard. Jakmile budete mít své ID a tajemství, přidejte kód, jak je uvedeno níže:
global.clientId = "112f0f38-9dae-42d5-b4fc-cc84ae644972";
global.clientSecret = "16ad3fe0bdc39c910f57d2fd48a5d618";
global.myStorage = "";
const configuration = new groupdocs_parser_cloud.Configuration(clientId, clientSecret);
configuration.apiBaseUrl = "https://api.groupdocs.cloud";
Analyzujte dokumenty Wordu a extrahujte obrázky pomocí REST API v Node.js
Dokumenty Wordu můžete analyzovat a extrahovat obrázky programově podle následujících kroků:
- Nahrajte soubor aplikace Word do cloudu
- Extrahujte obrázky z dokumentů Word pomocí Node.js
- Stáhnout extrahované obrázky
Nahrajte dokument
Nejprve nahrajte dokument Word (DOCX) do cloudu pomocí příkladu kódu uvedeného níže:
// inicializovat API
let fileApi = groupdocs_parser_cloud.FileApi.fromConfig(configuration);
let resourcesFolder = 'C:\\Files\\sample.docx';
// číst soubor
fs.readFile(resourcesFolder, (err, fileStream) => {
// vytvořit požadavek na nahrání souboru
let request = new groupdocs_parser_cloud.UploadFileRequest("sample.docx", fileStream, myStorage);
// nahrát soubor
fileApi.uploadFile(request);
});
V důsledku toho bude nahraný soubor DOCX dostupný v sekce souborů vašeho řídicího panelu v cloudu.
Extrahujte obrázky z dokumentů aplikace Word pomocí Node.js
Všechny obrázky můžete snadno extrahovat z dokumentů aplikace Word podle níže uvedených kroků.
- Vytvořte instanci rozhraní ParseApi
- Vytvořte instanci souboru FileInfo
- Nastavte cestu k souboru DOCX
- Vytvořte instanci ImageOptions
- Přiřaďte FileInfo k ImageOptions
- Vytvořit ImagesRequest
- Získejte výsledky voláním metody ParseApi.images()
Následující ukázka kódu ukazuje, jak extrahovat obrázky ze souboru DOCX pomocí REST API.
// inicializace api
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);
// informace o ukázkovém souboru
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.docx";
// definovat možnosti obrázku
let options = new groupdocs_parser_cloud.ImagesOptions();
options.fileInfo = fileInfo;
// vytvořit žádost o obrázek
let request = new groupdocs_parser_cloud.ImagesRequest(options);
// získat obrázky
let result = await parseApi.images(request);
// zobrazit cestu ke stažení obrázků
let images = result.images;
images.forEach(image => {
console.log("Image path in storage: " + image.path);
console.log("Download url: " + image.downloadUrl);
console.log("Image format: " + image.fileFormat + ". Page index: " + image.pageIndex);
});
Stáhněte si extrahované obrázky
Výše uvedená ukázka kódu uloží extrahované obrázky do cloudu. Tyto obrázky si můžete stáhnout pomocí níže uvedeného příkladu kódu:
// inicializovat api
var fileApi = groupdocs_parser_cloud.FileApi.fromConfig(configuration);
// vytvořit požadavek na stažení souboru
let request = new groupdocs_parser_cloud.DownloadFileRequest("parser/images/sample_docx/image_0.png", myStorage);
// stáhnout soubor
let response = await fileApi.downloadFile(request);
// uložit soubor obrázku do pracovního adresáře
fs.writeFile("C:\\Files\\images\\image_0.png", response, "binary", function (err) { });
console.log(response);
Extrahujte text z dokumentů aplikace Word pomocí Node.js
Podle níže uvedených kroků můžete snadno extrahovat veškerý text z dokumentů aplikace Word.
- Vytvořte instanci rozhraní ParseApi
- Vytvořte instanci souboru FileInfo
- Nastavte cestu k souboru DOCX
- Vytvořte instanci TextOptions
- Přiřaďte FileInfo k TextOptions
- Nastavte číslo úvodní stránky
- Definujte možnosti FormattedTextOptions
- Vytvořte TextRequest
- Získejte výsledky voláním metody ParseApi.text()
Následující ukázka kódu ukazuje, jak extrahovat text ze souboru DOCX pomocí REST API.
// inicializace api
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);
// informace o ukázkovém souboru
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.docx";
// definovat možnosti textu
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.startPageNumber = 0;
options.countPagesToExtract = 1;
options.formattedTextOptions = new groupdocs_parser_cloud.FormattedTextOptions({
mode: "Html" // extract text in HTML
});
// vytvořit textovou žádost
let request = new groupdocs_parser_cloud.TextRequest(options);
// získat text
let result = await parseApi.text(request);
// zobrazit extrahovaný text
let pages = result.pages;
pages.forEach(page => console.log(page.text));
Vyzkoušejte online
Vyzkoušejte prosím následující bezplatný online nástroj pro analýzu DOCX, který je vyvinut pomocí výše uvedeného API. https://products.groupdocs.app/parser/docx
Závěr
V tomto článku jste se naučili, jak analyzovat dokumenty Wordu v cloudu. Také jste se naučili, jak extrahovat obrázky a text ze souborů DOCX pomocí REST API v Node.js. Tento článek také vysvětluje, jak programově nahrát soubor DOCX do cloudu a stáhnout soubory obrázků z cloudu. Více o GroupDocs.Parser Cloud API se můžete dozvědět pomocí dokumentace. Poskytujeme také sekci API Reference, která vám umožní vizualizovat a pracovat s našimi API přímo prostřednictvím prohlížeče. V případě jakýchkoliv nejasností nás neváhejte kontaktovat na fóru.