V určitých scénářích je formátovaný text extrahován z dokumentů pro další zpracování, jako je analýza textu, klasifikace atd. Mezi jinými formáty souborů, jako jsou PDF a Word, se při extrakci textu používá také PowerPoint Prezentace. Proto tento článek ukazuje, jak extrahovat text z PowerPoint PPT/PPTX v Node.js. Můžete snadno analyzovat své PowerPoint PPT/PPTX prezentace a text z konkrétního snímku nebo extrahovat veškerý text programově v cloudu.
V tomto článku se bude diskutovat o následujících tématech:
- Knihovna Node.js pro extrahování textu z PowerPoint PPT
- Extrahujte veškerý text z PowerPoint PPT/PPTX v Node.js pomocí REST API
- Extrahovat text z PowerPoint PPT podle rozsahu čísel stránek v Node.js
Knihovna Node.js pro extrahování textu z PowerPoint PPT
Pro analýzu dokumentů aplikace PowerPoint budu používat Node.js SDK GroupDocs.Parser Cloud API. Umožňuje analyzovat data z více než 50 typů podporovaných formátů dokumentů. Podporuje také analýzu kontejnerů, jako jsou archivy ZIP, soubory dat pošty OST, e-knihy, značky, portfolia PowerPoint a PDF ve vašich aplikacích Node.js. Pomocí sady SDK můžete extrahovat text, obrázky a analyzovat data podle šablony. Poskytuje také sady .NET, Java, PHP, Ruby a Python SDK jako členové rodiny analyzátorů dokumentů pro Cloud API.
GroupDocs.Parser Cloud můžete nainstalovat do své aplikace Node.js pomocí následujícího příkazu v konzole:
npm install groupdocs-parser-cloud
Před provedením uvedených kroků získejte své ID klienta a tajný klíč z řídicího panelu. Jakmile budete mít své ID a tajemství, přidejte kód, jak je uvedeno níže:
# Importujte Node.js SDK do své aplikace uzlu z http://api.groupdocs.cloud
global.groupdocs_parser_cloud = require("groupdocs-parser-cloud");
global.fs = require("fs");
// získejte clientId a clientSecret z https://dashboard.groupdocs.cloud (je nutná bezplatná registrace).
global.clientId = "xxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
global.clientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
global.myStorage = "test-internal-storage";
const config = new groupdocs_parser_cloud.Configuration(clientId, clientSecret);
config.apiBaseUrl = "https://api.groupdocs.cloud";
Extrahujte veškerý text z PowerPoint PPT/PPTX v Node.js pomocí REST API
Text z PowerPointových prezentací můžete extrahovat pomocí následujících jednoduchých kroků:
- Nahrát soubor PowerPoint do cloudu
- Extrahovat text z PowerPointové prezentace pomocí Node.js
Nahrajte soubor
Nejprve nahrajte dokument PowerPoint do cloudu pomocí příkladu kódu uvedeného níže:
// otevřete soubor v IOStream ze systémového disku.
var resourcesFolder = 'H:\\groupdocs-cloud-data\\sample-file.pptx';
// číst soubor
fs.readFile(resourcesFolder, (err, fileStream) => {
// vytvořit FileApi
var fileApi = groupdocs_parser_cloud.FileApi.fromConfig(config);
// vytvořit žádost o nahrání souboru
var request = new groupdocs_parser_cloud.UploadFileRequest("sample-file.pptx", fileStream, myStorage);
// nahrát soubor
fileApi.uploadFile(request)
.then(function (response) {
console.log("Expected response type is FilesUploadResult: " + response.uploaded.length);
})
.catch(function (error) {
console.log("Error: " + error.message);
});
});
V důsledku toho bude nahraný soubor PowerPoint k dispozici v sekce souborů vašeho řídicího panelu v cloudu.
Extrahujte text z PowerPointové prezentace pomocí Node.js
Veškerý text můžete snadno extrahovat ze souborů PowerPoint programově podle následujících kroků:
- Nejprve vytvořte instanci ParseApi.
- Za druhé vytvořte instanci souboru FileInfo.
- Poté nastavte cestu k souboru PowerPoint.
- Vytvořte instanci TextOptions.
- Potom přiřaďte FileInfo k TextOptions.
- Vytvořte instanci FormattedTextOptions.
- Nastavte režim formattedTextOptions jako prostý text
- Dále přiřaďte hodnotu formattedTextOptions
- Nyní vytvořte instanci TextRequest pomocí TextOptions.
- Nakonec získejte výsledky voláním metody ParseApi.text() s TextRequest.
Následující ukázka kódu ukazuje, jak extrahovat veškerý text ze souboru PowerPoint pomocí REST API v Node.js:
// Jak extrahovat veškerý text z PowerPoint PPT/PPTX v Node.js pomocí REST API
const parse = async () => {
global.parseApi = groupdocs_parser_cloud.ParseApi.fromKeys(clientId, clientSecret);
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "nodejs-testing/sample-file.pptx";
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
let formattedTextOptions = new groupdocs_parser_cloud.FormattedTextOptions();
formattedTextOptions.mode = "PlainText";
options.formattedTextOptions = formattedTextOptions;
try {
// Vytvořte požadavek na analýzu dokumentu
let request = new groupdocs_parser_cloud.TextRequest(options);
let response = await parseApi.text(request);
// Zobrazit výsledky
console.log(response.text);
}
catch (err) {
throw err;
}
}
parse()
.then(() => {
console.log("Successfully extracted text from PowerPoint PPTX document.");
})
.catch((err) => {
console.log("Error occurred while extracting text from PowerPoint PPTX file:", err);
})
Extrahovat text z PowerPoint PPT podle rozsahu čísel stránek v Node.js
Text můžete extrahovat z konkrétních stránek souboru PDF programově podle následujících kroků:
- Nejprve vytvořte instanci ParseApi.
- Dále vytvořte instanci souboru FileInfo.
- Potom nastavte cestu k souboru PowerPoint PPTX.
- Vytvořte instanci TextOptions.
- Potom přiřaďte FileInfo k TextOptions.
- Nastavte hodnoty startPageNumber a countPagesToExtract
- Vytvořte instanci FormattedTextOptions.
- Nastavte režim formattedTextOptions jako prostý text
- Dále přiřaďte hodnotu formattedTextOptions.
- Nastavte číslo úvodní stránky a celkový počet stránek, které se mají extrahovat.
- Nyní vytvořte instanci TextRequest pomocí TextOptions.
- Nakonec získáte výsledky voláním metody ParseApi.text() s TextRequest.
Následující ukázka kódu ukazuje, jak extrahovat konkrétní text ze souboru PowerPoint PPTX podle čísel stránek v Node.js pomocí REST API:
// Jak extrahovat text z PowerPoint PPT podle rozsahu čísel stránek v Node.js
const parse = async () => {
global.parseApi = groupdocs_parser_cloud.ParseApi.fromKeys(clientId, clientSecret);
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "nodejs-testing/sample-file.pptx";
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.startPageNumber = 0;
options.countPagesToExtract = 2;
let formattedTextOptions = new groupdocs_parser_cloud.FormattedTextOptions();
formattedTextOptions.mode = "PlainText";
options.formattedTextOptions = formattedTextOptions;
try {
// Vytvořte požadavek na analýzu dokumentu
let request = new groupdocs_parser_cloud.TextRequest(options);
let response = await parseApi.text(request);
// Zobrazit výsledky
let pages = response.pages;
pages.forEach(page => console.log("Page No: " + page.pageIndex + " - " + page.text));
}
catch (err) {
throw err;
}
}
parse()
.then(() => {
console.log("Successfully extracted text from PowerPoint Presentation.");
})
.catch((err) => {
console.log("Error occurred while extracting text from PowerPoint file:", err);
})
Vyzkoušejte online
Vyzkoušejte prosím následující bezplatný online nástroj pro analýzu aplikace PowerPoint, který je vyvinut pomocí výše uvedeného rozhraní API.
Závěr
V tomto článku jste se naučili, jak analyzovat a extrahovat text z PowerPoint PPT v Nodejs. Viděl jsi:
- jak extrahovat text z konkrétních snímků v Node.js pomocí REST API;
- jak extrahovat text ze všech snímků prezentace PowerPoint v Node.js;
- programově nahrát soubor PowerPoint do cloudu;
Kromě toho se můžete dozvědět více o GroupDocs.Parser Cloud API pomocí dokumentace. Poskytujeme také sekci API Reference, která vám umožní vizualizovat a pracovat s našimi API přímo prostřednictvím prohlížeče. V případě jakýchkoliv nejasností nás neváhejte kontaktovat na fóru.
Položit otázku
V případě, že byste měli nějaké dotazy nebo nejasnosti ohledně Online Text Extractor, informujte nás prostřednictvím našeho fóra.
Nejčastější dotazy
Jak extrahuji text z PowerPointu v Node.js?
Sledujte [tento odkaz](https://blog.groupdocs.cloud/cs/parser/extract-text-from-powerpoint-pptpptx-in-node.js/#Extract-All-Text-from-PowerPoint-PPT-PPTX- in-Node.js-using-REST-API), kde se dozvíte o úryvku kódu Node.js, jak extrahovat text ze souborů PPT v Node.js.
Jak extrahovat text z dokumentů PPT online pomocí REST API?
Nejprve vytvořte instanci ParseApi, nastavte hodnoty TextOptions a nyní zavolejte [ParseApi.text()](https:// apireference.groupdocs.cloud/parser/#/Parse/Text) s TextRequest k extrahování vybraného textu ze souborů PPT online.
Jak nainstalovat knihovnu pro stahování textu PPT zdarma?
Můžete nainstalovat PPT textový extraktor knihovnu Node.js a extrahovat text ze souborů PPT programově.
Jak extrahuji text z PPT offline ve Windows?
Navštivte tento odkaz a stáhněte si software pro extrahování textu pro Windows. Tento nástroj pro extrahování textu extrahuje text v oknech okamžitě, jediným kliknutím.
Viz také
- Extrahujte obrázky ze souborů PDF pomocí Node.js
- Extrahujte data z PDF pomocí REST API v Node.js
- Analyzujte dokumenty Word pomocí REST API v Pythonu
- Extrahujte text z PDF pomocí REST API v Node.js
- Analyzujte dokumenty Word pomocí REST API v Node.js
- Extrahujte konkrétní data z PDF pomocí Pythonu
- Extrahujte obrázky z dokumentů PDF pomocí Pythonu
- Jak extrahovat text z PDF pomocí Pythonu
- Extrahujte obrázky z PDF, tabulek, prezentací a dokumentů Word pomocí Pythonu