W niektórych scenariuszach sformatowany tekst jest wyodrębniany z dokumentów w celu dalszego przetwarzania, takiego jak analiza tekstu, klasyfikacja itp. Wśród innych formatów plików, takich jak PDF i Word, PowerPointPrezentacja jest również używana do wyodrębniania tekstu. Dlatego w tym artykule pokazano, jak wyodrębnić tekst z programu PowerPoint PPT/PPTX w Node.js. Możesz łatwo analizować prezentacje PowerPoint PPT/PPTX i tekst z określonego slajdu lub programowo wyodrębnić cały tekst w chmurze.
W artykule zostaną omówione następujące tematy:
- Biblioteka Node.js do wyodrębniania tekstu z programu PowerPoint PPT
- Wyodrębnij cały tekst z PowerPoint PPT/PPTX w Node.js przy użyciu REST API
- Wyodrębnij tekst z PowerPoint PPT według zakresu numerów stron w Node.js
Biblioteka Node.js do wyodrębniania tekstu z programu PowerPoint PPT
Do analizowania dokumentów PowerPoint będę używał Node.js SDK GroupDocs.Parser Cloud API. Pozwala analizować dane z ponad 50 typów obsługiwanych formatów dokumentów. Obsługuje również parsowanie kontenerów, takich jak archiwa ZIP, pliki danych poczty OST, e-booki, znaczniki, portfolio PowerPoint i PDF w aplikacjach Node.js. Możesz wyodrębniać tekst, obrazy i analizować dane według szablonu za pomocą zestawu SDK. Udostępnia również zestawy SDK .NET, Java, PHP, Ruby i Python jako członkowie rodziny parserów dokumentów dla Cloud API.
Możesz zainstalować GroupDocs.Parser Cloud w swojej aplikacji Node.js za pomocą następującego polecenia w konsoli:
npm install groupdocs-parser-cloud
Proszę uzyskaj swój identyfikator klienta i klucz tajny z pulpitu nawigacyjnego przed wykonaniem wspomnianych kroków. Po uzyskaniu identyfikatora i tajnego kodu dodaj kod, jak pokazano poniżej:
# Zaimportuj Node.js SDK do swojej aplikacji węzła z http://api.groupdocs.cloud
global.groupdocs_parser_cloud = require("groupdocs-parser-cloud");
global.fs = require("fs");
// pobierz clientId i clientSecret z https://dashboard.groupdocs.cloud (wymagana jest bezpłatna rejestracja).
global.clientId = "xxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
global.clientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
global.myStorage = "test-internal-storage";
const config = new groupdocs_parser_cloud.Configuration(clientId, clientSecret);
config.apiBaseUrl = "https://api.groupdocs.cloud";
Wyodrębnij cały tekst z PowerPoint PPT/PPTX w Node.js przy użyciu REST API
Możesz wyodrębnić tekst z prezentacji PowerPoint, wykonując proste czynności wymienione poniżej:
- Prześlij plik PowerPoint do chmury
- Wyodrębnij tekst z prezentacji PowerPoint przy użyciu Node.js
Prześlij plik
Najpierw prześlij dokument programu PowerPoint do chmury, korzystając z przykładowego kodu podanego poniżej:
// otwórz plik w IOStream z dysku systemowego.
var resourcesFolder = 'H:\\groupdocs-cloud-data\\sample-file.pptx';
// przeczytaj plik
fs.readFile(resourcesFolder, (err, fileStream) => {
// skonstruuj FileApi
var fileApi = groupdocs_parser_cloud.FileApi.fromConfig(config);
// utwórz żądanie przesłania pliku
var request = new groupdocs_parser_cloud.UploadFileRequest("sample-file.pptx", fileStream, myStorage);
// Przesyłanie pliku
fileApi.uploadFile(request)
.then(function (response) {
console.log("Expected response type is FilesUploadResult: " + response.uploaded.length);
})
.catch(function (error) {
console.log("Error: " + error.message);
});
});
W rezultacie przesłany plik PowerPoint będzie dostępny w sekcji plików Twojego pulpitu nawigacyjnego w chmurze.
Wyodrębnij tekst z prezentacji PowerPoint za pomocą Node.js
Możesz łatwo wyodrębnić cały tekst z plików PowerPoint programowo, wykonując czynności podane poniżej:
- Najpierw utwórz instancję ParseApi.
- Po drugie, utwórz instancję klasy FileInfo.
- Następnie ustaw ścieżkę do pliku PowerPoint.
- Utwórz instancję TextOptions.
- Następnie przypisz FileInfo do TextOptions.
- Utwórz wystąpienie FormattedTextOptions.
- Ustaw tryb formattedTextOptions jako zwykły tekst
- Następnie przypisz wartość formattedTextOptions
- Teraz utwórz instancję TextRequest z TextOptions.
- Na koniec uzyskaj wyniki, wywołując metodę ParseApi.text() z TextRequest.
Poniższy przykładowy kod pokazuje, jak wyodrębnić cały tekst z pliku programu PowerPoint przy użyciu interfejsu API REST w Node.js:
// Jak wyodrębnić cały tekst z programu PowerPoint PPT/PPTX w Node.js przy użyciu interfejsu API REST
const parse = async () => {
global.parseApi = groupdocs_parser_cloud.ParseApi.fromKeys(clientId, clientSecret);
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "nodejs-testing/sample-file.pptx";
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
let formattedTextOptions = new groupdocs_parser_cloud.FormattedTextOptions();
formattedTextOptions.mode = "PlainText";
options.formattedTextOptions = formattedTextOptions;
try {
// Utwórz żądanie analizy dokumentu
let request = new groupdocs_parser_cloud.TextRequest(options);
let response = await parseApi.text(request);
// Wyświetl wyniki
console.log(response.text);
}
catch (err) {
throw err;
}
}
parse()
.then(() => {
console.log("Successfully extracted text from PowerPoint PPTX document.");
})
.catch((err) => {
console.log("Error occurred while extracting text from PowerPoint PPTX file:", err);
})
Wyodrębnij tekst z PowerPoint PPT według zakresu numerów stron w Node.js
Możesz programowo wyodrębnić tekst z określonych stron pliku PDF, wykonując czynności podane poniżej:
- Najpierw utwórz instancję ParseApi.
- Następnie utwórz instancję klasy FileInfo.
- Następnie ustaw ścieżkę do pliku PowerPoint PPTX.
- Utwórz instancję TextOptions.
- Następnie przypisz FileInfo do TextOptions.
- Ustaw wartości startPageNumber i countPagesToExtract
- Utwórz wystąpienie FormattedTextOptions.
- Ustaw tryb formattedTextOptions jako zwykły tekst
- Następnie przypisz wartość formattedTextOptions.
- Ustaw numer strony początkowej i całkowitą liczbę stron do wyodrębnienia.
- Teraz utwórz instancję TextRequest z TextOptions.
- Na koniec uzyskaj wyniki, wywołując metodę ParseApi.text() z TextRequest.
Poniższy przykładowy kod pokazuje, jak wyodrębnić określony tekst z pliku PowerPoint PPTX według numerów stron w Node.js przy użyciu interfejsu API REST:
// Jak wyodrębnić tekst z PowerPoint PPT według zakresu numerów stron w Node.js
const parse = async () => {
global.parseApi = groupdocs_parser_cloud.ParseApi.fromKeys(clientId, clientSecret);
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "nodejs-testing/sample-file.pptx";
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.startPageNumber = 0;
options.countPagesToExtract = 2;
let formattedTextOptions = new groupdocs_parser_cloud.FormattedTextOptions();
formattedTextOptions.mode = "PlainText";
options.formattedTextOptions = formattedTextOptions;
try {
// Utwórz żądanie analizy dokumentu
let request = new groupdocs_parser_cloud.TextRequest(options);
let response = await parseApi.text(request);
// Wyświetl wyniki
let pages = response.pages;
pages.forEach(page => console.log("Page No: " + page.pageIndex + " - " + page.text));
}
catch (err) {
throw err;
}
}
parse()
.then(() => {
console.log("Successfully extracted text from PowerPoint Presentation.");
})
.catch((err) => {
console.log("Error occurred while extracting text from PowerPoint file:", err);
})
Wypróbuj online
Wypróbuj następujące bezpłatne narzędzie do analizy PowerPoint online, które zostało opracowane przy użyciu powyższego interfejsu API.
Wniosek
W tym artykule nauczyłeś się analizować i wyodrębniać tekst z PowerPoint PPT w Nodejs. Widziałeś:
- jak wyodrębnić tekst z określonego slajdu w Node.js przy użyciu REST API;
- jak wyodrębnić tekst ze wszystkich slajdów prezentacji PowerPoint w Node.js;
- programowo przesłać plik PowerPoint do chmury;
Poza tym możesz dowiedzieć się więcej o GroupDocs.Parser Cloud API korzystając z dokumentacji. Udostępniamy również sekcję Informacje o interfejsach API, która umożliwia wizualizację naszych interfejsów API i interakcję z nimi bezpośrednio w przeglądarce. W przypadku jakichkolwiek niejasności prosimy o kontakt na forum.
Zadać pytanie
W przypadku jakichkolwiek pytań lub niejasności dotyczących Online Text Extractor, poinformuj nas o tym za pośrednictwem naszego forum.
Często zadawane pytania
Jak wyodrębnić tekst z programu PowerPoint w Node.js?
Kliknij [ten link](https://blog.groupdocs.cloud/pl/parser/extract-text-from-powerpoint-pptpptx-in-node.js/#Extract-All-Text-from-PowerPoint-PPT-PPTX- in-Node.js-using-REST-API), aby poznać fragment kodu Node.js do wyodrębniania tekstu z plików PPT w Node.js.
Jak wyodrębnić tekst z dokumentów PPT online za pomocą REST API?
Najpierw utwórz instancję ParseApi, ustaw wartości TextOptions, a teraz wywołaj [ParseApi.text()](https:// apireference.groupdocs.cloud/parser/#/Parse/Text) z TextRequest w celu wyodrębnienia wybranego tekstu z plików PPT online.
Jak zainstalować bezpłatną bibliotekę do pobierania ekstraktora tekstu PPT?
Możesz zainstalować ekstraktor tekstu PPT biblioteka Node.js, aby programowo wyodrębnić tekst z plików PPT.
Jak wyodrębnić tekst z PPT offline w systemie Windows?
Odwiedź ten link, aby pobrać oprogramowanie do wyodrębniania tekstu dla systemu Windows. To narzędzie do wyodrębniania tekstu natychmiast wyodrębnia tekst w oknach za pomocą jednego kliknięcia.
Zobacz też
- Wyodrębnij obrazy z plików PDF za pomocą Node.js
- Wyodrębnij dane z PDF za pomocą REST API w Node.js
- Analizuj dokumenty programu Word przy użyciu interfejsu API REST w języku Python
- Wyodrębnij tekst z PDF za pomocą REST API w Node.js
- Analizuj dokumenty Worda za pomocą REST API w Node.js
- Wyodrębnij określone dane z pliku PDF za pomocą Python
- Wyodrębnij obrazy z dokumentów PDF za pomocą Python
- Jak wyodrębnić tekst z pliku PDF za pomocą Python
- Wyodrębnij obrazy z plików PDF, arkuszy kalkulacyjnych, prezentacji i dokumentów Word za pomocą Python