
Odblokowywanie tekstu z PDF jest niezbędne do indeksowania treści, automatyzacji i analizy danych. Dzięki GroupDocs.Parser Cloud SDK dla Node.js, możesz programowo wyodrębniać zwykły lub strukturalny tekst z plików PDF za pomocą prostego API RESTful — bez polegania na ciężkich narzędziach lub ręcznym analizowaniu.
Why to Extract Text from PDF??
Ekstrakcja tekstu z plików PDF jest kluczowa dla:
- Budowanie systemów zarządzania dokumentami lub pipeline’ów OCR.
- Automatyzacja zbierania danych z umów, faktur i raportów.
- Włączanie pełnotekstowego wyszukiwania dla archiwów cyfrowych.
- Czyszczenie i strukturyzowanie treści dla modeli AI/ML.
Omówmy następujące tematy w większych szczegółach:
- API REST do wyodrębniania tekstu
- Jak wydobyć tekst z PDF za pomocą Node.js
- Extract Text from PDF via cURL
- Online Text Extractor
Ekstrakcja tekstu REST API
SDK GroupDocs.Parser Cloud dla Node.js to lekki, wydajny wrapper do interakcji z interfejsem REST API GroupDocs.Parser Cloud. Umożliwia programistom wydobywanie strukturalnych lub niestrukturalnych treści, takich jak:
- Tekst (cały dokument, konkretne strony lub wybrane obszary)
- Obrazy
- Metadata
- Pola dokumentu
- Dane strukturalne z tabel lub formularzy
Obsługuje liczne formaty — w tym PDF, Word, Excel, PowerPoint, MSG, ZIP i inne.
Wymagania wstępne Zainstaluj SDK GroupDocs.Parser Cloud dla Node.js:
npm install groupdocs-parser-cloud
Utwórz konto na GroupDocs.Cloud Dashboard, aby uzyskać swoje ID klienta i sekret klienta do uwierzytelnienia. Po więcej informacji odwiedź ten artykuł.
Jak wyodrębnić tekst z pliku PDF za pomocą Node.js
Postępuj zgodnie z tymi krokami, aby wyodrębnić tekst z pliku PDF za pomocą zestawu narzędzi Node.js.
Krok 1: Ustaw konfigurację:
const { ParserApi, Configuration, ImagesRequest, FileInfo, ImagesOptions } = require("groupdocs-parser-cloud");
const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);
Krok 2: Skonfiguruj wejście pliku PDF: Zainicjuj obiekt klasy TextRequest i przekaż instancję klasy TextOptions.
const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";
const options = new TextOptions();
options.fileInfo = fileInfo;
const request = new TextRequest(options);
Krok 3: Wyodrębnij tekst z PDF: Wywołaj metodę text, a zwróci ona zwykłą zawartość tekstową twojego pliku PDF.
parserApi.text(request).then(response => {
console.log("Extracted text content:");
console.log(response.text);
}).catch(err => {
console.error("Error extracting text:", err);
});
// For more examples, please visit https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-node
const { Configuration, ParserApi, TextOptions, TextRequest, FileInfo } = require("groupdocs-parser-cloud");
const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);
const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";
const options = new TextOptions();
options.fileInfo = fileInfo;
const request = new TextRequest(options);
parserApi.text(request).then(response => {
console.log("Extracted text content:");
console.log(response.text);
}).catch(err => {
console.error("Error extracting text:", err);
});
Możesz zobaczyć wynik powyższego fragmentu kodu na obrazie poniżej:

Extract Text from PDF via cURL
Jeśli wolisz operacje w wierszu poleceń lub chcesz zintegrować z skryptem? Możesz wyodrębnić tekst za pomocą cURL z użyciem interfejsu REST API GroupDocs.Parser.
Krok 1 – Wygeneruj token dostępu:
curl -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"
Krok 2 – Ekstrakcja obrazów za pomocą REST API:
curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H "accept: application/json" \
-H "authorization: Bearer {ACCESS_TOKEN}" \
-H "Content-Type: application/json" \
-d
"{
\"FileInfo\":
{
\"FilePath\": \"Binder1.pdf\",
\"StorageName\": \"internal\"
},
\"StartPageNumber\": 0,
\"CountPagesToExtract\": 1
}"
- Zamień na ten, który wygenerowałeś.
Zalety korzystania z cURL z interfejsem API GroupDocs.Parser
- Nie jest wymagane SDK: Użyj bezpośrednio REST do szybkiej integracji.
- Platform Agnostic: Działa z dowolnym systemem operacyjnym lub językiem.
- Ideal for CI/CD Pipelines: Automatyzacja ekstrakcji tekstu w środowiskach DevOps.
- Lekki: Brak instalacji poza cURL.
Online Text Extractor
Jeśli szukasz rozwiązania bez kodu, skorzystaj z naszego bezpłatnego narzędzia online PDF Text Extractor opartego na GroupDocs.Parser Cloud.

Wnioski
GroupDocs.Parser Cloud SDK dla Node.js sprawia, że łatwo jest wydobywać tekst z plików PDF, niezależnie od tego, czy potrzebujesz pełnego parsowania treści, eksploracji danych czy automatyzacji dokumentów. Z wsparciem dla wywołań RESTful oraz integracji cURL, to API jest idealne do budowania nowoczesnych, skalowalnych aplikacji do przetwarzania dokumentów w Node.js lub innych środowiskach.
📚 Dodatkowe zasoby
Najczęściej zadawane pytania – FAQ
Jak wyodrębnić obrazy z Worda?
Możesz użyć GroupDocs.Parser Cloud SDKs, aby programowo wyodrębnić tekst z plików PDF. Proszę odwiedzić ten link po więcej informacji.
Jaki jest model cenowy?
Oferujemy jednorazowy model płatności “pay as you go”. Po więcej informacji prosimy odwiedzić pricing guide.