Wyodrębnij tekst z PDF w Node.js | REST API do wyodrębniania tekstu

Ekstrakcja tekstu z PDF za pomocą Node.js - Ekstraktor tekstu

Odblokowywanie tekstu z PDF jest niezbędne do indeksowania treści, automatyzacji i analizy danych. Dzięki GroupDocs.Parser Cloud SDK dla Node.js, możesz programowo wyodrębniać zwykły lub strukturalny tekst z plików PDF za pomocą prostego API RESTful — bez polegania na ciężkich narzędziach lub ręcznym analizowaniu.

Why to Extract Text from PDF??

Ekstrakcja tekstu z plików PDF jest kluczowa dla:

Budowanie systemów zarządzania dokumentami lub pipeline’ów OCR.
Automatyzacja zbierania danych z umów, faktur i raportów.
Włączanie pełnotekstowego wyszukiwania dla archiwów cyfrowych.
Czyszczenie i strukturyzowanie treści dla modeli AI/ML.

Omówmy następujące tematy w większych szczegółach:

API REST do wyodrębniania tekstu
Jak wydobyć tekst z PDF za pomocą Node.js
Extract Text from PDF via cURL
Online Text Extractor

Ekstrakcja tekstu REST API

SDK GroupDocs.Parser Cloud dla Node.js to lekki, wydajny wrapper do interakcji z interfejsem REST API GroupDocs.Parser Cloud. Umożliwia programistom wydobywanie strukturalnych lub niestrukturalnych treści, takich jak:

Tekst (cały dokument, konkretne strony lub wybrane obszary)
Obrazy
Metadata
Pola dokumentu
Dane strukturalne z tabel lub formularzy

Obsługuje liczne formaty — w tym PDF, Word, Excel, PowerPoint, MSG, ZIP i inne.

Wymagania wstępne Zainstaluj SDK GroupDocs.Parser Cloud dla Node.js:

npm install groupdocs-parser-cloud

Utwórz konto na GroupDocs.Cloud Dashboard, aby uzyskać swoje ID klienta i sekret klienta do uwierzytelnienia. Po więcej informacji odwiedź ten artykuł.

Jak wyodrębnić tekst z pliku PDF za pomocą Node.js

Postępuj zgodnie z tymi krokami, aby wyodrębnić tekst z pliku PDF za pomocą zestawu narzędzi Node.js.

Krok 1: Ustaw konfigurację:

const { ParserApi, Configuration, ImagesRequest, FileInfo, ImagesOptions } = require("groupdocs-parser-cloud");

const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);

Krok 2: Skonfiguruj wejście pliku PDF: Zainicjuj obiekt klasy TextRequest i przekaż instancję klasy TextOptions.

const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";

const options = new TextOptions();
options.fileInfo = fileInfo;

const request = new TextRequest(options);

Krok 3: Wyodrębnij tekst z PDF: Wywołaj metodę text, a zwróci ona zwykłą zawartość tekstową twojego pliku PDF.

parserApi.text(request).then(response => {
    console.log("Extracted text content:");
    console.log(response.text);
}).catch(err => {
    console.error("Error extracting text:", err);
});

// For more examples, please visit https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-node
const { Configuration, ParserApi, TextOptions, TextRequest, FileInfo } = require("groupdocs-parser-cloud");

const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);

const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";

const options = new TextOptions();
options.fileInfo = fileInfo;

const request = new TextRequest(options);

parserApi.text(request).then(response => {
    console.log("Extracted text content:");
    console.log(response.text);
}).catch(err => {
    console.error("Error extracting text:", err);
});

Możesz zobaczyć wynik powyższego fragmentu kodu na obrazie poniżej:

Extract Text from PDF via cURL

Jeśli wolisz operacje w wierszu poleceń lub chcesz zintegrować z skryptem? Możesz wyodrębnić tekst za pomocą cURL z użyciem interfejsu REST API GroupDocs.Parser.

Krok 1 – Wygeneruj token dostępu:

curl -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"

Krok 2 – Ekstrakcja obrazów za pomocą REST API:

curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H  "accept: application/json" \
-H  "authorization: Bearer {ACCESS_TOKEN}" \
-H  "Content-Type: application/json" \
-d 
    "{  
        \"FileInfo\": 
        {
            \"FilePath\": \"Binder1.pdf\",
            \"StorageName\": \"internal\"
        },
        \"StartPageNumber\": 0,
        \"CountPagesToExtract\": 1
    }"

Zamień na ten, który wygenerowałeś.

Zalety korzystania z cURL z interfejsem API GroupDocs.Parser

Nie jest wymagane SDK: Użyj bezpośrednio REST do szybkiej integracji.
Platform Agnostic: Działa z dowolnym systemem operacyjnym lub językiem.
Ideal for CI/CD Pipelines: Automatyzacja ekstrakcji tekstu w środowiskach DevOps.
Lekki: Brak instalacji poza cURL.

Online Text Extractor

Jeśli szukasz rozwiązania bez kodu, skorzystaj z naszego bezpłatnego narzędzia online PDF Text Extractor opartego na GroupDocs.Parser Cloud.

Wnioski

GroupDocs.Parser Cloud SDK dla Node.js sprawia, że łatwo jest wydobywać tekst z plików PDF, niezależnie od tego, czy potrzebujesz pełnego parsowania treści, eksploracji danych czy automatyzacji dokumentów. Z wsparciem dla wywołań RESTful oraz integracji cURL, to API jest idealne do budowania nowoczesnych, skalowalnych aplikacji do przetwarzania dokumentów w Node.js lub innych środowiskach.

📚 Dodatkowe zasoby

Dokumentacja GroupDocs.Parser
Dokumentacja API
Repozytorium SDK GitHub
Forum wsparcia
Ceny i plany

Najczęściej zadawane pytania – FAQ

Jak wyodrębnić obrazy z Worda?

Możesz użyć GroupDocs.Parser Cloud SDKs, aby programowo wyodrębnić tekst z plików PDF. Proszę odwiedzić ten link po więcej informacji.

Jaki jest model cenowy?

Oferujemy jednorazowy model płatności “pay as you go”. Po więcej informacji prosimy odwiedzić pricing guide.

Wyodrębnij tekst z PDF w Node.js | Interfejs API do wyodrębniania tekstu z REST

Why to Extract Text from PDF??

Ekstrakcja tekstu REST API

Jak wyodrębnić tekst z pliku PDF za pomocą Node.js

Extract Text from PDF via cURL

Zalety korzystania z cURL z interfejsem API GroupDocs.Parser

Online Text Extractor

Wnioski

📚 Dodatkowe zasoby

Najczęściej zadawane pytania – FAQ

Zalecane artykuły

Why to Extract Text from PDF??#

Ekstrakcja tekstu REST API#

Jak wyodrębnić tekst z pliku PDF za pomocą Node.js#

Extract Text from PDF via cURL#

Zalety korzystania z cURL z interfejsem API GroupDocs.Parser#

Online Text Extractor#

Wnioski#

📚 Dodatkowe zasoby#

Najczęściej zadawane pytania – FAQ#

Zalecane artykuły#

Why to Extract Text from PDF??

Ekstrakcja tekstu REST API

Jak wyodrębnić tekst z pliku PDF za pomocą Node.js

Extract Text from PDF via cURL

Zalety korzystania z cURL z interfejsem API GroupDocs.Parser

Online Text Extractor

Wnioski

📚 Dodatkowe zasoby

Najczęściej zadawane pytania – FAQ

Zalecane artykuły