Ekstrakcja tekstu z PDF za pomocą Node.js - Ekstraktor tekstu

Odblokowywanie tekstu z PDF jest niezbędne do indeksowania treści, automatyzacji i analizy danych. Dzięki GroupDocs.Parser Cloud SDK dla Node.js, możesz programowo wyodrębniać zwykły lub strukturalny tekst z plików PDF za pomocą prostego API RESTful — bez polegania na ciężkich narzędziach lub ręcznym analizowaniu.

Why to Extract Text from PDF??

Ekstrakcja tekstu z plików PDF jest kluczowa dla:

  • Budowanie systemów zarządzania dokumentami lub pipeline’ów OCR.
  • Automatyzacja zbierania danych z umów, faktur i raportów.
  • Włączanie pełnotekstowego wyszukiwania dla archiwów cyfrowych.
  • Czyszczenie i strukturyzowanie treści dla modeli AI/ML.

Omówmy następujące tematy w większych szczegółach:

Ekstrakcja tekstu REST API

SDK GroupDocs.Parser Cloud dla Node.js to lekki, wydajny wrapper do interakcji z interfejsem REST API GroupDocs.Parser Cloud. Umożliwia programistom wydobywanie strukturalnych lub niestrukturalnych treści, takich jak:

  • Tekst (cały dokument, konkretne strony lub wybrane obszary)
  • Obrazy
  • Metadata
  • Pola dokumentu
  • Dane strukturalne z tabel lub formularzy

Obsługuje liczne formaty — w tym PDF, Word, Excel, PowerPoint, MSG, ZIP i inne.

Wymagania wstępne Zainstaluj SDK GroupDocs.Parser Cloud dla Node.js:

npm install groupdocs-parser-cloud

Utwórz konto na GroupDocs.Cloud Dashboard, aby uzyskać swoje ID klienta i sekret klienta do uwierzytelnienia. Po więcej informacji odwiedź ten artykuł.

Jak wyodrębnić tekst z pliku PDF za pomocą Node.js

Postępuj zgodnie z tymi krokami, aby wyodrębnić tekst z pliku PDF za pomocą zestawu narzędzi Node.js.

Krok 1: Ustaw konfigurację:

const { ParserApi, Configuration, ImagesRequest, FileInfo, ImagesOptions } = require("groupdocs-parser-cloud");

const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);

Krok 2: Skonfiguruj wejście pliku PDF: Zainicjuj obiekt klasy TextRequest i przekaż instancję klasy TextOptions.

const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";

const options = new TextOptions();
options.fileInfo = fileInfo;

const request = new TextRequest(options);

Krok 3: Wyodrębnij tekst z PDF: Wywołaj metodę text, a zwróci ona zwykłą zawartość tekstową twojego pliku PDF.

parserApi.text(request).then(response => {
    console.log("Extracted text content:");
    console.log(response.text);
}).catch(err => {
    console.error("Error extracting text:", err);
});
// For more examples, please visit https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-node
const { Configuration, ParserApi, TextOptions, TextRequest, FileInfo } = require("groupdocs-parser-cloud");

const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);

const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";

const options = new TextOptions();
options.fileInfo = fileInfo;

const request = new TextRequest(options);

parserApi.text(request).then(response => {
    console.log("Extracted text content:");
    console.log(response.text);
}).catch(err => {
    console.error("Error extracting text:", err);
});

Możesz zobaczyć wynik powyższego fragmentu kodu na obrazie poniżej:

pdf text extractor

Extract Text from PDF via cURL

Jeśli wolisz operacje w wierszu poleceń lub chcesz zintegrować z skryptem? Możesz wyodrębnić tekst za pomocą cURL z użyciem interfejsu REST API GroupDocs.Parser.

Krok 1 – Wygeneruj token dostępu:

curl -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"

Krok 2 – Ekstrakcja obrazów za pomocą REST API:

curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H  "accept: application/json" \
-H  "authorization: Bearer {ACCESS_TOKEN}" \
-H  "Content-Type: application/json" \
-d 
    "{  
        \"FileInfo\": 
        {
            \"FilePath\": \"Binder1.pdf\",
            \"StorageName\": \"internal\"
        },
        \"StartPageNumber\": 0,
        \"CountPagesToExtract\": 1
    }"
  • Zamień na ten, który wygenerowałeś.

Zalety korzystania z cURL z interfejsem API GroupDocs.Parser

  • Nie jest wymagane SDK: Użyj bezpośrednio REST do szybkiej integracji.
  • Platform Agnostic: Działa z dowolnym systemem operacyjnym lub językiem.
  • Ideal for CI/CD Pipelines: Automatyzacja ekstrakcji tekstu w środowiskach DevOps.
  • Lekki: Brak instalacji poza cURL.

Online Text Extractor

Jeśli szukasz rozwiązania bez kodu, skorzystaj z naszego bezpłatnego narzędzia online PDF Text Extractor opartego na GroupDocs.Parser Cloud.

Ekstraktor obrazów online

Wnioski

GroupDocs.Parser Cloud SDK dla Node.js sprawia, że łatwo jest wydobywać tekst z plików PDF, niezależnie od tego, czy potrzebujesz pełnego parsowania treści, eksploracji danych czy automatyzacji dokumentów. Z wsparciem dla wywołań RESTful oraz integracji cURL, to API jest idealne do budowania nowoczesnych, skalowalnych aplikacji do przetwarzania dokumentów w Node.js lub innych środowiskach.

📚 Dodatkowe zasoby

Najczęściej zadawane pytania – FAQ

Jak wyodrębnić obrazy z Worda?

Możesz użyć GroupDocs.Parser Cloud SDKs, aby programowo wyodrębnić tekst z plików PDF. Proszę odwiedzić ten link po więcej informacji.

Jaki jest model cenowy?

Oferujemy jednorazowy model płatności “pay as you go”. Po więcej informacji prosimy odwiedzić pricing guide.

Zalecane artykuły