Extrahujte text z PDF pomocí REST API v Node.js

Můžete snadno analyzovat své dokumenty PDF a extrahovat veškerý text programově v cloudu. V tomto článku se dozvíte, jak extrahovat text z dokumentů PDF pomocí REST API v Node.js.

Tento článek bude obsahovat následující témata:

PDF Parser REST API a Node.js SDK pro extrakci textu

Pro analýzu PDF dokumentů budu používat Node.js SDK of GroupDocs.Parser Cloud API. Umožňuje analyzovat data z více než 50 typů podporovaných formátů dokumentů. Podporuje také analýzu kontejnerů, jako jsou archivy ZIP, soubory dat pošty OST, e-knihy, značky a portfolia PDF ve vašich aplikacích Node.js. Pomocí sady SDK můžete extrahovat text, obrázky a analyzovat data podle šablony. Poskytuje také sady .NET, Java, PHP, Ruby a Python SDK jako členové rodiny analyzátorů dokumentů pro Cloud API.

GroupDocs.Parser Cloud můžete nainstalovat do své aplikace Node.js pomocí následujícího příkazu v konzole:

npm install groupdocs-parser-cloud

Před provedením uvedených kroků získejte své ID klienta a tajný klíč z řídicího panelu. Jakmile budete mít své ID a tajemství, přidejte kód, jak je uvedeno níže:

global.clientId = "112f0f38-9dae-42d5-b4fc-cc84ae644972";
global.clientSecret = "16ad3fe0bdc39c910f57d2fd48a5d618";
global.myStorage = "";

const configuration = new groupdocs_parser_cloud.Configuration(clientId, clientSecret);
configuration.apiBaseUrl = "https://api.groupdocs.cloud";

Extrahujte text z PDF pomocí REST API v Node.js

Text z dokumentů PDF můžete extrahovat pomocí následujících jednoduchých kroků:

Nahrajte dokument

Nejprve nahrajte dokument PDF do cloudu pomocí níže uvedeného příkladu kódu:

// Vytvořte FileApi
let fileApi = groupdocs_parser_cloud.FileApi.fromConfig(configuration);
let filePath = 'C:\\Files\\Parser\\sample.pdf';

fs.readFile(filePath, (err, fileStream) => {
  // Vytvořit požadavek na nahrání souboru
  let request = new groupdocs_parser_cloud.UploadFileRequest("sample.pdf", fileStream, myStorage);
  // Nahrát soubor
  fileApi.uploadFile(request);
});

V důsledku toho bude nahraný soubor PDF dostupný v sekce souborů vašeho řídicího panelu v cloudu.

Extrahujte text z dokumentů PDF pomocí Node.js

Veškerý text z dokumentů PDF můžete snadno programově extrahovat podle následujících kroků:

  • Vytvořte instanci rozhraní ParseApi.
  • Vytvořte instanci souboru FileInfo.
  • Poté nastavte cestu k souboru PDF.
  • Vytvořte instanci TextOptions.
  • Potom přiřaďte FileInfo k TextOptions.
  • Nyní vytvořte instanci TextRequest pomocí TextOptions.
  • Nakonec získejte výsledky voláním metody ParseApi.text() s TextRequest.

Následující ukázka kódu ukazuje, jak extrahovat veškerý text z dokumentu PDF pomocí rozhraní REST API v Node.js.

// Inicializace API
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// Vložte soubor
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.pdf";

// Definujte možnosti textu
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;

// Vytvořte textovou žádost
let request = new groupdocs_parser_cloud.TextRequest(options);

// Extrahujte text
let result = await parseApi.text(request);
console.log(result.text);
Extrahujte text z PDF pomocí REST API v Node.js

Extrahujte text z PDF pomocí REST API v Node.js

Získejte text podle čísel stránek z dokumentů PDF pomocí Node.js

Text můžete extrahovat z konkrétních stránek souboru PDF programově podle následujících kroků:

  • Vytvořte instanci rozhraní ParseApi.
  • Vytvořte instanci souboru FileInfo.
  • Poté nastavte cestu k souboru PDF.
  • Vytvořte instanci TextOptions.
  • Potom přiřaďte FileInfo k TextOptions.
  • Nastavte číslo úvodní stránky a celkový počet stránek, které se mají extrahovat.
  • Nyní vytvořte instanci TextRequest pomocí TextOptions.
  • Nakonec získejte výsledky voláním metody ParseApi.text() s TextRequest.

Následující ukázka kódu ukazuje, jak extrahovat text podle čísel stránek z dokumentu PDF pomocí REST API.

// Inicializace API
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// Vstupní cesta k souboru
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.pdf";

// Definujte možnosti textu
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.startPageNumber = 0;
options.countPagesToExtract = 1;

// Vytvořte textovou žádost
let request = new groupdocs_parser_cloud.TextRequest(options);

// Extrahujte text
let result = await parseApi.text(request);

// Ukázat výsledky
let pages = result.pages;
pages.forEach(page => console.log("Page No: " + page.pageIndex + 1 + " - " + page.text));
Získejte text podle čísel stránek z dokumentů PDF pomocí Node.js

Získejte text podle čísel stránek z dokumentů PDF pomocí Node.js

Extrahujte text z dokumentů připojených k PDF pomocí Node.js

Text můžete extrahovat z dokumentu uvnitř kontejneru, který je k dispozici jako příloha v souboru PDF programově, podle níže uvedených kroků.

  • Vytvořte instanci rozhraní ParseApi.
  • Vytvořte instanci souboru FileInfo.
  • Poté nastavte cestu k souboru PDF.
  • Volitelně zadejte heslo souboru.
  • Nyní vytvořte instanci ContainerItemInfo
  • Poté nastavte relativní cestu pro připojený soubor
  • Vytvořte instanci TextOptions.
  • Potom přiřaďte FileInfo a ContainerItemInfo k TextOptions.
  • Nyní vytvořte instanci TextRequest pomocí TextOptions
  • Nakonec získejte výsledky voláním metody ParseApi.text() s TextRequest

Následující ukázka kódu ukazuje, jak extrahovat text z dokumentu uvnitř dokumentu PDF pomocí REST API.

// Inicializace API
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// Vložte soubor
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "PDF_with_Attachments.pdf";
fileInfo.password = "password";

// Položka vstupního kontejneru
let containerInfo = new groupdocs_parser_cloud.ContainerItemInfo();
containerInfo.relativePath = "template-document.pdf";

// Definujte možnosti textu
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.containerItemInfo = containerInfo;

// Vytvořte textovou žádost
let request = new groupdocs_parser_cloud.TextRequest(options);

// Extrahujte text
let result = await parseApi.text(request);
console.log(result.text);
Extrahujte text z dokumentů připojených k PDF pomocí Node.js

Extrahujte text z dokumentů připojených k PDF pomocí Node.js

Vyzkoušejte online

Vyzkoušejte prosím následující bezplatný online nástroj pro analýzu PDF, který je vyvinut pomocí výše uvedeného API. https://products.groupdocs.app/parser/pdf

Závěr

V tomto článku jste se naučili, jak analyzovat dokumenty PDF v cloudu. Navíc jste viděli, jak extrahovat text podle čísel stránek a z položek kontejneru souborů PDF pomocí REST API v Node.js. Tento článek také vysvětluje, jak programově nahrát soubor PDF do cloudu. Kromě toho se můžete dozvědět více o GroupDocs.Parser Cloud API pomocí dokumentace. Poskytujeme také sekci API Reference, která vám umožní vizualizovat a pracovat s našimi API přímo prostřednictvím prohlížeče. V případě jakýchkoliv nejasností nás neváhejte kontaktovat na fóru.

Viz také