Analýza dokumentu – Extrahujte text ze souboru PDF v Javě

Už jste se někdy setkali se situací, kdy jste potřebovali programově extrahovat text ze souboru PDF? Extrahování textu ze souborů PDF programově může být složitý úkol, zejména při práci s velkými dokumenty. Pokud jste vývojář Java a hledáte spolehlivé řešení, GroupDocs.Parser Cloud SDK pro Java poskytuje efektivní způsob, jak extrahovat text ze souborů PDF. V tomto článku prozkoumáme, jak extrahovat text ze souboru PDF v Javě pomocí REST API.

Tento článek bude obsahovat následující témata:

Java REST API pro extrahování textu ze souborů PDF a instalace SDK

GroupDocs.Parser Cloud SDK pro Java je výkonná, uživatelsky přívětivá a na funkce bohatá sada pro vývoj softwaru, která poskytuje komplexní možnosti analýzy PDF. Díky komplexní sadě rozhraní API můžete bez námahy extrahovat text, metadata, obrázky a analyzovat data z více než 50 typů formátů dokumentů. Poskytuje také sady C# .NET, Java, PHP, Ruby a Python SDK jako členové rodiny analyzátorů dokumentů pro Cloud API. SDK lze integrovat do aplikace založené na Javě, aby se zjednodušil váš vývojový proces a zvýšila produktivita.

Můžete si stáhnout soubor JAR API nebo jej nainstalovat pomocí Maven přidáním následujícího úložiště a závislosti do souboru pom.xml vašeho projektu:

Úložiště Maven:

<repository>
    <id>groupdocs-artifact-repository</id>
    <name>GroupDocs Artifact Repository</name>
    <url>https://repository.groupdocs.cloud/repo</url>
</repository>

Mavenova závislost:

<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser-cloud</artifactId>
    <version>23.3</version>
    <scope>compile</scope>
</dependency>

Dále se zaregistrujte pro bezplatný zkušební účet nebo zakupte si plán předplatného na webu GroupDocs a získejte svůj klíč API. Jakmile budete mít ID klienta a tajný klíč klienta, přidejte níže uvedený fragment kódu do aplikace založené na jazyce Java:

# Získejte své client_id a client_secret z https://dashboard.groupdocs.cloud po registraci.

String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);

Jak extrahovat veškerý text ze souborů PDF v Javě pomocí REST API

Extrahování textu ze souborů PDF v Javě pomocí GroupDocs.Parser Cloud SDK je přímočarý proces. Jak na to:

Nahrajte soubor

Nejprve nahrajte dokument PDF do cloudu pomocí níže uvedeného příkladu kódu:

package com.groupdocsdev.classes;

import java.io.File;
import java.nio.file.Paths;

import com.groupdocs.cloud.Parser.api.*;
import com.groupdocs.cloud.Parser.client.ApiException;
import com.groupdocs.cloud.Parser.model.*;
import com.groupdocs.cloud.Parser.model.requests.*;

// Nahrajte soubor do cloudového úložiště pomocí Java
public class App {

	public static void main(String[] args) {

		FileApi apiInstance = new FileApi(configuration);
		try {
			File fileStream = new File("H:\\groupdocs-cloud-data\\input-sample-file.pdf");
			UploadFileRequest request = new UploadFileRequest("java-testing\\input-sample-file.pdf", fileStream, MyStorage);
			FilesUploadResult response = apiInstance.uploadFile(request);
			System.out.println("Expected response type is FilesUploadResult: " + response.getUploaded().size());
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
	}
}

V důsledku toho bude nahraný soubor PDF dostupný v sekce souborů vašeho řídicího panelu v cloudu.

Extrahovat text z dokumentu PDF v Javě

Chcete-li programově extrahovat veškerý text ze souborů PDF v Javě pomocí GroupDocs.Parser Cloud SDK for Java, postupujte podle kroků a příkladu úryvku kódu:

  • Nejprve importujte požadované třídy do souboru Java.
  • Za druhé vytvořte instanci třídy ParseApi.
  • Zatřetí vytvořte instanci třídy FileInfo.
  • Dále nastavte cestu k souboru PDF jako vstup.
  • Poté vytvořte instanci třídy TextOptions().
  • Dále přiřaďte fileInfo metodě setFileInfo.
  • Nyní vytvořte instanci třídy TextRequest() a předejte parametr TextOptions.
  • Nakonec získejte výsledky voláním metody ParseApi.text() a předáním parametru TextRequest.

Následující ukázka kódu ukazuje, jak extrahovat veškerý text ze souboru PDF pomocí REST API v Javě:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;

// Jak extrahovat text z dokumentu PDF v Javě.
public class App {

	public static void main(String[] args) {
		
		// Vytvořte instanci rozhraní API Parse
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Připravte nastavení
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");
			TextOptions options = new TextOptions();
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);

			// Získejte cestu k výstupnímu souboru
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Výstup můžete vidět na obrázku níže:

Java Extrahujte text z dokumentu PDF

Extrahujte text z dokumentu PDF v Javě

Extrahovat konkrétní text z PDF v Javě podle rozsahu čísel stránek

Tato část obsahuje podrobné pokyny a ukázkový fragment kódu pro extrahování konkrétního textu ze souboru PDF programově v jazyce Java:

  • Nejprve importujte požadované třídy do souboru Java.
  • Za druhé vytvořte instanci třídy ParseApi.
  • Zatřetí vytvořte instanci třídy FileInfo.
  • Dále nastavte cestu k souboru PDF jako vstup.
  • Poté vytvořte instanci třídy TextOptions().
  • Nyní zadejte hodnoty setStartPageNumber a setCountPagesToExtract.
  • Poté přiřaďte fileInfo metodě setFileInfo.
  • Nyní vytvořte instanci třídy TextRequest() a předejte parametr TextOptions.
  • Nakonec získejte výsledky voláním metody ParseApi.text() a předáním parametru TextRequest.

Následující ukázka kódu ukazuje, jak extrahovat konkrétní text ze souboru PDF podle čísla rozsahu stránek v Javě pomocí REST API:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;

// Jak extrahovat text ze souboru PDF podle čísla rozsahu stránek v Javě.
public class App {

	public static void main(String[] args) {
		
		// Vytvořte instanci rozhraní API Parse
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Připravte nastavení
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");
			TextOptions options = new TextOptions();
			options.setStartPageNumber(1);
			options.setCountPagesToExtract(1);
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);
				
			// Získejte cestu k výstupnímu souboru
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Zdarma online analyzátor dokumentů

Jaký je nejlepší způsob, jak extrahovat text z PDF online zdarma? Vyzkoušejte prosím online software pro analýzu dokumentů PDF a extrahujte text z PDF. Tento nástroj PDF Parser je vyvinut pomocí výše uvedené knihovny Java parser.

Závěr

Na závěr, GroupDocs.Parser Cloud SDK pro Java je cenným nástrojem pro vývojáře v jazyce Java, který vám umožňuje efektivně extrahovat text, metadata a obrázky. Z tohoto článku jste se dozvěděli následující:

  • jak extrahovat veškerý text ze souborů PDF pomocí REST API v Javě;
  • programově nahrát soubor PDF do cloudu pomocí Java;
  • jak extrahovat obsah z PDF v Javě pomocí REST API;
  • a online nástroj pro extrakci textu PDF pro analýzu dokumentů PDF.

Kromě toho se můžete dozvědět více o GroupDocs.Parser Cloud API pomocí dokumentace. Poskytujeme také sekci API Reference, která vám umožní vizualizovat a pracovat s našimi API přímo prostřednictvím prohlížeče. Úplný zdrojový kód Java SDK je volně dostupný na Github.

Konečně píšeme nové články na blogu o různých formátech souborů a analýze pomocí REST API. Proto nás prosím kontaktujte pro nejnovější aktualizace.

Položit otázku

V případě, že byste měli nějaké dotazy nebo nejasnosti ohledně toho, jak extrahovat text ze souborů PDF, neváhejte nás kontaktovat prostřednictvím našeho fóra.

Nejčastější dotazy

Jak extrahuji veškerý text ze souboru PDF pomocí Java?

Veškerý text můžete extrahovat ze souboru PDF pomocí GroupDocs.Parser Cloud SDK for Java ve vašich aplikacích Java. Tato výkonná sada SDK poskytuje efektivní a přímočarý způsob, jak extrahovat text ze souborů PDF pomocí Java.

Mohu extrahovat text ze souborů PDF chráněných heslem pomocí GroupDocs.Parser Cloud SDK for Java?

Ano, SDK podporuje extrakci textu ze souborů PDF chráněných heslem. Heslo můžete zadat jako možnost během procesu extrakce.

Je možné extrahovat text z konkrétních stránek v souboru PDF?

Ano, GroupDocs.Parser Cloud SDK for Java vám umožňuje zadat číslo rozsahu stránek, ze kterého chcete extrahovat text. Tímto způsobem můžete snadno extrahovat text z konkrétních částí dokumentu PDF.

Viz také

Zde je několik souvisejících článků, které vám mohou pomoci: