Wyodrębnij tekst z PDF za pomocą Java

Parsowanie dokumentów – Wyodrębnianie tekstu z pliku PDF w Javie

Czy kiedykolwiek napotkałeś sytuację, w której musiałeś programowo wyodrębnić tekst z pliku PDF? Wyodrębnienie tekstu z plików PDF programowo może być skomplikowanym zadaniem, zwłaszcza w przypadku dużych dokumentów. Jeśli jesteś programistą Java i szukasz niezawodnego rozwiązania, GroupDocs.Parser Cloud SDK dla Java oferuje efektywny sposób na wyodrębnienie tekstu z plików PDF. W tym artykule przyjrzymy się, jak wyodrębnić tekst z pliku PDF w Javie, korzystając z REST API.

Następujące tematy zostaną omówione w tym artykule:

Java REST API do wyodrębniania tekstu z plików PDF i instalacji SDK
Jak wyodrębnić cały tekst z plików PDF w Javie, używając REST API
Wyodrębnij konkretny tekst z PDF w Javie według zakresu numerów stron

Java REST API do ekstrakcji tekstu z plików PDF oraz instalacja SDK

GroupDocs.Parser Cloud SDK for Java to potężny, przyjazny dla użytkownika i bogaty w funkcje zestaw narzędzi do tworzenia oprogramowania, który zapewnia kompleksowe możliwości analizy PDF. Dzięki swojemu wszechstronnemu zestawowi interfejsów API, możesz bez wysiłku wyodrębniać tekst, metadane, obrazy oraz analizować dane z ponad 50 typów formatów dokumentów. Oferuje również zestawy SDK w języku C# .NET, Java, PHP, Ruby i Python jako członków rodziny parserów dokumentów dla API w chmurze. SDK można zintegrować z aplikacją opartą na Javie, aby uprościć proces rozwoju i zwiększyć produktywność.

Możesz albo download plik JAR API, albo zainstalować go za pomocą Mavena, dodając następujące repozytorium i zależność do pliku pom.xml swojego projektu:

Repozytorium Maven:

<repository>
    <id>groupdocs-artifact-repository</id>
    <name>GroupDocs Artifact Repository</name>
    <url>https://repository.groupdocs.cloud/repo</url>
</repository>

Maven Dependency:

<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser-cloud</artifactId>
    <version>23.3</version>
    <scope>compile</scope>
</dependency>

Następnie, sign up na bezpłatne konto próbne lub purchase a subscription plan na stronie internetowej GroupDocs i get your API key. Gdy masz Client Id i Client Secret, dodaj poniższy fragment kodu do aplikacji opartej na Java:

# Pobierz swój clientid i clientsecret z https://dashboard.groupdocs.cloud po rejestracji.

String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);

Jak wyodrębnić cały tekst z plików PDF w Javie za pomocą interfejsu REST API

Ekstrakcja tekstu z plików PDF w Javie za pomocą GroupDocs.Parser Cloud SDK jest prostym procesem. Oto jak to zrobić:

Upload plik PDF do chmury.
Extract tekst z PDF za pomocą Java.

Prześlij plik

Najpierw załaduj dokument PDF do chmury, korzystając z poniższego przykładu kodu:

package com.groupdocsdev.classes;

import java.io.File;
import java.nio.file.Paths;

import com.groupdocs.cloud.Parser.api.*;
import com.groupdocs.cloud.Parser.client.ApiException;
import com.groupdocs.cloud.Parser.model.*;
import com.groupdocs.cloud.Parser.model.requests.*;

// Prześlij plik do Chmury za pomocą Java
public class App {

	public static void main(String[] args) {

		FileApi apiInstance = new FileApi(configuration);
		try {
			File fileStream = new File("H:\\groupdocs-cloud-data\\input-sample-file.pdf");
			UploadFileRequest request = new UploadFileRequest("java-testing\\input-sample-file.pdf", fileStream, MyStorage);
			FilesUploadResult response = apiInstance.uploadFile(request);
			System.out.println("Expected response type is FilesUploadResult: " + response.getUploaded().size());
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
	}
}

W rezultacie przesłany plik PDF będzie dostępny w sekcji [plików][https://dashboard.groupdocs.cloud/files] na twoim pulpicie w chmurze.

Extract Text from PDF Document in Java

Postępuj zgodnie z krokami i przykładowym fragmentem kodu, aby programowo wyodrębnić cały tekst z plików PDF w Javie, korzystając z GroupDocs.Parser Cloud SDK dla Java:

Najpierw zaimportuj wymagane klasy do swojego pliku Java.
Secondly, create an instance of the ParseApi class.
Po trzecie, utwórz instancję klasy FileInfo.
Następnie ustaw ścieżkę do pliku PDF jako dane wejściowe.
Następnie utwórz instancję klasy TextOptions().
Następnie przypisz fileInfo do metody setFileInfo.
Teraz utwórz instancję klasy TextRequest() i przekaż parametr TextOptions.
W końcu uzyskaj wyniki, wywołując metodę ParseApi.text() i przekazując parametr TextRequest.

Poniższy przykład kodu pokazuje, jak wyodrębnić cały tekst z pliku PDF za pomocą interfejsu API REST w Javie:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;

// Jak wyodrębnić tekst z dokumentu PDF w Javie.
public class App {

	public static void main(String[] args) {
		
		// Utwórz instancję interfejsu API Parse
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Przygotuj ustawienia
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");
			TextOptions options = new TextOptions();
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);

			// Get output file path
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Możesz zobaczyć wynik na poniższym obrazku:

Java Wyodrębnianie tekstu z dokumentu PDF — Wyodrębnij tekst z dokumentu PDF w Javie

Extract Specific Text from PDF in Java by Page Number Range

Ta sekcja zawiera instrukcje krok po kroku oraz przykład fragmentu kodu do programatycznego wyodrębniania konkretnego tekstu z pliku PDF w Javie:

Najpierw zaimportuj wymagane klasy do swojego pliku Java.
Po drugie, utwórz instancję klasy ParseApi.
Po trzecie, utwórz instancję klasy FileInfo.
Następnie ustaw ścieżkę do pliku PDF jako dane wejściowe.
Następnie utwórz instancję klasy TextOptions().
Teraz podaj wartości setStartPageNumber i setCountPagesToExtract.
Then, assign fileInfo to setFileInfo method.
Teraz utwórz instancję klasy TextRequest() i przekaż parametr TextOptions.
Finalmente, uzyskaj wyniki, wywołując metodę ParseApi.text() i przekazując parametr TextRequest.

Poniższy przykład kodu pokazuje, jak wyodrębnić specyficzny tekst z pliku PDF według numeru zakresu stron w Javie za pomocą interfejsu API REST:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;

// How to extract text from a PDF file by page range number in Java.
public class App {

	public static void main(String[] args) {
		
		// Stwórz instancję API Parse
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Przygotuj ustawienia
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");
			TextOptions options = new TextOptions();
			options.setStartPageNumber(1);
			options.setCountPagesToExtract(1);
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);
				
			// Get output file path
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Darmowy internetowy parser dokumentów

What is the best way to extract text from PDF online for free? Please try an online PDF document parser software to extract text out of PDF. This PDF Parser tool is developed using the above-mentioned Java parser library.

Wnioski

W podsumowaniu, GroupDocs.Parser Cloud SDK dla Java jest cennym narzędziem dla programistów Java, które pozwala na efektywne wydobywanie tekstu, metadanych i obrazów. Oto, czego się nauczyłeś z tego artykułu:

How to extract all text from PDF files using REST API in Java.
Programmatically upload a PDF file to the cloud using Java.
How to extract content from PDF in Java using REST API.
Narzędzie do ekstrakcji tekstu z PDF online do analizy dokumentów PDF.

Poza tym, możesz dowiedzieć się więcej o GroupDocs.Parser Cloud API, korzystając z dokumentacji. Oferujemy również sekcję API Reference, która pozwala wizualizować i interagować z naszymi API bezpośrednio w przeglądarce. Pełny kod źródłowy SDK Java jest dostępny za darmo na Github.

Finally, we keep writing new blog articles on different file formats and parsing using REST API. So, please get in touch for the latest updates.

Ask a question

W przypadku jakichkolwiek pytań lub wątpliwości dotyczących ekstrakcji tekstu z plików PDF, prosimy o kontakt z nami za pośrednictwem naszego forum.

FAQs

How do I extract all text from a PDF file using Java?

Możesz wyodrębnić cały tekst z pliku PDF za pomocą GroupDocs.Parser Cloud SDK for Java w swoich aplikacjach Java. Ten potężny SDK zapewnia wydajny i prosty sposób na wyodrębnienie tekstu z plików PDF przy użyciu Java.

Czy mogę wyodrębnić tekst z plików PDF zabezpieczonych hasłem za pomocą GroupDocs.Parser Cloud SDK dla Java?

Tak, SDK obsługuje ekstrakcję tekstu z plików PDF chronionych hasłem. Możesz podać hasło jako opcję podczas procesu ekstrakcji.

Is it possible to extract text from specific pages within a PDF file?

Tak, GroupDocs.Parser Cloud SDK for Java pozwala na określenie zakresu numerów stron, z których chcesz wyodrębnić tekst. W ten sposób możesz łatwo wyodrębnić tekst z konkretnych sekcji dokumentu PDF.

Zobacz także

Oto kilka pokrewnych artykułów, które mogą okazać się pomocne:

Java REST API do ekstrakcji tekstu z plików PDF oraz instalacja SDK#

Jak wyodrębnić cały tekst z plików PDF w Javie za pomocą interfejsu REST API#

Prześlij plik#

Extract Text from PDF Document in Java#

Extract Specific Text from PDF in Java by Page Number Range#

Darmowy internetowy parser dokumentów#

Wnioski#

Ask a question#

FAQs#

Zobacz także#