Parsowanie dokumentów – Wyodrębnij tekst z pliku PDF w Javie

Czy kiedykolwiek spotkałeś się z sytuacją, w której musiałeś programowo wyodrębnić tekst z pliku PDF? Programowe wyodrębnianie tekstu z plików PDF może być złożonym zadaniem, zwłaszcza w przypadku dużych dokumentów. Jeśli jesteś programistą Java i szukasz niezawodnego rozwiązania, GroupDocs.Parser Cloud SDK for Java zapewnia skuteczny sposób wyodrębniania tekstu z plików PDF. W tym artykule przyjrzymy się, jak wyodrębnić tekst z pliku PDF w Javie przy użyciu interfejsu API REST.

W tym artykule zostaną omówione następujące tematy:

Java REST API do wyodrębniania tekstu z plików PDF i instalacji pakietu SDK

GroupDocs.Parser Cloud SDK for Java to zaawansowany, przyjazny dla użytkownika i bogaty w funkcje zestaw programistyczny, który zapewnia wszechstronne możliwości analizowania plików PDF. Dzięki wszechstronnemu zestawowi interfejsów API możesz bez wysiłku wyodrębniać tekst, metadane, obrazy i analizować dane z ponad 50 typów formatów dokumentów. Udostępnia również zestawy SDK C# .NET, Java, PHP, Ruby i Python jako członkowie rodziny parserów dokumentów dla Cloud API. SDK można zintegrować z aplikacją opartą na języku Java, aby uprościć proces programowania i zwiększyć produktywność.

Możesz pobrać plik JAR interfejsu API lub zainstalować go za pomocą Mavena, dodając następujące repozytorium i zależności do pliku pom.xml projektu:

Repozytorium Mavena:

<repository>
    <id>groupdocs-artifact-repository</id>
    <name>GroupDocs Artifact Repository</name>
    <url>https://repository.groupdocs.cloud/repo</url>
</repository>

Zależność od Mavena:

<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser-cloud</artifactId>
    <version>23.3</version>
    <scope>compile</scope>
</dependency>

Następnie zarejestruj się, aby uzyskać bezpłatne konto próbne lub kup plan subskrypcji na stronie GroupDocs i uzyskaj swój klucz API. Po uzyskaniu identyfikatora klienta i klucza tajnego klienta dodaj poniższy fragment kodu do aplikacji opartej na języku Java:

# Uzyskaj identyfikator klienta i klucz klienta z https://dashboard.groupdocs.cloud po rejestracji.

String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);

Jak wyodrębnić cały tekst z plików PDF w Javie przy użyciu interfejsu API REST

Wyodrębnianie tekstu z plików PDF w Javie przy użyciu GroupDocs.Parser Cloud SDK to prosty proces. Oto jak to zrobić:

Prześlij plik

Najpierw prześlij dokument PDF do chmury, korzystając z przykładowego kodu podanego poniżej:

package com.groupdocsdev.classes;

import java.io.File;
import java.nio.file.Paths;

import com.groupdocs.cloud.Parser.api.*;
import com.groupdocs.cloud.Parser.client.ApiException;
import com.groupdocs.cloud.Parser.model.*;
import com.groupdocs.cloud.Parser.model.requests.*;

// Prześlij plik do Cloud Storage przy użyciu języka Java
public class App {

	public static void main(String[] args) {

		FileApi apiInstance = new FileApi(configuration);
		try {
			File fileStream = new File("H:\\groupdocs-cloud-data\\input-sample-file.pdf");
			UploadFileRequest request = new UploadFileRequest("java-testing\\input-sample-file.pdf", fileStream, MyStorage);
			FilesUploadResult response = apiInstance.uploadFile(request);
			System.out.println("Expected response type is FilesUploadResult: " + response.getUploaded().size());
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
	}
}

W rezultacie przesłany plik PDF będzie dostępny w sekcji plików Twojego pulpitu nawigacyjnego w chmurze.

Wyodrębnij tekst z dokumentu PDF w Javie

Postępuj zgodnie z instrukcjami i przykładowym fragmentem kodu, aby programowo wyodrębnić cały tekst z plików PDF w Javie za pomocą GroupDocs.Parser Cloud SDK for Java:

  • Najpierw zaimportuj wymagane klasy do pliku Java.
  • Po drugie, utwórz instancję klasy ParseApi.
  • Po trzecie, utwórz instancję klasy FileInfo.
  • Następnie ustaw ścieżkę do pliku PDF jako dane wejściowe.
  • Następnie utwórz instancję klasy TextOptions().
  • Następnie przypisz fileInfo do metody setFileInfo.
  • Teraz utwórz instancję klasy TextRequest() i przekaż parametr TextOptions.
  • Na koniec uzyskaj wyniki, wywołując metodę ParseApi.text() i przekazując parametr TextRequest.

Poniższy przykładowy kod pokazuje, jak wyodrębnić cały tekst z pliku PDF za pomocą interfejsu API REST w Javie:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;

// Jak wyodrębnić tekst z dokumentu PDF w Javie.
public class App {

	public static void main(String[] args) {
		
		// Utwórz instancję interfejsu Parse API
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Przygotuj ustawienia
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");
			TextOptions options = new TextOptions();
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);

			// Pobierz ścieżkę pliku wyjściowego
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Możesz zobaczyć dane wyjściowe na poniższym obrazku:

Java Wyodrębnij tekst z dokumentu PDF

Wyodrębnij tekst z dokumentu PDF w Javie

Wyodrębnij określony tekst z pliku PDF w Javie według zakresu numerów stron

Ta sekcja zawiera instrukcje krok po kroku i przykładowy fragment kodu do programowego wyodrębniania określonego tekstu z pliku PDF w Javie:

  • Najpierw zaimportuj wymagane klasy do pliku Java.
  • Po drugie, utwórz instancję klasy ParseApi.
  • Po trzecie, utwórz instancję klasy FileInfo.
  • Następnie ustaw ścieżkę do pliku PDF jako dane wejściowe.
  • Następnie utwórz instancję klasy TextOptions().
  • Teraz podaj wartości setStartPageNumber i setCountPagesToExtract.
  • Następnie przypisz fileInfo do metody setFileInfo.
  • Teraz utwórz instancję klasy TextRequest() i przekaż parametr TextOptions.
  • Na koniec uzyskaj wyniki, wywołując metodę ParseApi.text() i przekazując parametr TextRequest.

Poniższy przykładowy kod pokazuje, jak wyodrębnić określony tekst z pliku PDF według numeru zakresu stron w Javie przy użyciu interfejsu API REST:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;

// Jak wyodrębnić tekst z pliku PDF według numeru zakresu stron w Javie.
public class App {

	public static void main(String[] args) {
		
		// Utwórz instancję interfejsu Parse API
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Przygotuj ustawienia
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");
			TextOptions options = new TextOptions();
			options.setStartPageNumber(1);
			options.setCountPagesToExtract(1);
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);
				
			// Pobierz ścieżkę pliku wyjściowego
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Darmowy parser dokumentów online

Jaki jest najlepszy sposób na bezpłatne wyodrębnienie tekstu z pliku PDF online? Wypróbuj oprogramowanie do parsowania dokumentów PDF online, aby wyodrębnić tekst z pliku PDF. To narzędzie PDF Parser zostało opracowane przy użyciu wyżej wymienionej biblioteki parsera Java.

Wniosek

Podsumowując, GroupDocs.Parser Cloud SDK for Java to cenne narzędzie dla programistów Java, które pozwala wydajnie wyodrębniać tekst, metadane i obrazy. Oto, czego dowiedziałeś się z tego artykułu:

  • jak wyodrębnić cały tekst z plików PDF za pomocą REST API w Javie;
  • programowo przesłać plik PDF do chmury przy użyciu języka Java;
  • jak wyodrębnić treść z PDF w Javie przy użyciu REST API;
  • oraz internetowe narzędzie do wyodrębniania tekstu PDF do analizowania dokumentów PDF.

Poza tym możesz dowiedzieć się więcej o GroupDocs.Parser Cloud API korzystając z dokumentacji. Udostępniamy również sekcję Informacje o interfejsach API, która umożliwia wizualizację naszych interfejsów API i interakcję z nimi bezpośrednio w przeglądarce. Pełny kod źródłowy pakietu Java SDK jest bezpłatnie dostępny na Github.

Wreszcie, wciąż piszemy nowe artykuły na blogu dotyczące różnych formatów plików i parsowania za pomocą REST API. Dlatego prosimy o kontakt w celu uzyskania najnowszych aktualizacji.

Zadać pytanie

W przypadku jakichkolwiek pytań lub wątpliwości dotyczących wyodrębniania tekstu z plików PDF, prosimy o kontakt za pośrednictwem naszego forum.

Często zadawane pytania

Jak wyodrębnić cały tekst z pliku PDF za pomocą języka Java?

Możesz wyodrębnić cały tekst z pliku PDF za pomocą GroupDocs.Parser Cloud SDK for Java w swoich aplikacjach Java. Ten potężny zestaw SDK zapewnia skuteczny i prosty sposób wyodrębniania tekstu z plików PDF przy użyciu języka Java.

Czy mogę wyodrębnić tekst z plików PDF chronionych hasłem za pomocą GroupDocs.Parser Cloud SDK for Java?

Tak, SDK obsługuje wyodrębnianie tekstu z plików PDF chronionych hasłem. Możesz podać hasło jako opcję podczas procesu ekstrakcji.

Czy można wyodrębnić tekst z określonych stron w pliku PDF?

Tak, GroupDocs.Parser Cloud SDK for Java umożliwia określenie numeru zakresu stron, z którego chcesz wyodrębnić tekst. W ten sposób można łatwo wyodrębnić tekst z określonych sekcji dokumentu PDF.

Zobacz też

Oto kilka powiązanych artykułów, które mogą okazać się pomocne: