Belge Ayrıştırma – PDF Dosyasından Metin Çıkarma Java'da

Hiçbir zaman programatik olarak bir PDF dosyasından metin çıkarmanız gereken bir durumla karşılaştınız mı? PDF dosyalarından programatik olarak metin çıkarmak karmaşık bir görev olabilir, özellikle büyük belgelerle çalışırken. Eğer bir Java geliştiricisiyseniz ve güvenilir bir çözüm arıyorsanız, GroupDocs.Parser Cloud SDK for Java, PDF dosyalarından metin çıkarmak için verimli bir yol sunar. Bu makalede, REST API kullanarak Java’da PDF dosyasından metin çıkarmayı keşfedeceğiz.

Bu makalede aşağıdaki konular ele alınacaktır:

Java REST API to Extract Text from PDF Files and SDK Installation

GroupDocs.Parser Cloud SDK for Java güçlü, kullanıcı dostu ve zengin özelliklere sahip bir yazılım geliştirme kitidir ve kapsamlı PDF ayrıştırma yetenekleri sunar. Kapsamlı API seti ile 50’den fazla belge formatından metin, meta veriler, görselleri zahmetsizce çıkarabilir ve verileri ayrıştırabilirsiniz. Ayrıca, Cloud API için C# .NET, Java, PHP, Ruby ve Python SDK’ları belge ayrıştırıcı aile üyeleri olarak sunulmaktadır. SDK, Java tabanlı bir uygulamaya entegre edilerek geliştirme sürecinizi basitleştirir ve üretkenliği artırır.

API’nin JAR dosyasını ya download edebilir ya da projeni pom.xml dosyasına aşağıdaki depo ve bağımlılığı ekleyerek Maven ile kurabilirsin:

Maven Deposu:

<repository>
    <id>groupdocs-artifact-repository</id>
    <name>GroupDocs Artifact Repository</name>
    <url>https://repository.groupdocs.cloud/repo</url>
</repository>

Maven Bağımlılığı:

<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser-cloud</artifactId>
    <version>23.3</version>
    <scope>compile</scope>
</dependency>

Sonraki adımda, sign up için ücretsiz deneme hesabı oluşturun veya purchase a subscription plan için GroupDocs web sitesinde bir abonelik planı satın alın ve get your API key. Client Id ve Client Secret’ınızı aldıktan sonra, aşağıdaki kod parçacığını Java tabanlı bir uygulamaya ekleyin:

# Müşteri kimliğinizi ve müşteri gizli anahtarınızı kaydolduktan sonra https://dashboard.groupdocs.cloud adresinden alın.

String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);

Java kullanarak PDF Dosyalarından Tüm Metinleri REST API ile Çıkarma

PDF dosyalarından metin çıkarmak için GroupDocs.Parser Cloud SDK`sını Java kullanarak kullanmak basit bir süreçtir. İşte bunu yapmanın yolları:

  • Upload PDF dosyasını buluta yükleyin.
  • Extract PDF’den metin çıkarma işlemini Java kullanarak gerçekleştirin.

Dosyayı Yükleyin

Öncelikle, aşağıda verilen kod örneğini kullanarak PDF belgesini buluta yükleyin:

package com.groupdocsdev.classes;

import java.io.File;
import java.nio.file.Paths;

import com.groupdocs.cloud.Parser.api.*;
import com.groupdocs.cloud.Parser.client.ApiException;
import com.groupdocs.cloud.Parser.model.*;
import com.groupdocs.cloud.Parser.model.requests.*;

// Dosyayı Java kullanarak Cloud Depolama'ya yükleyin
public class App {

	public static void main(String[] args) {

		FileApi apiInstance = new FileApi(configuration);
		try {
			File fileStream = new File("H:\\groupdocs-cloud-data\\input-sample-file.pdf");
			UploadFileRequest request = new UploadFileRequest("java-testing\\input-sample-file.pdf", fileStream, MyStorage);
			FilesUploadResult response = apiInstance.uploadFile(request);
			System.out.println("Expected response type is FilesUploadResult: " + response.getUploaded().size());
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
	}
}

Sonuç olarak, yüklenen PDF dosyası bulut üzerindeki panelinizin [files section][https://dashboard.groupdocs.cloud/files] kısmında erişilebilir olacaktır.

PDF Belgesinden Metin Çıkarma Java

Aşağıdaki adımları izleyin ve Java için GroupDocs.Parser Cloud SDK’sını kullanarak PDF dosyalarından programlı olarak tüm metni çıkarmak için bir örnek kod parçasını inceleyin:

  • Öncelikle, gerekli sınıfları Java dosyanıza içe aktarın.
  • İkincisi, ParseApi sınıfının bir örneğini oluşturun.
  • Üçüncü olarak, FileInfo sınıfının bir örneğini oluşturun.
  • Sonra, PDF dosyasının yolunu girdi olarak ayarlayın.
  • Sonra, TextOptions() sınıfının bir örneğini oluşturun.
  • Sonra, fileInfo‘yu setFileInfo yöntemine atayın.
  • Şimdi, TextOptions parametresini geçerek TextRequest() sınıfının bir örneğini oluşturun.
  • Sonunda, ParseApi.text() yöntemini çağırarak ve TextRequest parametresini geçirerek sonuçları alın.

Aşağıdaki kod örneği, Java’da bir REST API kullanarak bir PDF dosyasından tüm metni çıkarmanın nasıl yapılacağını göstermektedir:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;

// Java'da bir PDF belgesinden metin nasıl çıkarılır.
public class App {

	public static void main(String[] args) {
		
		// Parse API'nin bir örneğini oluşturun.
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Ayarları hazırlayın
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");
			TextOptions options = new TextOptions();
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);

			// Get output file path
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Aşağıdaki resimde çıktıyı görebilirsiniz:

Java PDF Belgesinden Metin Çıkarma

PDF Belgesinden Metin Çıkartma Java’da

PDF’den Belirli Metni Java ile Sayfa Numara Aralığına Göre Çıkarma

Bu bölüm, bir PDF dosyasından belirli metni programlı olarak Java ile çıkarmak için adım adım talimatlar ve bir örnek kod parçası sağlar:

  • Öncelikle, gerekli sınıfları Java dosyanıza içe aktarın.
  • İkincisi, ParseApi sınıfının bir örneğini oluşturun.
  • Üçüncü olarak, FileInfo sınıfının bir örneğini oluşturun.
  • Sonra, PDF dosyasının yolunu girdi olarak ayarlayın.
  • Sonra, TextOptions() sınıfının bir örneğini oluşturun.
  • Şimdi, setStartPageNumber ve setCountPagesToExtract değerlerini sağlayın.
  • Sonra, fileInfo’yu setFileInfo metoduna atayın.
  • Şimdi, TextOptions parametresini geçerek TextRequest() sınıfının bir örneğini oluşturun.
  • Sonunda, ParseApi.text() yöntemini çağırarak ve TextRequest parametresini geçirerek sonuçları alın.

Aşağıdaki kod örneği, Java kullanarak REST API ile PDF dosyasından belirli metni sayfa aralığı numarasıyla nasıl çıkartacağınızı göstermektedir:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;

// How to extract text from a PDF file by page range number in Java.
public class App {

	public static void main(String[] args) {
		
		// Parse API'nin bir örneğini oluşturun.
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Ayarları hazırlayın
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");
			TextOptions options = new TextOptions();
			options.setStartPageNumber(1);
			options.setCountPagesToExtract(1);
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);
				
			// Get output file path
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Ücretsiz Çevrimiçi Belge Ayrıştırıcı

PDF’den çevrimiçi olarak ücretsiz metin çıkarmanın en iyi yolu nedir? Lütfen metin çıkarmak için bir online PDF document parser software deneyin. Bu PDF Ayrıştırıcı aracı, yukarıda belirtilen Java ayrıştırıcı kütüphanesi kullanılarak geliştirilmiştir.

Sonuç

Sonuç olarak, GroupDocs.Parser Cloud SDK for Java, Java geliştiricileri için metin, meta veri ve görselleri verimli bir şekilde çıkarmanızı sağlayan değerli bir araçtır. Aşağıda bu makaleden öğrendiğiniz bilgiler yer almaktadır:

  • PDF dosyalarından metin çıkarmak için Java’da REST API kullanma.
  • Programmatically upload a PDF file to the cloud using Java.
  • How to extract content from PDF in Java using REST API.
  • Çevrimiçi PDF metin çıkarma aracı, PDF belgelerini ayrıştırmak için.

Bunun dışında, GroupDocs.Parser Cloud API hakkında daha fazla bilgi almak için documentation kısmını kullanabilirsiniz. Ayrıca, tarayıcı üzerinden API’lerimizle doğrudan görselleştirme ve etkileşim kurmanıza olanak tanıyan bir API Reference bölümü de sağlıyoruz. Java SDK’nın tam kaynak kodu Github üzerinde ücretsiz olarak mevcuttur.

Finally, we keep writing new blog articles on different file formats and parsing using REST API. So, please get in touch for the latest updates.

Ask a question

PDF dosyalarından metin çıkarmakla ilgili herhangi bir sorunuz veya karışıklığınız olursa, lütfen forum aracılığıyla bizimle iletişime geçmekten çekinmeyin.

SSS

How do I extract all text from a PDF file using Java?

PDF dosyasından tüm metni GroupDocs.Parser Cloud SDK for Java kullanarak Java uygulamalarınızda çıkarabilirsiniz. Bu güçlü SDK, Java kullanarak PDF dosyalarından metin çıkarmanın etkili ve basit bir yolunu sunar.

Can I extract text from password-protected PDF files using GroupDocs.Parser Cloud SDK for Java?

Evet, SDK şifre korumalı PDF dosyalarından metin çıkarımını desteklemektedir. Çıkarma işlemi sırasında şifreyi bir seçenek olarak verebilirsiniz.

PDF dosyasındaki belirli sayfalardan metin çıkarmak mümkün müdür?

Evet, GroupDocs.Parser Cloud SDK for Java metin çıkarmak istediğiniz sayfa aralığını belirlemenizi sağlar. Bu şekilde, bir PDF belgesinin belirli bölümlerinden metin çıkarmak çok kolaydır.

Ayrıca Bakınız

İşte size yardımcı olabilecek bazı ilgili makaleler: