Belge Ayrıştırma - Java'daki PDF Dosyasından Metin Çıkarma

Bir PDF dosyasından programlı olarak metin ayıklamanız gereken bir durumla hiç karşılaştınız mı? PDF dosyalarından programlı olarak metin çıkarmak, özellikle büyük belgelerle uğraşırken karmaşık bir görev olabilir. Bir Java geliştiricisiyseniz ve güvenilir bir çözüm arıyorsanız, Java için GroupDocs.Parser Cloud SDK, PDF dosyalarından metin ayıklamak için etkili bir yol sağlar. Bu yazıda, Java’da REST API kullanarak PDF dosyasından nasıl metin çıkarılacağını keşfedeceğiz.

Bu yazıda aşağıdaki konular ele alınacaktır:

PDF Dosyalarından Metin Çıkarmak için Java REST API ve SDK Kurulumu

GroupDocs.Parser Cloud SDK for Java kapsamlı PDF ayrıştırma yetenekleri sağlayan güçlü, kullanıcı dostu ve zengin özelliklere sahip bir yazılım geliştirme kitidir. Kapsamlı API seti ile 50’den fazla belge biçimi türünden metin, meta veri, resim ve ayrıştırma verilerini zahmetsizce ayıklayabilirsiniz. Ayrıca Cloud API için belge ayrıştırıcı aile üyeleri olarak C# .NET, Java, PHP, Ruby ve Python SDK’ları sağlar. SDK, geliştirme sürecinizi basitleştirmek ve üretkenliği artırmak için Java tabanlı bir uygulamaya entegre edilebilir.

API’nin JAR dosyasını indirebilir veya projenizin pom.xml dosyasına aşağıdaki depoyu ve bağımlılığı ekleyerek Maven’i kullanarak yükleyebilirsiniz:

Maven Deposu:

<repository>
    <id>groupdocs-artifact-repository</id>
    <name>GroupDocs Artifact Repository</name>
    <url>https://repository.groupdocs.cloud/repo</url>
</repository>

Maven Bağımlılığı:

<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser-cloud</artifactId>
    <version>23.3</version>
    <scope>compile</scope>
</dependency>

Ardından, ücretsiz bir deneme hesabı için kaydolun veya GroupDocs web sitesinde bir abonelik planı satın alın ve API anahtarınızı alın. İstemci Kimliği ve İstemci Sırrı’na sahip olduğunuzda, Java tabanlı bir uygulamaya aşağıdaki kod parçacığını ekleyin:

# Kayıttan sonra client_id ve client_secret'inizi https://dashboard.groupdocs.cloud adresinden alın.

String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);

REST API kullanarak Java’daki PDF Dosyalarından Tüm Metni Çıkarma

GroupDocs.Parser Cloud SDK’yı kullanarak Java’daki PDF dosyalarından metin çıkarmak basit bir işlemdir. Bunu nasıl yapacağınız aşağıda açıklanmıştır:

  • PDF dosyasını buluta Yükle
  • Ayıkla Java kullanarak PDF’den metin

Dosyayı Yükle

Öncelikle, aşağıda verilen kod örneğini kullanarak PDF belgesini buluta yükleyin:

package com.groupdocsdev.classes;

import java.io.File;
import java.nio.file.Paths;

import com.groupdocs.cloud.Parser.api.*;
import com.groupdocs.cloud.Parser.client.ApiException;
import com.groupdocs.cloud.Parser.model.*;
import com.groupdocs.cloud.Parser.model.requests.*;

// Java kullanarak Bulut Depolamaya dosya yükleyin
public class App {

	public static void main(String[] args) {

		FileApi apiInstance = new FileApi(configuration);
		try {
			File fileStream = new File("H:\\groupdocs-cloud-data\\input-sample-file.pdf");
			UploadFileRequest request = new UploadFileRequest("java-testing\\input-sample-file.pdf", fileStream, MyStorage);
			FilesUploadResult response = apiInstance.uploadFile(request);
			System.out.println("Expected response type is FilesUploadResult: " + response.getUploaded().size());
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
	}
}

Sonuç olarak, yüklenen PDF dosyası, bulut üzerindeki kontrol panelinizin dosyalar bölümünde mevcut olacaktır.

Java’daki PDF Belgesinden Metin Çıkarın

Java için GroupDocs.Parser Cloud SDK kullanarak Java’da programlı olarak PDF dosyalarındaki tüm metni ayıklamak için adımları ve örnek bir kod parçacığını izleyin:

  • Öncelikle, gerekli sınıfları Java dosyanıza aktarın.
  • İkinci olarak, ParseApi sınıfının bir örneğini oluşturun.
  • Üçüncü olarak, FileInfo sınıfının bir örneğini oluşturun.
  • Ardından, PDF dosyasının yolunu giriş olarak ayarlayın.
  • Ardından, TextOptions() sınıfının bir örneğini oluşturun.
  • Ardından, setFileInfo yöntemine fileInfo atayın.
  • Şimdi, TextRequest() sınıfının bir örneğini oluşturun ve TextOptions parametresini iletin.
  • Son olarak, ParseApi.text() yöntemini çağırarak ve TextRequest parametresini ileterek sonuçları alın.

Aşağıdaki kod örneği, Java’da bir REST API kullanarak bir PDF dosyasındaki tüm metnin nasıl çıkarılacağını gösterir:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;

// Java'da bir PDF belgesinden metin nasıl çıkarılır.
public class App {

	public static void main(String[] args) {
		
		// Ayrıştırma API'sinin bir örneğini oluşturun
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// ayarları hazırlayın
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");
			TextOptions options = new TextOptions();
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);

			// Çıktı dosyası yolunu al
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Çıktıyı aşağıdaki resimde görebilirsiniz:

Java PDF Belgesinden Metin Çıkarın

Java’daki PDF Belgesinden Metin Çıkarın

Belirli Metni Java’da Sayfa Numarası Aralığına Göre Çıkarın

Bu bölüm, Java’da programlı olarak bir PDF dosyasından belirli bir metni ayıklamak için adım adım talimatlar ve örnek bir kod parçacığı sağlar:

  • Öncelikle, gerekli sınıfları Java dosyanıza aktarın.
  • İkinci olarak, ParseApi sınıfının bir örneğini oluşturun.
  • Üçüncü olarak, FileInfo sınıfının bir örneğini oluşturun.
  • Ardından, PDF dosyasının yolunu giriş olarak ayarlayın.
  • Ardından, TextOptions() sınıfının bir örneğini oluşturun.
  • Şimdi setStartPageNumber ve setCountPagesToExtract değerlerini sağlayın.
  • Ardından, fileInfo’yu setFileInfo yöntemine atayın.
  • Şimdi, TextRequest() sınıfının bir örneğini oluşturun ve TextOptions parametresini iletin.
  • Son olarak, ParseApi.text() yöntemini çağırarak ve TextRequest parametresini ileterek sonuçları alın.

Aşağıdaki kod örneği, REST API kullanılarak Java’da sayfa aralığı numarasına göre PDF dosyasından belirli bir metnin nasıl çıkarılacağını gösterir:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;

// Java'da sayfa aralığı numarasına göre bir PDF dosyasından metin nasıl çıkarılır?
public class App {

	public static void main(String[] args) {
		
		// Ayrıştırma API'sinin bir örneğini oluşturun
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// ayarları hazırlayın
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");
			TextOptions options = new TextOptions();
			options.setStartPageNumber(1);
			options.setCountPagesToExtract(1);
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);
				
			// Çıktı dosyası yolunu al
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Ücretsiz Çevrimiçi Belge Ayrıştırıcı

PDF’den çevrimiçi olarak ücretsiz olarak metin çıkarmanın en iyi yolu nedir? PDF’den metin çıkarmak için lütfen bir çevrimiçi PDF belge ayrıştırıcı yazılımı deneyin. Bu PDF Ayrıştırıcı aracı, yukarıda belirtilen Java ayrıştırıcı kitaplığı kullanılarak geliştirilmiştir.

Çözüm

Sonuç olarak, GroupDocs.Parser Cloud SDK for Java, Java geliştiricileri için metin, meta veri ve görüntüleri verimli bir şekilde ayıklamanıza izin veren değerli bir araçtır. Bu makaleden öğrendikleriniz şunlardır:

  • Java’da REST API kullanılarak PDF dosyalarından tüm metinlerin nasıl çıkarılacağı;
  • Java kullanarak programlı olarak bir PDF dosyasını buluta yükleyin;
  • REST API kullanılarak Java’da PDF’den içerik nasıl çıkarılır;
  • ve PDF belgelerini ayrıştırmak için çevrimiçi PDF metin çıkarma aracı.

Ayrıca, belgeleri kullanarak GroupDocs.Parser Cloud API hakkında daha fazla bilgi edinebilirsiniz. Ayrıca, API’lerimizi doğrudan tarayıcı aracılığıyla görselleştirmenize ve bunlarla etkileşimde bulunmanıza olanak tanıyan bir API Referansı bölümü de sağlıyoruz. Java SDK’nın eksiksiz kaynak kodu Github üzerinde ücretsiz olarak mevcuttur.

Son olarak, farklı dosya formatlarında yeni blog yazıları yazmaya ve REST API kullanarak ayrıştırmaya devam ediyoruz. Bu nedenle, en son güncellemeler için lütfen iletişime geçin.

Bir soru sor

PDF dosyalarından nasıl metin çıkarılacağı konusunda herhangi bir sorunuz veya kafa karışıklığınız olması durumunda, lütfen [forumumuz] aracılığıyla bizimle iletişime geçmekten çekinmeyin]26.

SSS

Java kullanarak bir PDF dosyasındaki tüm metni nasıl ayıklayabilirim?

Java uygulamalarınızda GroupDocs.Parser Cloud SDK for Java kullanarak bir PDF dosyasındaki tüm metni ayıklayabilirsiniz. Bu güçlü SDK, Java kullanarak PDF dosyalarından metin ayıklamak için verimli ve basit bir yol sağlar.

Java için GroupDocs.Parser Cloud SDK kullanarak parola korumalı PDF dosyalarından metin çıkarabilir miyim?

Evet, SDK parola korumalı PDF dosyalarından metin çıkarmayı destekler. Çıkarma işlemi sırasında parolayı bir seçenek olarak sağlayabilirsiniz.

Bir PDF dosyasındaki belirli sayfalardan metin çıkarmak mümkün mü?

Evet, GroupDocs.Parser Cloud SDK for Java, metni ayıklamak istediğiniz sayfa aralığı numarasını belirtmenize olanak tanır. Bu şekilde, bir PDF belgesinin belirli bölümlerinden kolayca metin çıkarabilirsiniz.

Ayrıca bakınız

Yararlı bulabileceğiniz bazı ilgili makaleler şunlardır: