Bir PDF dosyasından programlı olarak metin ayıklamanız gereken bir durumla hiç karşılaştınız mı? PDF dosyalarından programlı olarak metin çıkarmak, özellikle büyük belgelerle uğraşırken karmaşık bir görev olabilir. Bir Java geliştiricisiyseniz ve güvenilir bir çözüm arıyorsanız, Java için GroupDocs.Parser Cloud SDK, PDF dosyalarından metin ayıklamak için etkili bir yol sağlar. Bu yazıda, Java’da REST API kullanarak PDF dosyasından nasıl metin çıkarılacağını keşfedeceğiz.
Bu yazıda aşağıdaki konular ele alınacaktır:
- PDF Dosyalarından ve SDK Kurulumundan Metin Çıkarmak için Java REST API
- Java’daki PDF Dosyalarından Tüm Metinleri REST API Kullanarak Çıkarma
- Sayfa Numarası Aralığına Göre Java’daki PDF’den Belirli Metni Çıkarın
PDF Dosyalarından Metin Çıkarmak için Java REST API ve SDK Kurulumu
GroupDocs.Parser Cloud SDK for Java kapsamlı PDF ayrıştırma yetenekleri sağlayan güçlü, kullanıcı dostu ve zengin özelliklere sahip bir yazılım geliştirme kitidir. Kapsamlı API seti ile 50’den fazla belge biçimi türünden metin, meta veri, resim ve ayrıştırma verilerini zahmetsizce ayıklayabilirsiniz. Ayrıca Cloud API için belge ayrıştırıcı aile üyeleri olarak C# .NET, Java, PHP, Ruby ve Python SDK’ları sağlar. SDK, geliştirme sürecinizi basitleştirmek ve üretkenliği artırmak için Java tabanlı bir uygulamaya entegre edilebilir.
API’nin JAR dosyasını indirebilir veya projenizin pom.xml dosyasına aşağıdaki depoyu ve bağımlılığı ekleyerek Maven’i kullanarak yükleyebilirsiniz:
Maven Deposu:
<repository>
<id>groupdocs-artifact-repository</id>
<name>GroupDocs Artifact Repository</name>
<url>https://repository.groupdocs.cloud/repo</url>
</repository>
Maven Bağımlılığı:
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser-cloud</artifactId>
<version>23.3</version>
<scope>compile</scope>
</dependency>
Ardından, ücretsiz bir deneme hesabı için kaydolun veya GroupDocs web sitesinde bir abonelik planı satın alın ve API anahtarınızı alın. İstemci Kimliği ve İstemci Sırrı’na sahip olduğunuzda, Java tabanlı bir uygulamaya aşağıdaki kod parçacığını ekleyin:
# Kayıttan sonra client_id ve client_secret'inizi https://dashboard.groupdocs.cloud adresinden alın.
String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);
REST API kullanarak Java’daki PDF Dosyalarından Tüm Metni Çıkarma
GroupDocs.Parser Cloud SDK’yı kullanarak Java’daki PDF dosyalarından metin çıkarmak basit bir işlemdir. Bunu nasıl yapacağınız aşağıda açıklanmıştır:
Dosyayı Yükle
Öncelikle, aşağıda verilen kod örneğini kullanarak PDF belgesini buluta yükleyin:
package com.groupdocsdev.classes;
import java.io.File;
import java.nio.file.Paths;
import com.groupdocs.cloud.Parser.api.*;
import com.groupdocs.cloud.Parser.client.ApiException;
import com.groupdocs.cloud.Parser.model.*;
import com.groupdocs.cloud.Parser.model.requests.*;
// Java kullanarak Bulut Depolamaya dosya yükleyin
public class App {
public static void main(String[] args) {
FileApi apiInstance = new FileApi(configuration);
try {
File fileStream = new File("H:\\groupdocs-cloud-data\\input-sample-file.pdf");
UploadFileRequest request = new UploadFileRequest("java-testing\\input-sample-file.pdf", fileStream, MyStorage);
FilesUploadResult response = apiInstance.uploadFile(request);
System.out.println("Expected response type is FilesUploadResult: " + response.getUploaded().size());
} catch (ApiException e) {
System.err.println("Exception while calling FileApi:");
e.printStackTrace();
}
}
}
Sonuç olarak, yüklenen PDF dosyası, bulut üzerindeki kontrol panelinizin dosyalar bölümünde mevcut olacaktır.
Java’daki PDF Belgesinden Metin Çıkarın
Java için GroupDocs.Parser Cloud SDK kullanarak Java’da programlı olarak PDF dosyalarındaki tüm metni ayıklamak için adımları ve örnek bir kod parçacığını izleyin:
- Öncelikle, gerekli sınıfları Java dosyanıza aktarın.
- İkinci olarak, ParseApi sınıfının bir örneğini oluşturun.
- Üçüncü olarak, FileInfo sınıfının bir örneğini oluşturun.
- Ardından, PDF dosyasının yolunu giriş olarak ayarlayın.
- Ardından, TextOptions() sınıfının bir örneğini oluşturun.
- Ardından, setFileInfo yöntemine fileInfo atayın.
- Şimdi, TextRequest() sınıfının bir örneğini oluşturun ve TextOptions parametresini iletin.
- Son olarak, ParseApi.text() yöntemini çağırarak ve TextRequest parametresini ileterek sonuçları alın.
Aşağıdaki kod örneği, Java’da bir REST API kullanarak bir PDF dosyasındaki tüm metnin nasıl çıkarılacağını gösterir:
package com.groupdocsdev.classes;
import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;
// Java'da bir PDF belgesinden metin nasıl çıkarılır.
public class App {
public static void main(String[] args) {
// Ayrıştırma API'sinin bir örneğini oluşturun
ParseApi apiInstance = new ParseApi(configuration);
try {
// ayarları hazırlayın
FileInfo fileInfo = new FileInfo();
fileInfo.setFilePath("java-testing/input-sample-file.pdf");
TextOptions options = new TextOptions();
options.setFileInfo(fileInfo);
TextRequest request = new TextRequest(options);
TextResult response = apiInstance.text(request);
// Çıktı dosyası yolunu al
System.out.println("Output file path: " + response.getPath());
} catch (ApiException e) {
System.err.println("Exception while calling FileApi:");
e.printStackTrace();
}
}
}
Çıktıyı aşağıdaki resimde görebilirsiniz:
Belirli Metni Java’da Sayfa Numarası Aralığına Göre Çıkarın
Bu bölüm, Java’da programlı olarak bir PDF dosyasından belirli bir metni ayıklamak için adım adım talimatlar ve örnek bir kod parçacığı sağlar:
- Öncelikle, gerekli sınıfları Java dosyanıza aktarın.
- İkinci olarak, ParseApi sınıfının bir örneğini oluşturun.
- Üçüncü olarak, FileInfo sınıfının bir örneğini oluşturun.
- Ardından, PDF dosyasının yolunu giriş olarak ayarlayın.
- Ardından, TextOptions() sınıfının bir örneğini oluşturun.
- Şimdi setStartPageNumber ve setCountPagesToExtract değerlerini sağlayın.
- Ardından, fileInfo’yu setFileInfo yöntemine atayın.
- Şimdi, TextRequest() sınıfının bir örneğini oluşturun ve TextOptions parametresini iletin.
- Son olarak, ParseApi.text() yöntemini çağırarak ve TextRequest parametresini ileterek sonuçları alın.
Aşağıdaki kod örneği, REST API kullanılarak Java’da sayfa aralığı numarasına göre PDF dosyasından belirli bir metnin nasıl çıkarılacağını gösterir:
package com.groupdocsdev.classes;
import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;
// Java'da sayfa aralığı numarasına göre bir PDF dosyasından metin nasıl çıkarılır?
public class App {
public static void main(String[] args) {
// Ayrıştırma API'sinin bir örneğini oluşturun
ParseApi apiInstance = new ParseApi(configuration);
try {
// ayarları hazırlayın
FileInfo fileInfo = new FileInfo();
fileInfo.setFilePath("java-testing/input-sample-file.pdf");
TextOptions options = new TextOptions();
options.setStartPageNumber(1);
options.setCountPagesToExtract(1);
options.setFileInfo(fileInfo);
TextRequest request = new TextRequest(options);
TextResult response = apiInstance.text(request);
// Çıktı dosyası yolunu al
System.out.println("Output file path: " + response.getPath());
} catch (ApiException e) {
System.err.println("Exception while calling FileApi:");
e.printStackTrace();
}
}
}
Ücretsiz Çevrimiçi Belge Ayrıştırıcı
PDF’den çevrimiçi olarak ücretsiz olarak metin çıkarmanın en iyi yolu nedir? PDF’den metin çıkarmak için lütfen bir çevrimiçi PDF belge ayrıştırıcı yazılımı deneyin. Bu PDF Ayrıştırıcı aracı, yukarıda belirtilen Java ayrıştırıcı kitaplığı kullanılarak geliştirilmiştir.
Çözüm
Sonuç olarak, GroupDocs.Parser Cloud SDK for Java, Java geliştiricileri için metin, meta veri ve görüntüleri verimli bir şekilde ayıklamanıza izin veren değerli bir araçtır. Bu makaleden öğrendikleriniz şunlardır:
- Java’da REST API kullanılarak PDF dosyalarından tüm metinlerin nasıl çıkarılacağı;
- Java kullanarak programlı olarak bir PDF dosyasını buluta yükleyin;
- REST API kullanılarak Java’da PDF’den içerik nasıl çıkarılır;
- ve PDF belgelerini ayrıştırmak için çevrimiçi PDF metin çıkarma aracı.
Ayrıca, belgeleri kullanarak GroupDocs.Parser Cloud API hakkında daha fazla bilgi edinebilirsiniz. Ayrıca, API’lerimizi doğrudan tarayıcı aracılığıyla görselleştirmenize ve bunlarla etkileşimde bulunmanıza olanak tanıyan bir API Referansı bölümü de sağlıyoruz. Java SDK’nın eksiksiz kaynak kodu Github üzerinde ücretsiz olarak mevcuttur.
Son olarak, farklı dosya formatlarında yeni blog yazıları yazmaya ve REST API kullanarak ayrıştırmaya devam ediyoruz. Bu nedenle, en son güncellemeler için lütfen iletişime geçin.
Bir soru sor
PDF dosyalarından nasıl metin çıkarılacağı konusunda herhangi bir sorunuz veya kafa karışıklığınız olması durumunda, lütfen [forumumuz] aracılığıyla bizimle iletişime geçmekten çekinmeyin]26.
SSS
Java kullanarak bir PDF dosyasındaki tüm metni nasıl ayıklayabilirim?
Java uygulamalarınızda GroupDocs.Parser Cloud SDK for Java kullanarak bir PDF dosyasındaki tüm metni ayıklayabilirsiniz. Bu güçlü SDK, Java kullanarak PDF dosyalarından metin ayıklamak için verimli ve basit bir yol sağlar.
Java için GroupDocs.Parser Cloud SDK kullanarak parola korumalı PDF dosyalarından metin çıkarabilir miyim?
Evet, SDK parola korumalı PDF dosyalarından metin çıkarmayı destekler. Çıkarma işlemi sırasında parolayı bir seçenek olarak sağlayabilirsiniz.
Bir PDF dosyasındaki belirli sayfalardan metin çıkarmak mümkün mü?
Evet, GroupDocs.Parser Cloud SDK for Java, metni ayıklamak istediğiniz sayfa aralığı numarasını belirtmenize olanak tanır. Bu şekilde, bir PDF belgesinin belirli bölümlerinden kolayca metin çıkarabilirsiniz.
Ayrıca bakınız
Yararlı bulabileceğiniz bazı ilgili makaleler şunlardır:
- Node.js kullanarak PDF Dosyalarından Görüntüleri Çıkarın
- Node.js’de REST API kullanarak PDF’den Veri Çıkarma
- Python’da REST API kullanarak Word Belgelerini Ayrıştırma
- Python kullanarak PDF’den Belirli Verileri Çıkarın
- Python kullanarak PDF Belgelerinden Görüntüleri Çıkarın
- Python kullanarak PDF’den Metin Çıkarma