Document Parsing – Ekstrak Teks dari File PDF di Java

Apakah Anda pernah mengalami situasi di mana Anda perlu mengekstrak teks dari file PDF secara programatis? Mengekstrak teks dari file PDF secara programatis bisa menjadi tugas yang kompleks, terutama saat menangani dokumen besar. Jika Anda seorang pengembang Java dan mencari solusi yang andal, GroupDocs.Parser Cloud SDK untuk Java menyediakan cara yang efisien untuk mengekstrak teks dari file PDF. Dalam artikel ini, kita akan menjelajahi cara mengekstrak teks dari file PDF di Java menggunakan REST API.

Topik-topik berikut akan dibahas dalam artikel ini:

Java REST API untuk Mengekstrak Teks dari Berkas PDF dan Instalasi SDK

GroupDocs.Parser Cloud SDK for Java adalah kit pengembangan perangkat lunak yang kuat, ramah pengguna, dan kaya fitur yang menyediakan kemampuan penguraian PDF yang komprehensif. Dengan kumpulan API yang komprehensif, Anda dapat dengan mudah mengekstrak teks, metadata, gambar, dan menguraikan data dari lebih dari 50 jenis format dokumen. Ini juga menyediakan SDK C# .NET, Java, PHP, Ruby, dan Python sebagai anggota keluarga pengurai dokumen untuk Cloud API. SDK dapat diintegrasikan ke dalam aplikasi berbasis Java untuk menyederhanakan proses pengembangan Anda dan meningkatkan produktivitas.

Anda dapat download file JAR API atau menginstalnya menggunakan Maven dengan menambahkan repositori dan dependensi berikut ke dalam file pom.xml proyek Anda:

Maven Repository:

<repository>
    <id>groupdocs-artifact-repository</id>
    <name>GroupDocs Artifact Repository</name>
    <url>https://repository.groupdocs.cloud/repo</url>
</repository>

Ketergantungan Maven:

<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser-cloud</artifactId>
    <version>23.3</version>
    <scope>compile</scope>
</dependency>

Selanjutnya, sign up untuk akun percobaan gratis atau purchase a subscription plan di situs web GroupDocs dan get your API key. Setelah Anda memiliki Client Id dan Client Secret, tambahkan potongan kode di bawah ini ke aplikasi berbasis Java:

# Dapatkan clientid dan clientsecret Anda dari https://dashboard.groupdocs.cloud setelah pendaftaran.

String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);

Cara Mengekstrak Semua Teks dari File PDF di Java menggunakan REST API

Mengambil teks dari file PDF di Java menggunakan GroupDocs.Parser Cloud SDK adalah proses yang sederhana. Berikut adalah cara melakukannya:

Unggah File

Pertama, unggah dokumen PDF ke cloud menggunakan contoh kode yang diberikan di bawah ini:

package com.groupdocsdev.classes;

import java.io.File;
import java.nio.file.Paths;

import com.groupdocs.cloud.Parser.api.*;
import com.groupdocs.cloud.Parser.client.ApiException;
import com.groupdocs.cloud.Parser.model.*;
import com.groupdocs.cloud.Parser.model.requests.*;

// Unggah file ke Cloud Storage menggunakan Java
public class App {

	public static void main(String[] args) {

		FileApi apiInstance = new FileApi(configuration);
		try {
			File fileStream = new File("H:\\groupdocs-cloud-data\\input-sample-file.pdf");
			UploadFileRequest request = new UploadFileRequest("java-testing\\input-sample-file.pdf", fileStream, MyStorage);
			FilesUploadResult response = apiInstance.uploadFile(request);
			System.out.println("Expected response type is FilesUploadResult: " + response.getUploaded().size());
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
	}
}

Akibatnya, file PDF yang diunggah akan tersedia di [files section][https://dashboard.groupdocs.cloud/files] dasbor Anda di cloud.

Extract Text from PDF Document in Java

Ikuti langkah-langkah dan contoh cuplikan kode untuk mengekstrak semua teks dari file PDF secara programatis di Java menggunakan GroupDocs.Parser Cloud SDK untuk Java:

  • Pertama, impor kelas yang diperlukan ke dalam file Java Anda.
  • Kedua, buat sebuah instansi dari kelas ParseApi.
  • Ketiga, buatlah sebuah instance dari kelas FileInfo.
  • Selanjutnya, atur jalur ke file PDF sebagai input.
  • Kemudian, buatlah sebuah instance dari kelas TextOptions().
  • Selanjutnya, tetapkan fileInfo ke metode setFileInfo.
  • Sekarang, buatlah sebuah instance dari kelas TextRequest() dan berikan parameter TextOptions.
  • Akhirnya, dapatkan hasil dengan memanggil metode ParseApi.text() dan melewatkan parameter TextRequest.

Kode sampel berikut menunjukkan cara mengekstrak semua teks dari file PDF menggunakan REST API dalam Java:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;

// Bagaimana cara mengekstrak teks dari dokumen PDF di Java.
public class App {

	public static void main(String[] args) {
		
		// Buat sebuah instansi dari Parse API
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Siapkan pengaturan
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");
			TextOptions options = new TextOptions();
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);

			// Dapatkan jalur file output
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Anda dapat melihat outputnya dalam gambar di bawah ini:

Java Ekstrak Teks dari Dokumen PDF

Ekstrak Teks dari Dokumen PDF di Java

Extract Specific Text from PDF in Java by Page Number Range

Bagian ini menyediakan petunjuk langkah demi langkah dan sebuah cuplikan kode contoh untuk mengekstrak teks tertentu dari file PDF secara programatis menggunakan Java:

  • Pertama, impor kelas yang diperlukan ke dalam file Java Anda.
  • Kedua, buatlah sebuah instance dari kelas ParseApi.
  • Ketiga, buatlah sebuah instance dari kelas FileInfo.
  • Selanjutnya, atur jalur ke file PDF sebagai input.
  • Kemudian, buatlah sebuah instance dari kelas TextOptions().
  • Sekarang, berikan nilai setStartPageNumber dan setCountPagesToExtract.
  • Kemudian, tetapkan fileInfo ke metode setFileInfo.
  • Sekarang, buatlah sebuah instance dari kelas TextRequest() dan berikan parameter TextOptions.
  • Akhirnya, dapatkan hasilnya dengan memanggil metode ParseApi.text() dan mengoper parameter TextRequest.

Kode contoh berikut menunjukkan cara mengekstrak teks spesifik dari file PDF berdasarkan nomor rentang halaman dalam Java menggunakan REST API:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;

// How to extract text from a PDF file by page range number in Java.
public class App {

	public static void main(String[] args) {
		
		// Buat instance dari Parse API
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Siapkan pengaturannya
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");
			TextOptions options = new TextOptions();
			options.setStartPageNumber(1);
			options.setCountPagesToExtract(1);
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);
				
			// Dapatkan jalur file keluaran
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Parser Dokumen Daring Gratis

Apa cara terbaik untuk mengekstrak teks dari PDF secara daring secara gratis? Silakan coba online PDF document parser software untuk mengekstrak teks dari PDF. Alat PDF Parser ini dikembangkan menggunakan pustaka parser Java yang disebutkan di atas.

Kesimpulan

Sebagai kesimpulan, GroupDocs.Parser Cloud SDK untuk Java adalah alat yang berharga bagi pengembang Java yang memungkinkan Anda untuk mengekstrak teks, metadata, dan gambar dengan efisien. Berikut adalah apa yang telah Anda pelajari dari artikel ini:

  • How to extract all text from PDF files using REST API in Java.
  • Programmatically upload a PDF file to the cloud using Java.
  • How to extract content from PDF in Java using REST API.
  • Alat ekstraksi teks PDF online untuk mem-parsing dokumen PDF.

Selain itu, Anda dapat mempelajari lebih lanjut tentang GroupDocs.Parser Cloud API menggunakan documentation. Kami juga menyediakan bagian API Reference yang memungkinkan Anda untuk memvisualisasikan dan berinteraksi dengan API kami langsung melalui browser. Kode sumber lengkap dari Java SDK tersedia secara gratis di Github.

Akhirnya, kami terus menulis artikel blog baru tentang berbagai format file dan pemrosesan menggunakan REST API. Jadi, silakan hubungi kami untuk pembaruan terkini.

Ask a question

Jika Anda memiliki pertanyaan atau kebingungan tentang cara mengekstrak teks dari file PDF, silakan hubungi kami melalui forum.

FAQs

How do I extract all text from a PDF file using Java?

Anda dapat mengekstrak semua teks dari file PDF menggunakan GroupDocs.Parser Cloud SDK for Java dalam aplikasi Java Anda. SDK yang kuat ini menyediakan cara yang efisien dan sederhana untuk mengekstrak teks dari file PDF menggunakan Java.

Can I extract text from password-protected PDF files using GroupDocs.Parser Cloud SDK for Java?

Ya, SDK mendukung ekstraksi teks dari file PDF yang dilindungi kata sandi. Anda dapat memberikan kata sandi sebagai opsi selama proses ekstraksi.

Apakah mungkin untuk mengekstrak teks dari halaman tertentu dalam file PDF?

Ya, GroupDocs.Parser Cloud SDK for Java memungkinkan Anda untuk menentukan nomor rentang halaman dari mana Anda ingin mengekstrak teks. Dengan cara ini, Anda dapat dengan mudah mengekstrak teks dari bagian tertentu dokumen PDF.

Lihat Juga

Berikut adalah beberapa artikel terkait yang mungkin Anda anggap berguna: