Parsing Dokumen – Ekstrak Teks dari File PDF di Java

Pernahkah Anda mengalami situasi di mana Anda perlu mengekstrak teks dari file PDF secara terprogram? Mengekstrak teks dari file PDF secara terprogram bisa menjadi tugas yang rumit, terutama saat menangani dokumen berukuran besar. Jika Anda seorang pengembang Java dan mencari solusi yang andal, SDK Cloud GroupDocs.Parser untuk Java menyediakan cara yang efisien untuk mengekstrak teks dari file PDF. Pada artikel ini, kita akan mengeksplorasi cara mengekstrak teks dari file PDF di Java menggunakan REST API.

Topik-topik berikut akan dibahas dalam artikel ini:

Java REST API untuk Mengekstrak Teks dari File PDF dan Instalasi SDK

GroupDocs.Parser Cloud SDK for Java adalah kit pengembangan perangkat lunak yang kuat, mudah digunakan, dan kaya fitur yang menyediakan kemampuan penguraian PDF yang komprehensif. Dengan kumpulan API yang lengkap, Anda dapat dengan mudah mengekstrak teks, metadata, gambar, dan mengurai data dari lebih dari 50 jenis format dokumen. Ini juga menyediakan C# .NET, Java, PHP, Ruby, dan Python SDK sebagai anggota keluarga parser dokumen untuk Cloud API. SDK dapat diintegrasikan ke dalam aplikasi berbasis Java untuk menyederhanakan proses pengembangan Anda dan meningkatkan produktivitas.

Anda dapat mengunduh file JAR API atau menginstalnya menggunakan Maven dengan menambahkan repositori dan dependensi berikut ke dalam file pom.xml proyek Anda:

Repositori Maven:

<repository>
    <id>groupdocs-artifact-repository</id>
    <name>GroupDocs Artifact Repository</name>
    <url>https://repository.groupdocs.cloud/repo</url>
</repository>

Ketergantungan Maven:

<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser-cloud</artifactId>
    <version>23.3</version>
    <scope>compile</scope>
</dependency>

Selanjutnya, daftar untuk mendapatkan akun uji coba gratis atau beli paket langganan di situs web GroupDocs dan dapatkan kunci API Anda. Setelah Anda memiliki Client Id dan Client Secret, tambahkan potongan kode di bawah ini ke aplikasi berbasis Java:

# Dapatkan client_id dan client_secret Anda dari https://dashboard.groupdocs.cloud setelah pendaftaran.

String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);

Cara Mengekstrak Semua Teks dari File PDF di Java menggunakan REST API

Mengekstrak teks dari file PDF di Java menggunakan GroupDocs.Parser Cloud SDK adalah proses yang mudah. Inilah cara melakukannya:

Unggah File

Pertama, unggah dokumen PDF ke cloud menggunakan contoh kode di bawah ini:

package com.groupdocsdev.classes;

import java.io.File;
import java.nio.file.Paths;

import com.groupdocs.cloud.Parser.api.*;
import com.groupdocs.cloud.Parser.client.ApiException;
import com.groupdocs.cloud.Parser.model.*;
import com.groupdocs.cloud.Parser.model.requests.*;

// Unggah file ke Cloud Storage menggunakan Java
public class App {

	public static void main(String[] args) {

		FileApi apiInstance = new FileApi(configuration);
		try {
			File fileStream = new File("H:\\groupdocs-cloud-data\\input-sample-file.pdf");
			UploadFileRequest request = new UploadFileRequest("java-testing\\input-sample-file.pdf", fileStream, MyStorage);
			FilesUploadResult response = apiInstance.uploadFile(request);
			System.out.println("Expected response type is FilesUploadResult: " + response.getUploaded().size());
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
	}
}

Hasilnya, file PDF yang diunggah akan tersedia di bagian file dasbor Anda di cloud.

Ekstrak Teks dari Dokumen PDF di Java

Ikuti langkah-langkah dan cuplikan kode contoh untuk mengekstrak semua teks dari file PDF secara terprogram di Java menggunakan GroupDocs.Parser Cloud SDK for Java:

  • Pertama, impor kelas yang diperlukan ke file Java Anda.
  • Kedua, buat instance dari kelas ParseApi.
  • Ketiga, buat instance dari kelas FileInfo.
  • Selanjutnya, atur path ke file PDF sebagai input.
  • Kemudian, buat instance dari kelas TextOptions().
  • Selanjutnya, tetapkan fileInfo ke metode setFileInfo.
  • Sekarang, buat instance kelas TextRequest() dan berikan parameter TextOptions.
  • Terakhir, dapatkan hasil dengan memanggil metode ParseApi.text() dan meneruskan parameter TextRequest.

Contoh kode berikut menunjukkan cara mengekstrak semua teks dari file PDF menggunakan REST API di Java:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;

// Cara mengekstrak teks dari dokumen PDF di Java.
public class App {

	public static void main(String[] args) {
		
		// Buat instance Parse API
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Siapkan pengaturan
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");
			TextOptions options = new TextOptions();
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);

			// Dapatkan jalur file keluaran
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Anda dapat melihat output pada gambar di bawah ini:

Java Ekstrak Teks dari Dokumen PDF

Ekstrak Teks dari Dokumen PDF di Java

Ekstrak Teks Tertentu dari PDF di Java berdasarkan Rentang Nomor Halaman

Bagian ini memberikan petunjuk langkah demi langkah dan cuplikan kode contoh untuk mengekstraksi teks tertentu dari file PDF secara terprogram di Java:

  • Pertama, impor kelas yang diperlukan ke file Java Anda.
  • Kedua, buat instance dari kelas ParseApi.
  • Ketiga, buat instance dari kelas FileInfo.
  • Selanjutnya, atur path ke file PDF sebagai input.
  • Kemudian, buat instance dari kelas TextOptions().
  • Sekarang, berikan nilai setStartPageNumber dan setCountPagesToExtract.
  • Kemudian, tetapkan fileInfo ke metode setFileInfo.
  • Sekarang, buat instance kelas TextRequest() dan berikan parameter TextOptions.
  • Terakhir, dapatkan hasil dengan memanggil metode ParseApi.text() dan meneruskan parameter TextRequest.

Contoh kode berikut menunjukkan cara mengekstrak teks tertentu dari file PDF berdasarkan nomor rentang halaman di Java menggunakan REST API:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;

// Cara mengekstrak teks dari file PDF dengan nomor rentang halaman di Java.
public class App {

	public static void main(String[] args) {
		
		// Buat instance Parse API
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Siapkan pengaturan
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");
			TextOptions options = new TextOptions();
			options.setStartPageNumber(1);
			options.setCountPagesToExtract(1);
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);
				
			// Dapatkan jalur file keluaran
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Pengurai Dokumen Online Gratis

Apa cara terbaik untuk mengekstrak teks dari PDF online secara gratis? Silakan coba perangkat lunak parser dokumen PDF online untuk mengekstrak teks dari PDF. Alat Parser PDF ini dikembangkan menggunakan pustaka parser Java yang disebutkan di atas.

Kesimpulan

Kesimpulannya, GroupDocs.Parser Cloud SDK untuk Java adalah alat berharga untuk pengembang Java yang memungkinkan Anda mengekstrak teks, metadata, dan gambar secara efisien. Berikut ini adalah apa yang telah Anda pelajari dari artikel ini:

  • cara mengekstrak semua teks dari file PDF menggunakan REST API di Java;
  • unggah file PDF secara terprogram ke cloud menggunakan Java;
  • cara mengekstrak konten dari PDF di Java menggunakan REST API;
  • dan alat ekstraksi teks PDF online untuk mengurai dokumen PDF.

Selain itu, Anda dapat mempelajari lebih lanjut tentang GroupDocs.Parser Cloud API menggunakan dokumentasi. Kami juga menyediakan bagian Referensi API yang memungkinkan Anda memvisualisasikan dan berinteraksi dengan API kami secara langsung melalui browser. Kode sumber lengkap Java SDK tersedia secara gratis di Github.

Terakhir, kami terus menulis artikel blog baru dalam berbagai format file dan mem-parsing menggunakan REST API. Jadi, silakan hubungi untuk pembaruan terbaru.

Berikan pertanyaan

Jika Anda memiliki pertanyaan atau kebingungan tentang cara mengekstrak teks dari file PDF, jangan ragu untuk menghubungi kami melalui forum kami.

FAQ

Bagaimana cara mengekstrak semua teks dari file PDF menggunakan Java?

Anda dapat mengekstrak semua teks dari file PDF menggunakan GroupDocs.Parser Cloud SDK for Java di aplikasi Java Anda. SDK yang kuat ini menyediakan cara yang efisien dan mudah untuk mengekstrak teks dari file PDF menggunakan Java.

Bisakah saya mengekstrak teks dari file PDF yang dilindungi kata sandi menggunakan GroupDocs.Parser Cloud SDK untuk Java?

Ya, SDK mendukung ekstraksi teks dari file PDF yang dilindungi kata sandi. Anda dapat memberikan kata sandi sebagai opsi selama proses ekstraksi.

Apakah mungkin untuk mengekstrak teks dari halaman tertentu dalam file PDF?

Ya, GroupDocs.Parser Cloud SDK for Java memungkinkan Anda menentukan nomor rentang halaman tempat Anda ingin mengekstrak teks. Dengan cara ini, Anda dapat dengan mudah mengekstrak teks dari bagian tertentu dari dokumen PDF.

Lihat juga

Berikut adalah beberapa artikel terkait yang mungkin bermanfaat bagi Anda: