การสกัดข้อความจากไฟล์ PDF ใน Java

การวิเคราะห์เอกสาร – ดึงข้อความจากไฟล์ PDF ใน Java

คุณเคยพบเจอสถานการณ์ที่คุณต้องการดึงข้อความจากไฟล์ PDF อย่างเป็นโปรแกรมใช่ไหม? การดึงข้อความจากไฟล์ PDF โดยโปรแกรมสามารถเป็นงานที่ซับซ้อน โดยเฉพาะเมื่อทำงานกับเอกสารขนาดใหญ่ หากคุณเป็นนักพัฒนา Java และกำลังมองหาวิธีแก้ปัญหาที่เชื่อถือได้ GroupDocs.Parser Cloud SDK สำหรับ Java ให้วิธีการที่มีประสิทธิภาพในการดึงข้อความจากไฟล์ PDF ในบทความนี้ เราจะสำรวจวิธีการดึงข้อความจากไฟล์ PDF ใน Java โดยใช้ REST API.

บทความนี้จะครอบคลุมหัวข้อต่อไปนี้:

Java REST API to Extract Text from PDF Files and SDK Installation
วิธีการดึงข้อมูลทั้งหมดจากไฟล์ PDF ใน Java โดยใช้ REST API
Extract Specific Text from PDF in Java by Page Number Range

Java REST API to Extract Text from PDF Files and SDK Installation

GroupDocs.Parser Cloud SDK for Java เป็นชุดพัฒนาซอฟต์แวร์ที่ทรงพลัง ใช้งานง่าย และเต็มไปด้วยฟีเจอร์ ซึ่งให้ความสามารถในการ解析 PDF อย่างครบถ้วน ด้วยชุด API ที่ครอบคลุม คุณสามารถดึงข้อมูลข้อความ เมตาดาต้า รูปภาพ และ解析ข้อมูลจากรูปแบบเอกสารมากกว่า 50 ประเภท document formats นอกจากนี้ยังมี C# .NET, Java, PHP, Ruby และ Python SDKs เป็น document parser family members สำหรับ Cloud API SDK สามารถถูกบูรณาการเข้ากับแอปพลิเคชันที่ใช้ Java เพื่อทำให้กระบวนการพัฒนาของคุณง่ายขึ้นและเพิ่มผลผลิต

คุณสามารถ download ไฟล์ JAR ของ API หรือทำการติดตั้งโดยใช้ Maven โดยการเพิ่มแหล่งเก็บข้อมูลและการพึ่งพาเหล่านี้ลงในไฟล์ pom.xml ของโปรเจกต์ของคุณ:

Maven Repository:

<repository>
    <id>groupdocs-artifact-repository</id>
    <name>GroupDocs Artifact Repository</name>
    <url>https://repository.groupdocs.cloud/repo</url>
</repository>

Maven Dependency:

<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser-cloud</artifactId>
    <version>23.3</version>
    <scope>compile</scope>
</dependency>

ถัดไป, sign up สำหรับบัญชีทดลองใช้งานฟรีหรือ purchase a subscription plan บนเว็บไซต์ GroupDocs และ get your API key. เมื่อคุณมี Client Id และ Client Secret แล้ว ให้เพิ่มโค้ดส่วนนี้ไปยังแอปพลิเคชันที่ใช้ Java:

# รับ clientid และ clientsecret จาก https://dashboard.groupdocs.cloud หลังจากลงทะเบียนเรียบร้อยแล้ว

String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);

วิธีการดึงข้อความทั้งหมดจากไฟล์ PDF ใน Java โดยใช้ REST API

การดึงข้อความจากไฟล์ PDF ใน Java โดยใช้ GroupDocs.Parser Cloud SDK เป็นกระบวนการที่ตรงไปตรงมา นี่คือวิธีการ:

อัปโหลด ไฟล์ PDF ไปยังคลาวด์.
Extract ข้อความจาก PDF โดยใช้ Java.

อัปโหลดไฟล์

Firstly, upload the PDF document to the cloud using the code example given below:

package com.groupdocsdev.classes;

import java.io.File;
import java.nio.file.Paths;

import com.groupdocs.cloud.Parser.api.*;
import com.groupdocs.cloud.Parser.client.ApiException;
import com.groupdocs.cloud.Parser.model.*;
import com.groupdocs.cloud.Parser.model.requests.*;

// อัปโหลดไฟล์ไปยัง Cloud Storage โดยใช้ Java
public class App {

	public static void main(String[] args) {

		FileApi apiInstance = new FileApi(configuration);
		try {
			File fileStream = new File("H:\\groupdocs-cloud-data\\input-sample-file.pdf");
			UploadFileRequest request = new UploadFileRequest("java-testing\\input-sample-file.pdf", fileStream, MyStorage);
			FilesUploadResult response = apiInstance.uploadFile(request);
			System.out.println("Expected response type is FilesUploadResult: " + response.getUploaded().size());
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
	}
}

ดังนั้น ไฟล์ PDF ที่อัปโหลดจะมีให้ใน [files section][https://dashboard.groupdocs.cloud/files] ของแดชบอร์ดของคุณบนคลาวด์।

Extract Text from PDF Document in Java

ปฏิบัติตามขั้นตอนและโค้ดตัวอย่างเพื่อดึงข้อความทั้งหมดจากไฟล์ PDF โดยอัตโนมัติในภาษา Java โดยใช้ GroupDocs.Parser Cloud SDK สำหรับ Java:

ก่อนอื่น ให้นำเข้า คลาส ที่จำเป็นลงในไฟล์ Java ของคุณ
ประการที่สอง สร้างอินสแตนซ์ของคลาส ParseApi。
ประการที่สาม สร้างอินสแตนซ์ของคลาส FileInfo
ถัดไป ให้ตั้งเส้นทางไปยังไฟล์ PDF เป็นข้อมูลนำเข้า
จากนั้น สร้างตัวอย่างของคลาส TextOptions()
ถัดไป ให้นำ fileInfo ไปกำหนดให้กับวิธี setFileInfo.
ตอนนี้ สร้างตัวอย่างของคลาส TextRequest() และส่งพารามิเตอร์ TextOptions.
สุดท้าย ให้รับผลลัพธ์โดยการเรียกใช้ ParseApi.text() เมธอดและส่งพารามิเตอร์ TextRequest

ตัวอย่างโค้ดด้านล่างแสดงวิธีการดึงข้อความทั้งหมดจากไฟล์ PDF โดยใช้ REST API ใน Java:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;

// วิธีการสกัดข้อความจากเอกสาร PDF ใน Java
public class App {

	public static void main(String[] args) {
		
		// สร้างตัวอย่างของ Parse API
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// เตรียมการตั้งค่า
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");
			TextOptions options = new TextOptions();
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);

			// Get output file path
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

คุณสามารถดูผลลัพธ์ในภาพด้านล่าง:

Java ดึงข้อความจากเอกสาร PDF — ดึงข้อความจากเอกสาร PDF ใน Java

Extract Specific Text from PDF in Java by Page Number Range

ส่วนนี้ให้คำแนะนำทีละขั้นตอนและตัวอย่างโค้ดสำหรับการดึงข้อความเฉพาะจากไฟล์ PDF โดยใช้โปรแกรมใน Java:

ก่อนอื่น ให้นำเข้า คลาส ที่จำเป็นลงในไฟล์ Java ของคุณ
ประการที่สอง ให้สร้างตัวอย่างของคลาส ParseApi 。
ประการที่สาม สร้างอินสแตนซ์ของคลาส FileInfo.
ถัดไป ให้ตั้งเส้นทางไปยังไฟล์ PDF เป็นข้อมูลนำเข้า
จากนั้น สร้างตัวอย่างของคลาส TextOptions()
ตอนนี้ ให้ระบุค่า setStartPageNumber และ setCountPagesToExtract.
แล้วกำหนด fileInfo ให้กับวิธี setFileInfo。
ตอนนี้ สร้างตัวอย่างของคลาส TextRequest() และส่งพารามิเตอร์ TextOptions.
สุดท้าย ให้รับผลลัพธ์โดยการเรียกใช้เมธอด ParseApi.text() พร้อมทั้งส่งพารามิเตอร์ TextRequest

ตัวอย่างโค้ดด้านล่างแสดงวิธีการดึงข้อมูลเฉพาะจากไฟล์ PDF ตามหมายเลขช่วงหน้าใน Java โดยใช้ REST API:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;

// วิธีการดึงข้อความจากไฟล์ PDF โดยระบุช่วงหมายเลขหน้าใน Java
public class App {

	public static void main(String[] args) {
		
		// สร้างอินสแตนซ์ของ Parse API
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// เตรียมการตั้งค่า
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");
			TextOptions options = new TextOptions();
			options.setStartPageNumber(1);
			options.setCountPagesToExtract(1);
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);
				
			// รับเส้นทางไฟล์ผลลัพธ์
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

ฟรี โปรแกรมแปลงเอกสารออนไลน์

วิธีที่ดีที่สุดในการดึงข้อความจาก PDF ออนไลน์ฟรีคืออะไร? กรุณาลอง online PDF document parser software เพื่อตัดข้อความออกจาก PDF เครื่องมือ PDF Parser นี้พัฒนาขึ้นโดยใช้ไลบรารีตัว解析 Java ที่กล่าวถึงข้างต้น

สรุป

สรุปได้ว่า GroupDocs.Parser Cloud SDK สำหรับ Java เป็นเครื่องมือที่มีค่า สำหรับนักพัฒนา Java ที่ช่วยให้คุณสามารถดึงข้อความ เมตาดาต้า และภาพได้อย่างมีประสิทธิภาพ ต่อไปนี้คือสิ่งที่คุณได้เรียนรู้จากบทความนี้:

วิธีการดึงข้อความทั้งหมดจากไฟล์ PDF โดยใช้ REST API ใน Java.
โปรแกรมเพื่ออัปโหลดไฟล์ PDF ไปยังคลาวด์โดยใช้ Java.
How to extract content from PDF in Java using REST API.
เครื่องมือการดึงข้อความ PDF ออนไลน์เพื่อวิเคราะห์เอกสาร PDF。

นอกจากนี้ คุณสามารถเรียนรู้เพิ่มเติมเกี่ยวกับ GroupDocs.Parser Cloud API โดยใช้ documentation เรายังมีส่วน API Reference ที่ช่วยให้คุณสามารถมองเห็นและโต้ตอบกับ APIs ของเราได้โดยตรงผ่านเบราว์เซอร์ ซอร์สโค้ดทั้งหมดของ Java SDK พร้อมให้บริการฟรีบน Github

Finally, we keep writing new blog articles on different file formats and parsing using REST API. So, please get in touch for the latest updates.

Ask a question

ในกรณีที่คุณมีคำถามหรือความสับสนเกี่ยวกับวิธีการแยกเนื้อหาจากไฟล์ PDF กรุณาอย่าลังเลที่จะติดต่อเราได้ที่ forum.

FAQs

How do I extract all text from a PDF file using Java?

คุณสามารถดึงข้อความทั้งหมดจากไฟล์ PDF โดยใช้ GroupDocs.Parser Cloud SDK for Java ในแอปพลิเคชัน Java ของคุณ SDK ที่ทรงพลังนี้มีวิธีการที่มีประสิทธิภาพและตรงไปตรงมาในการดึงข้อความจากไฟล์ PDF โดยใช้ Java

Can I extract text from password-protected PDF files using GroupDocs.Parser Cloud SDK for Java?

ใช่, SDK รองรับการดึงข้อความจากไฟล์ PDF ที่มีรหัสผ่านป้องกัน คุณสามารถระบุรหัสผ่านเป็นตัวเลือกในระหว่างกระบวนการดึงข้อความได้

สามารถดึงข้อความจากหน้าที่เฉพาะภายในไฟล์ PDF ได้หรือไม่?

ใช่, GroupDocs.Parser Cloud SDK for Java ช่วยให้คุณระบุหมายเลขช่วงหน้าที่คุณต้องการดึงข้อความได้ โดยวิธีนี้คุณสามารถดึงข้อความจากส่วนเฉพาะของเอกสาร PDF ได้อย่างง่ายดาย.

ดูเพิ่มเติม

นี่คือบทความที่เกี่ยวข้องบางส่วนที่คุณอาจพบว่าเป็นประโยชน์:

Java REST API to Extract Text from PDF Files and SDK Installation#

วิธีการดึงข้อความทั้งหมดจากไฟล์ PDF ใน Java โดยใช้ REST API#

อัปโหลดไฟล์#

Extract Text from PDF Document in Java#

Extract Specific Text from PDF in Java by Page Number Range#

ฟรี โปรแกรมแปลงเอกสารออนไลน์#

สรุป#

Ask a question#

FAQs#

ดูเพิ่มเติม#