การแยกวิเคราะห์เอกสาร – แยกข้อความจากไฟล์ PDF ใน Java

คุณเคยเจอสถานการณ์ที่ต้องแยกข้อความจากไฟล์ PDF โดยทางโปรแกรมหรือไม่? การแยกข้อความจากไฟล์ PDF โดยทางโปรแกรมอาจเป็นงานที่ซับซ้อน โดยเฉพาะอย่างยิ่งเมื่อต้องจัดการกับเอกสารขนาดใหญ่ หากคุณเป็นนักพัฒนา Java และกำลังมองหาโซลูชันที่เชื่อถือได้ GroupDocs.Parser Cloud SDK สำหรับ Java จะมอบวิธีที่มีประสิทธิภาพในการแยกข้อความจากไฟล์ PDF ในบทความนี้ เราจะศึกษาวิธีแยกข้อความจากไฟล์ PDF ใน Java โดยใช้ REST API

หัวข้อต่อไปนี้จะครอบคลุมในบทความนี้:

Java REST API เพื่อแยกข้อความจากไฟล์ PDF และการติดตั้ง SDK

GroupDocs.Parser Cloud SDK for Java เป็นชุดพัฒนาซอฟต์แวร์ที่ทรงพลัง ใช้งานง่าย และมีคุณลักษณะหลากหลายที่ให้ความสามารถในการแยกวิเคราะห์ PDF ที่ครอบคลุม ด้วยชุด API ที่ครอบคลุม คุณสามารถดึงข้อความ ข้อมูลเมตา รูปภาพ และแยกวิเคราะห์ข้อมูลจาก รูปแบบเอกสาร กว่า 50 ประเภทได้อย่างง่ายดาย นอกจากนี้ยังมี C# .NET, Java, PHP, Ruby และ Python SDK เป็น สมาชิกตระกูลโปรแกรมแยกวิเคราะห์เอกสาร สำหรับ Cloud API สามารถรวม SDK เข้ากับแอปพลิเคชันที่ใช้ Java เพื่อทำให้กระบวนการพัฒนาของคุณง่ายขึ้นและเพิ่มประสิทธิภาพการทำงาน

คุณสามารถ ดาวน์โหลด ไฟล์ JAR ของ API หรือติดตั้งโดยใช้ Maven โดยเพิ่มที่เก็บและการอ้างอิงต่อไปนี้ในไฟล์ pom.xml ของโปรเจ็กต์:

พื้นที่เก็บข้อมูล Maven:

<repository>
    <id>groupdocs-artifact-repository</id>
    <name>GroupDocs Artifact Repository</name>
    <url>https://repository.groupdocs.cloud/repo</url>
</repository>

การพึ่งพา Maven:

<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser-cloud</artifactId>
    <version>23.3</version>
    <scope>compile</scope>
</dependency>

ต่อไป ลงชื่อสมัครใช้ สำหรับบัญชีทดลองใช้ฟรีหรือ ซื้อแผนการสมัครสมาชิก บนเว็บไซต์ GroupDocs และ รับรหัส API ของคุณ เมื่อคุณมี Client Id และ Client Secret แล้ว ให้เพิ่มข้อมูลโค้ดด้านล่างลงในแอปพลิเคชันที่ใช้ Java:

# รับ client_id และ client_secret ของคุณจาก https://dashboard.groupdocs.cloud หลังจากลงทะเบียน

String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);

วิธีแยกข้อความทั้งหมดจากไฟล์ PDF ใน Java โดยใช้ REST API

การแยกข้อความจากไฟล์ PDF ใน Java โดยใช้ GroupDocs.Parser Cloud SDK เป็นกระบวนการที่ไม่ซับซ้อน นี่คือวิธีการ:

อัปโหลดไฟล์

ประการแรก อัปโหลดเอกสาร PDF ไปยังคลาวด์โดยใช้ตัวอย่างโค้ดที่ระบุด้านล่าง:

package com.groupdocsdev.classes;

import java.io.File;
import java.nio.file.Paths;

import com.groupdocs.cloud.Parser.api.*;
import com.groupdocs.cloud.Parser.client.ApiException;
import com.groupdocs.cloud.Parser.model.*;
import com.groupdocs.cloud.Parser.model.requests.*;

// อัปโหลดไฟล์ไปยัง Cloud Storage โดยใช้ Java
public class App {

	public static void main(String[] args) {

		FileApi apiInstance = new FileApi(configuration);
		try {
			File fileStream = new File("H:\\groupdocs-cloud-data\\input-sample-file.pdf");
			UploadFileRequest request = new UploadFileRequest("java-testing\\input-sample-file.pdf", fileStream, MyStorage);
			FilesUploadResult response = apiInstance.uploadFile(request);
			System.out.println("Expected response type is FilesUploadResult: " + response.getUploaded().size());
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
	}
}

ด้วยเหตุนี้ ไฟล์ PDF ที่อัปโหลดจะอยู่ใน ส่วนไฟล์ ของแดชบอร์ดของคุณบนระบบคลาวด์

แยกข้อความจากเอกสาร PDF ใน Java

ทำตามขั้นตอนและข้อมูลโค้ดตัวอย่างเพื่อแยกข้อความทั้งหมดจากไฟล์ PDF โดยทางโปรแกรมใน Java โดยใช้ GroupDocs.Parser Cloud SDK สำหรับ Java:

  • ขั้นแรก นำเข้าคลาสที่จำเป็นลงในไฟล์ Java ของคุณ
  • ประการที่สอง สร้างอินสแตนซ์ของคลาส ParseApi
  • ประการที่สาม สร้างอินสแตนซ์ของคลาส FileInfo
  • ถัดไป กำหนดเส้นทางไปยังไฟล์ PDF เป็นอินพุต
  • จากนั้น สร้างอินสแตนซ์ของคลาส TextOptions()
  • ถัดไป กำหนด fileInfo ให้กับเมธอด setFileInfo
  • ตอนนี้ สร้างอินสแตนซ์ของคลาส TextRequest() และส่งพารามิเตอร์ TextOptions
  • สุดท้าย รับผลลัพธ์โดยเรียกเมธอด ParseApi.text() และส่งพารามิเตอร์ TextRequest

ตัวอย่างโค้ดต่อไปนี้แสดงวิธีแยกข้อความทั้งหมดจากไฟล์ PDF โดยใช้ REST API ใน Java:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;

// วิธีแยกข้อความจากเอกสาร PDF ใน Java
public class App {

	public static void main(String[] args) {
		
		// สร้างอินสแตนซ์ของ Parse API
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// เตรียมการตั้งค่า
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");
			TextOptions options = new TextOptions();
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);

			// รับเส้นทางไฟล์เอาต์พุต
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

คุณสามารถดูผลลัพธ์ในภาพด้านล่าง:

Java แยกข้อความจากเอกสาร PDF

แยกข้อความจากเอกสาร PDF ใน Java

แยกข้อความเฉพาะจาก PDF ใน Java ตามช่วงหมายเลขหน้า

ส่วนนี้ให้คำแนะนำทีละขั้นตอนและตัวอย่างโค้ดสำหรับการแยกข้อความเฉพาะจากไฟล์ PDF โดยทางโปรแกรมใน Java:

  • ขั้นแรก นำเข้าคลาสที่จำเป็นลงในไฟล์ Java ของคุณ
  • ประการที่สอง สร้างอินสแตนซ์ของคลาส ParseApi
  • ประการที่สาม สร้างอินสแตนซ์ของคลาส FileInfo
  • ถัดไป กำหนดเส้นทางไปยังไฟล์ PDF เป็นอินพุต
  • จากนั้น สร้างอินสแตนซ์ของคลาส TextOptions()
  • ตอนนี้ ระบุค่า setStartPageNumber และ setCountPagesToExtract
  • จากนั้นกำหนด fileInfo ให้กับเมธอด setFileInfo
  • ตอนนี้ สร้างอินสแตนซ์ของคลาส TextRequest() และส่งพารามิเตอร์ TextOptions
  • สุดท้าย รับผลลัพธ์โดยเรียกเมธอด ParseApi.text() และส่งพารามิเตอร์ TextRequest

ตัวอย่างโค้ดต่อไปนี้แสดงวิธีแยกข้อความเฉพาะจากไฟล์ PDF ตามหมายเลขช่วงหน้าใน Java โดยใช้ REST API:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;

// วิธีแยกข้อความจากไฟล์ PDF ตามหมายเลขช่วงหน้าใน Java
public class App {

	public static void main(String[] args) {
		
		// สร้างอินสแตนซ์ของ Parse API
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// เตรียมการตั้งค่า
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");
			TextOptions options = new TextOptions();
			options.setStartPageNumber(1);
			options.setCountPagesToExtract(1);
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);
				
			// รับเส้นทางไฟล์เอาต์พุต
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

โปรแกรมแยกวิเคราะห์เอกสารออนไลน์ฟรี

วิธีที่ดีที่สุดในการแยกข้อความจาก PDF ออนไลน์ฟรีคืออะไร โปรดลองใช้ ซอฟต์แวร์แยกวิเคราะห์เอกสาร PDF ออนไลน์ เพื่อแยกข้อความออกจาก PDF เครื่องมือตัวแยกวิเคราะห์ PDF นี้ได้รับการพัฒนาโดยใช้ไลบรารีตัวแยกวิเคราะห์ Java ที่กล่าวถึงข้างต้น

บทสรุป

โดยสรุป GroupDocs.Parser Cloud SDK สำหรับ Java เป็นเครื่องมือที่มีประโยชน์สำหรับนักพัฒนา Java ที่ช่วยให้คุณสามารถแยกข้อความ ข้อมูลเมตา และรูปภาพได้อย่างมีประสิทธิภาพ ต่อไปนี้คือสิ่งที่คุณได้เรียนรู้จากบทความนี้:

  • วิธีแยกข้อความทั้งหมดจากไฟล์ PDF โดยใช้ REST API ใน Java
  • อัปโหลดไฟล์ PDF โดยทางโปรแกรมไปยังคลาวด์โดยใช้ Java
  • วิธีแยกเนื้อหาจาก PDF ใน Java โดยใช้ REST API
  • และเครื่องมือแยกข้อความ PDF ออนไลน์เพื่อแยกวิเคราะห์เอกสาร PDF

นอกจากนี้ คุณสามารถเรียนรู้เพิ่มเติมเกี่ยวกับ GroupDocs.Parser Cloud API โดยใช้ เอกสารประกอบ นอกจากนี้ เรายังมีส่วน การอ้างอิง API ที่ช่วยให้คุณแสดงภาพและโต้ตอบกับ API ของเราได้โดยตรงผ่านเบราว์เซอร์ ซอร์สโค้ดที่สมบูรณ์ของ Java SDK มีให้ใช้งานฟรีบน Github

สุดท้าย เรายังคงเขียนบทความบล็อกใหม่ๆ ในรูปแบบไฟล์ต่างๆ และแยกวิเคราะห์โดยใช้ REST API ดังนั้น กรุณาติดต่อเพื่อรับการปรับปรุงล่าสุด

ถามคำถาม

ในกรณีที่คุณมีข้อสงสัยหรือสับสนเกี่ยวกับวิธีการแยกข้อความจากไฟล์ PDF โปรดติดต่อเราผ่านทาง ฟอรัม

คำถามที่พบบ่อย

ฉันจะแยกข้อความทั้งหมดออกจากไฟล์ PDF โดยใช้ Java ได้อย่างไร

คุณสามารถแยกข้อความทั้งหมดจากไฟล์ PDF โดยใช้ GroupDocs.Parser Cloud SDK for Java ในแอปพลิเคชัน Java ของคุณ SDK อันทรงพลังนี้มอบวิธีที่มีประสิทธิภาพและตรงไปตรงมาในการดึงข้อความจากไฟล์ PDF โดยใช้ Java

ฉันสามารถแยกข้อความจากไฟล์ PDF ที่ป้องกันด้วยรหัสผ่านโดยใช้ GroupDocs.Parser Cloud SDK for Java ได้หรือไม่

ใช่ SDK รองรับการแยกข้อความจากไฟล์ PDF ที่ป้องกันด้วยรหัสผ่าน คุณสามารถระบุรหัสผ่านเป็นตัวเลือกในระหว่างขั้นตอนการแยกข้อมูล

เป็นไปได้ไหมที่จะดึงข้อความจากบางหน้าในไฟล์ PDF?

ได้ GroupDocs.Parser Cloud SDK for Java ให้คุณระบุหมายเลขช่วงหน้าที่คุณต้องการแยกข้อความ ด้วยวิธีนี้ คุณสามารถดึงข้อความจากส่วนเฉพาะของเอกสาร PDF ได้อย่างง่ายดาย

ดูสิ่งนี้ด้วย

ต่อไปนี้คือบทความที่เกี่ยวข้องบางส่วนที่คุณอาจพบว่ามีประโยชน์: