แยกข้อความจาก PDF โดยใช้ Python

คุณอาจต้องอ่านและแยกข้อความจากเอกสาร PDF ในแอปพลิเคชัน Python ของคุณ ดังนั้น ในฐานะนักพัฒนา Python คุณสามารถแยกข้อความทั้งหมดจากเอกสาร PDF โดยทางโปรแกรมบนคลาวด์ได้อย่างง่ายดาย บทความนี้จะอธิบายวิธีแยกข้อความจากเอกสาร PDF โดยใช้ REST API ใน Python

หัวข้อต่อไปนี้จะครอบคลุมในบทความนี้:

โปรแกรมแยกวิเคราะห์เอกสาร REST API และ Python SDK

สำหรับการดึงข้อความจากเอกสาร PDF ฉันจะใช้ API ของ Python SDK of GroupDocs.Parser Cloud อนุญาตให้งูPythonรับข้อความจาก pdf และแยกวิเคราะห์ข้อมูลจากเอกสารยอดนิยมทุกประเภท คุณสามารถแยกข้อความ รูปภาพ และแยกวิเคราะห์ข้อมูลตามเทมเพลตได้โดยใช้ SDK นอกจากนี้ยังมี .NET, Java, PHP, Ruby และ Node.js SDK เป็น สมาชิกตระกูลโปรแกรมแยกวิเคราะห์เอกสาร สำหรับ Cloud API

คุณสามารถติดตั้ง GroupDocs.Parser Cloud ในโครงการ Python ของคุณด้วย pip (ตัวติดตั้งแพ็คเกจสำหรับ python) โดยใช้คำสั่งต่อไปนี้ในคอนโซล:

pip install groupdocs_parser_cloud

โปรดรับรหัสไคลเอ็นต์และรหัสลับไคลเอ็นต์ของคุณจาก แดชบอร์ด ก่อนที่คุณจะเริ่มทำตามขั้นตอนและตัวอย่างโค้ดที่มีอยู่ เมื่อคุณมีรหัสไคลเอ็นต์และรหัสลับแล้ว ให้เพิ่มรหัสตามที่แสดงด้านล่าง:

client_id = "112f0f38-9dae-42d5-b4fc-cc84ae644972"
client_secret = "16ad3fe0bdc39c910f57d2fd48a5d618"

configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""

แยกข้อความจาก PDF โดยใช้ REST API ใน Python

คุณสามารถแยกข้อความจากเอกสาร PDF โดยทำตามขั้นตอนง่าย ๆ ที่กล่าวถึงด้านล่าง:

อัปโหลดเอกสาร

ก่อนอื่น อัปโหลดเอกสาร PDF เพื่อรับข้อความจาก pdf python โดยใช้ตัวอย่างโค้ดด้านล่าง:

# การเริ่มต้น API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""

request = groupdocs_parser_cloud.UploadFileRequest("sample.pdf", "C:\\Files\\sample.pdf", my_storage)
response = file_api.upload_file(request)

ด้วยเหตุนี้ ไฟล์ PDF ที่อัปโหลด (sample.pdf) จะอยู่ใน ส่วนไฟล์ ของแดชบอร์ดของคุณบนระบบคลาวด์ ตอนนี้คุณพร้อมที่จะแยกเนื้อหาจาก pdf แล้ว

แยกข้อความจากเอกสาร PDF โดยใช้ Python

คุณสามารถแยกข้อความจาก pdf ด้วย python โดยทางโปรแกรมโดยทำตามขั้นตอนด้านล่าง

  • สร้างอินสแตนซ์ของ ParseApi
  • กำหนด TextOptions
  • กำหนดเส้นทางไปยังไฟล์ PDF
  • สร้าง TextRequest
  • รับผลลัพธ์โดยเรียกเมธอด ParseApi.text()

ตัวอย่างโค้ดต่อไปนี้แสดงวิธีแยกข้อความทั้งหมดจากเอกสาร PDF โดยใช้ REST API

# การเริ่มต้น API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# กำหนดตัวเลือกข้อความ
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

print("Text: " + result.text)
แยกข้อความจากเอกสารทั้งหมด

แยกข้อความจากเอกสารทั้งหมด

อ่านข้อความตามหมายเลขหน้าจากเอกสาร PDF โดยใช้ Python

คุณสามารถแยกข้อความจากหน้าเฉพาะของไฟล์ PDF โดยทางโปรแกรมโดยทำตามขั้นตอนด้านล่าง

  • สร้างอินสแตนซ์ของ ParseApi
  • กำหนด TextOptions
  • ระบุเส้นทางไปยังไฟล์ PDF
  • กำหนดหมายเลขหน้าเริ่มต้น
  • กำหนดจำนวนหน้าที่จะแยก
  • สร้าง TextRequest
  • รับผลลัพธ์โดยเรียกเมธอด ParseApi.text()

ตัวอย่างโค้ดต่อไปนี้แสดงวิธีแยกคำจาก pdf ใน Python ตามช่วงหมายเลขหน้าโดยใช้ REST API

# การเริ่มต้น API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# กำหนดตัวเลือกข้อความ
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
options.start_page_number = 1
options.count_pages_to_extract = 2

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

for page in result.pages:
    print("PageIndex: " + str(page.page_index) + ". Text: " + page.text)
แยกข้อความจากไฟล์ pdf ตามช่วงหมายเลขหน้า

แยกข้อความตามช่วงหมายเลขหน้า

รับข้อความจากเอกสารที่แนบมาด้วย PDF โดยใช้ Python

คุณสามารถแยกข้อความจากเอกสารภายในคอนเทนเนอร์ ซึ่งมีให้ใช้งานเป็นไฟล์แนบในไฟล์ PDF โดยทางโปรแกรมโดยทำตามขั้นตอนด้านล่าง

  • สร้างอินสแตนซ์ของ ParseApi
  • กำหนด TextOptions
  • กำหนดเส้นทางไปยังไฟล์ PDF
  • กำหนด ContainerItemInfo
  • ระบุเส้นทางสัมพัทธ์ของเอกสารภายใน
  • กำหนดหมายเลขหน้าเริ่มต้น
  • กำหนดจำนวนหน้าที่จะแยก
  • สร้าง TextRequest
  • รับผลลัพธ์โดยเรียกเมธอด ParseApi.text()

ตัวอย่างโค้ดต่อไปนี้แสดงวิธีแยกข้อความจากเอกสารภายในเอกสาร PDF โดยใช้ REST API

# การเริ่มต้น API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# กำหนดตัวเลือกข้อความ
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "PDF_with_attachements.pdf"
options.file_info.password = "password"
container_info = groupdocs_parser_cloud.ContainerItemInfo()
container_info.relative_path = "template-document.pdf"
options.container_item_info = container_info
options.start_page_number = 2
options.count_pages_to_extract = 1

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

print("Text: " + result.pages[0].text)
แยกข้อความจากเอกสารภายในคอนเทนเนอร์

แยกข้อความจากเอกสารภายในคอนเทนเนอร์

ลองออนไลน์

วิธีแยกข้อความจาก pdf ออนไลน์ฟรี โปรดลองใช้เครื่องมือแยกวิเคราะห์ PDF ออนไลน์ฟรีต่อไปนี้เพื่อแยกข้อความจาก pdf ฟรี ตัวแยกข้อความ pdf นี้ได้รับการพัฒนาโดยใช้ API ด้านบน https://products.groupdocs.app/parser/pdf

บทสรุป

ในบทความนี้ คุณได้เรียนรู้วิธีแยกข้อความจากเอกสาร PDF บนคลาวด์ บทความนี้ยังอธิบายวิธีอัปโหลดไฟล์ PDF ทางโปรแกรมบนคลาวด์และตัวแยกข้อความ pdf ทางออนไลน์ ยิ่งไปกว่านั้น เรายังได้เรียนรู้การแยกเฉพาะข้อความจาก pdf ด้วยหมายเลขหน้า และการสกัดข้อความของ python จาก pdf จากเอกสารแนบ

คุณสามารถเรียนรู้เพิ่มเติมเกี่ยวกับ GroupDocs.Parser Cloud API โดยใช้ เอกสารประกอบ เรายังมีส่วน API Reference ที่ช่วยให้คุณแสดงภาพและโต้ตอบกับ API ของเราได้โดยตรงผ่านเบราว์เซอร์ ในกรณีที่มีความคลุมเครือเกี่ยวกับการแยกข้อความ pdf และแยกข้อความจาก pdf python โปรดติดต่อเราได้ที่ ฟอรัม

ดูสิ่งนี้ด้วย