คุณอาจต้องอ่านและแยกข้อความจากเอกสาร PDF ในแอปพลิเคชัน Python ของคุณ ดังนั้น ในฐานะนักพัฒนา Python คุณสามารถแยกข้อความทั้งหมดจากเอกสาร PDF โดยทางโปรแกรมบนคลาวด์ได้อย่างง่ายดาย บทความนี้จะอธิบายวิธีแยกข้อความจากเอกสาร PDF โดยใช้ REST API ใน Python
หัวข้อต่อไปนี้จะครอบคลุมในบทความนี้:
โปรแกรมแยกวิเคราะห์เอกสาร REST API และ Python SDK
สำหรับการดึงข้อความจากเอกสาร PDF ฉันจะใช้ API ของ Python SDK of GroupDocs.Parser Cloud อนุญาตให้งูPythonรับข้อความจาก pdf และแยกวิเคราะห์ข้อมูลจากเอกสารยอดนิยมทุกประเภท คุณสามารถแยกข้อความ รูปภาพ และแยกวิเคราะห์ข้อมูลตามเทมเพลตได้โดยใช้ SDK นอกจากนี้ยังมี .NET, Java, PHP, Ruby และ Node.js SDK เป็น สมาชิกตระกูลโปรแกรมแยกวิเคราะห์เอกสาร สำหรับ Cloud API
คุณสามารถติดตั้ง GroupDocs.Parser Cloud ในโครงการ Python ของคุณด้วย pip (ตัวติดตั้งแพ็คเกจสำหรับ python) โดยใช้คำสั่งต่อไปนี้ในคอนโซล:
pip install groupdocs_parser_cloud
โปรดรับรหัสไคลเอ็นต์และรหัสลับไคลเอ็นต์ของคุณจาก แดชบอร์ด ก่อนที่คุณจะเริ่มทำตามขั้นตอนและตัวอย่างโค้ดที่มีอยู่ เมื่อคุณมีรหัสไคลเอ็นต์และรหัสลับแล้ว ให้เพิ่มรหัสตามที่แสดงด้านล่าง:
client_id = "112f0f38-9dae-42d5-b4fc-cc84ae644972"
client_secret = "16ad3fe0bdc39c910f57d2fd48a5d618"
configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""
แยกข้อความจาก PDF โดยใช้ REST API ใน Python
คุณสามารถแยกข้อความจากเอกสาร PDF โดยทำตามขั้นตอนง่าย ๆ ที่กล่าวถึงด้านล่าง:
- อัปโหลดไฟล์ PDF ไปยังคลาวด์
- แยกข้อความจากเอกสาร PDF โดยใช้ Python
- อ่านข้อความตามหมายเลขหน้าจากเอกสาร PDF โดยใช้ Python
- รับข้อความจากเอกสารที่แนบมาด้วย PDF โดยใช้ Python
อัปโหลดเอกสาร
ก่อนอื่น อัปโหลดเอกสาร PDF เพื่อรับข้อความจาก pdf python โดยใช้ตัวอย่างโค้ดด้านล่าง:
# การเริ่มต้น API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""
request = groupdocs_parser_cloud.UploadFileRequest("sample.pdf", "C:\\Files\\sample.pdf", my_storage)
response = file_api.upload_file(request)
ด้วยเหตุนี้ ไฟล์ PDF ที่อัปโหลด (sample.pdf) จะอยู่ใน ส่วนไฟล์ ของแดชบอร์ดของคุณบนระบบคลาวด์ ตอนนี้คุณพร้อมที่จะแยกเนื้อหาจาก pdf แล้ว
แยกข้อความจากเอกสาร PDF โดยใช้ Python
คุณสามารถแยกข้อความจาก pdf ด้วย python โดยทางโปรแกรมโดยทำตามขั้นตอนด้านล่าง
- สร้างอินสแตนซ์ของ ParseApi
- กำหนด TextOptions
- กำหนดเส้นทางไปยังไฟล์ PDF
- สร้าง TextRequest
- รับผลลัพธ์โดยเรียกเมธอด ParseApi.text()
ตัวอย่างโค้ดต่อไปนี้แสดงวิธีแยกข้อความทั้งหมดจากเอกสาร PDF โดยใช้ REST API
# การเริ่มต้น API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# กำหนดตัวเลือกข้อความ
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)
print("Text: " + result.text)
อ่านข้อความตามหมายเลขหน้าจากเอกสาร PDF โดยใช้ Python
คุณสามารถแยกข้อความจากหน้าเฉพาะของไฟล์ PDF โดยทางโปรแกรมโดยทำตามขั้นตอนด้านล่าง
- สร้างอินสแตนซ์ของ ParseApi
- กำหนด TextOptions
- ระบุเส้นทางไปยังไฟล์ PDF
- กำหนดหมายเลขหน้าเริ่มต้น
- กำหนดจำนวนหน้าที่จะแยก
- สร้าง TextRequest
- รับผลลัพธ์โดยเรียกเมธอด ParseApi.text()
ตัวอย่างโค้ดต่อไปนี้แสดงวิธีแยกคำจาก pdf ใน Python ตามช่วงหมายเลขหน้าโดยใช้ REST API
# การเริ่มต้น API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# กำหนดตัวเลือกข้อความ
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
options.start_page_number = 1
options.count_pages_to_extract = 2
request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)
for page in result.pages:
print("PageIndex: " + str(page.page_index) + ". Text: " + page.text)
รับข้อความจากเอกสารที่แนบมาด้วย PDF โดยใช้ Python
คุณสามารถแยกข้อความจากเอกสารภายในคอนเทนเนอร์ ซึ่งมีให้ใช้งานเป็นไฟล์แนบในไฟล์ PDF โดยทางโปรแกรมโดยทำตามขั้นตอนด้านล่าง
- สร้างอินสแตนซ์ของ ParseApi
- กำหนด TextOptions
- กำหนดเส้นทางไปยังไฟล์ PDF
- กำหนด ContainerItemInfo
- ระบุเส้นทางสัมพัทธ์ของเอกสารภายใน
- กำหนดหมายเลขหน้าเริ่มต้น
- กำหนดจำนวนหน้าที่จะแยก
- สร้าง TextRequest
- รับผลลัพธ์โดยเรียกเมธอด ParseApi.text()
ตัวอย่างโค้ดต่อไปนี้แสดงวิธีแยกข้อความจากเอกสารภายในเอกสาร PDF โดยใช้ REST API
# การเริ่มต้น API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# กำหนดตัวเลือกข้อความ
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "PDF_with_attachements.pdf"
options.file_info.password = "password"
container_info = groupdocs_parser_cloud.ContainerItemInfo()
container_info.relative_path = "template-document.pdf"
options.container_item_info = container_info
options.start_page_number = 2
options.count_pages_to_extract = 1
request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)
print("Text: " + result.pages[0].text)
ลองออนไลน์
วิธีแยกข้อความจาก pdf ออนไลน์ฟรี โปรดลองใช้เครื่องมือแยกวิเคราะห์ PDF ออนไลน์ฟรีต่อไปนี้เพื่อแยกข้อความจาก pdf ฟรี ตัวแยกข้อความ pdf นี้ได้รับการพัฒนาโดยใช้ API ด้านบน https://products.groupdocs.app/parser/pdf
บทสรุป
ในบทความนี้ คุณได้เรียนรู้วิธีแยกข้อความจากเอกสาร PDF บนคลาวด์ บทความนี้ยังอธิบายวิธีอัปโหลดไฟล์ PDF ทางโปรแกรมบนคลาวด์และตัวแยกข้อความ pdf ทางออนไลน์ ยิ่งไปกว่านั้น เรายังได้เรียนรู้การแยกเฉพาะข้อความจาก pdf ด้วยหมายเลขหน้า และการสกัดข้อความของ python จาก pdf จากเอกสารแนบ
คุณสามารถเรียนรู้เพิ่มเติมเกี่ยวกับ GroupDocs.Parser Cloud API โดยใช้ เอกสารประกอบ เรายังมีส่วน API Reference ที่ช่วยให้คุณแสดงภาพและโต้ตอบกับ API ของเราได้โดยตรงผ่านเบราว์เซอร์ ในกรณีที่มีความคลุมเครือเกี่ยวกับการแยกข้อความ pdf และแยกข้อความจาก pdf python โปรดติดต่อเราได้ที่ ฟอรัม