หากคุณเป็นนักพัฒนา Python และต้องการแยกข้อมูลจากเอกสาร บทความนี้จะแนะนำคุณให้แยกรูปภาพจากเอกสารประมวลผลคำ สเปรดชีต งานนำเสนอ และเอกสาร PDF โดยใช้ตัวอย่าง Python อย่างง่าย
หัวข้อต่อไปนี้จะครอบคลุมในวันนี้:
- Image Extraction REST API และ Python SDK
- แยกรูปภาพจากเอกสาร PDF โดยใช้ Python
- การดึงรูปภาพจาก Excel, PPT หรือ Word Docs โดยใช้ Python
Image Extraction REST API และ Python SDK
ในครั้งนี้ เราจะใช้ Python SDK ของ GroupDocs.Parser Cloud API เพื่อแยกรูปภาพจากเอกสารประเภทต่างๆ อย่างไรก็ตาม ขณะนี้ยังให้บริการ .NET, Java, PHP, Ruby และ Node.js SDK เป็น document parsing family members สำหรับ Cloud API
API ยังรองรับการดึงข้อความและข้อมูลเมตาพร้อมกับการแยกรูปภาพจากเอกสารประเภทต่างๆ เช่น เอกสารประมวลผลคำ สเปรดชีต งานนำเสนอ อีเมล เอกสารสำคัญ มาร์กอัป และเอกสาร PDF
มาถึงวัตถุประสงค์ ก่อนอื่น รับ APP KEY และ APP SID จาก แดชบอร์ด ก่อนเริ่มทำตามขั้นตอนและตัวอย่างโค้ดที่มี
แยกรูปภาพจาก PDF โดยใช้ Python
ตัวอย่างเช่น ก่อนอื่น ฉันจะแยกรูปภาพออกจากเอกสาร PDF เพียงทำตามขั้นตอนง่าย ๆ รูปภาพทั้งหมดก็สามารถดึงออกมาได้อย่างง่ายดาย
- อัปโหลดเอกสาร PDF ไปยังคลาวด์
- แยกรูปภาพออกจากเอกสารที่อัปโหลด
- ดาวน์โหลดภาพที่แยกออกมา
อัปโหลดเอกสาร PDF
ประการแรก อัปโหลดเอกสาร PDF ไปยัง Cloud โดยใช้วิธีใดวิธีหนึ่งต่อไปนี้:
- การใช้ แดชบอร์ด
- โดยใช้ Upload File API จากเบราว์เซอร์
- ทางโปรแกรมตามที่กล่าวไว้ใน เอกสารประกอบ
ดังนั้น ไฟล์ PDF จะถูกอัปโหลดที่ Cloud Storage
แยกรูปภาพจากเอกสาร PDF ที่อัปโหลด
ตอนนี้คุณทำส่วนที่ยากในการดึงรูปภาพทั้งหมดจาก pdf เสร็จแล้ว การทำตามโค้ด Python จะช่วยให้คุณดึงรูปภาพทั้งหมดออกจากเอกสาร PDF ที่อัปโหลดได้อย่างรวดเร็ว
# วิธีแยกรูปภาพจากเอกสาร Word, สเปรดชีต Excel, งานนำเสนอหรือเอกสาร PDF ใน Python
import groupdocs_parser_cloud
class ExtractImagesFromPDF:
@classmethod
def Run(cls):
# รับ APP SID และรหัสแอปจาก https://dashboard.groupdocs.cloud/
configuration = groupdocs_parser_cloud.Configuration("xxxx-APP-SID-xxx", "xxxx APP KEY xxx")
configuration.api_base_url = "https://api.groupdocs.cloud"
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "documents/doc-with-images.pdf"
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)
# แสดงคุณสมบัติของภาพที่แยกออกมา
for image in result.images:
print("Path: " + image.path)
print("Download url: " + image.download_url)
print("Image format: " + image.file_format)
print("Page index: " + str(image.page_index))
ดาวน์โหลดภาพที่แยกออกมา
เมื่อคุณแยกรูปภาพแล้ว คุณสามารถดาวน์โหลดรูปภาพจากคลาวด์ได้จากแดชบอร์ดหรือโดยทางโปรแกรม รูปภาพที่แสดงที่นี่ดึงมาจากเอกสาร PDF ที่แสดงด้านบน
การดึงรูปภาพจาก Excel, PPT หรือ Word Docs โดยใช้ Python
ในทำนองเดียวกัน คุณสามารถแยกรูปภาพทั้งหมดจากเอกสาร Word, สเปรดชีต, งานนำเสนอด้วยโค้ด python ที่กล่าวถึงข้างต้นสำหรับเอกสาร PDF คุณเพียงแค่ต้องเปลี่ยนเส้นทางไฟล์ด้วยชื่อเอกสารที่ถูกต้องพร้อมนามสกุล
# แยกรูปภาพจากเอกสาร Word, สเปรดชีต Excel, งานนำเสนอใน Python
options.file_info.file_path = "documents/doc-with-images.docx"
# เพียงเปลี่ยนเส้นทางเอกสารตามความต้องการ (doc/docx, xls/xlsx, ppt/pptx, ...)
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)
แยกรูปภาพออกจากเอกสารออนไลน์
วิธีแยกรูปภาพออกจากไฟล์หรือเอกสารออนไลน์ฟรี Groupdocs.Parser มี เครื่องมือออนไลน์ฟรี เพื่อแยกรูปภาพจาก word ออนไลน์ แยกรูปภาพทั้งหมดจาก pdf บันทึกภาพทั้งหมดใน powerpoint หรือแยกรูปภาพจาก xlsx python เพียงเลือกเอกสารที่คุณต้องการแยกรูปภาพ jpg, png, jpeg หรือ gif
แยกรูปภาพจาก pdf ออนไลน์ฟรี, แยกรูปภาพจาก excel ออนไลน์, แยกรูปภาพจาก word ออนไลน์ และ แยกรูปภาพจาก pptx ออนไลน์ เครื่องมือได้รับการพัฒนาโดยใช้ Groupdocs.Parser Python API
บทสรุป
ในบทความนี้ เราได้เรียนรู้วิธีการแยกรูปภาพทางโปรแกรมจาก Word, Excel, PowerPoint, PDF และเอกสารอื่นๆ โดยใช้ Python ไม่มีความแตกต่างในรหัส เราเพียงแค่ต้องเปลี่ยนเส้นทางและประเภทของเอกสารต้นฉบับ
สำหรับคุณลักษณะเพิ่มเติมและเรียนรู้เพิ่มเติมเกี่ยวกับ API การแยกวิเคราะห์เอกสาร โปรดไปที่ เอกสารประกอบ สำหรับบทความที่มีตัวอย่างอยู่ด้วย วิธีที่ดีที่สุดในการทดสอบฟีเจอร์ที่ไฮไลต์คือการลองใช้ตัวอย่างการทำงานแบบโอเพ่นซอร์สจาก GitHub ในกรณีที่เกิดความสับสน GroupDocs Support Team รู้สึกยินดีเป็นอย่างยิ่งที่จะอำนวยความสะดวกให้คุณ ขอบคุณ
ถามคำถาม
หากคุณมีข้อสงสัยใดๆ เกี่ยวกับวิธีแยกรูปภาพจาก PDF, XLSX, PPTX หรือ Word DOCX โดยใช้ Python โปรดอย่าลังเลที่จะถามเราที่ ฟอรัมสนับสนุนฟรี
ดูสิ่งนี้ด้วย
- แยกรูปภาพทั้งหมดออกจาก PDF และแยกรูปภาพจาก PDF ออนไลน์โดยใช้ Node.js
- การดึงข้อมูลอัตโนมัติจาก PDF และดึงข้อมูลจาก PDF python ทางออนไลน์
- แยกรูปภาพจาก PDF python และแยกรูปภาพจาก PDF acrobat โดยใช้ Python
- วิธีแยกข้อมูลเฉพาะจากเอกสารคำโดยใช้ REST API ใน Node.js
- แยกข้อมูลจากจาวาสคริปต์ PDF และภาษาโปรแกรมที่ดีที่สุดเพื่อดึงข้อมูลจาก PDF
- แยกตารางจากเอกสาร word python โดยใช้ REST API ใน Python