แยกรูปภาพออกจากเอกสารโดยใช้ Python

หากคุณเป็นนักพัฒนา Python และต้องการแยกข้อมูลจากเอกสาร บทความนี้จะแนะนำคุณให้แยกรูปภาพจากเอกสารประมวลผลคำ สเปรดชีต งานนำเสนอ และเอกสาร PDF โดยใช้ตัวอย่าง Python อย่างง่าย

หัวข้อต่อไปนี้จะครอบคลุมในวันนี้:

Image Extraction REST API และ Python SDK

การแยกวิเคราะห์เอกสาร Python SDK

ในครั้งนี้ เราจะใช้ Python SDK ของ GroupDocs.Parser Cloud API เพื่อแยกรูปภาพจากเอกสารประเภทต่างๆ อย่างไรก็ตาม ขณะนี้ยังให้บริการ .NET, Java, PHP, Ruby และ Node.js SDK เป็น document parsing family members สำหรับ Cloud API

API ยังรองรับการดึงข้อความและข้อมูลเมตาพร้อมกับการแยกรูปภาพจากเอกสารประเภทต่างๆ เช่น เอกสารประมวลผลคำ สเปรดชีต งานนำเสนอ อีเมล เอกสารสำคัญ มาร์กอัป และเอกสาร PDF

มาถึงวัตถุประสงค์ ก่อนอื่น รับ APP KEY และ APP SID จาก แดชบอร์ด ก่อนเริ่มทำตามขั้นตอนและตัวอย่างโค้ดที่มี

แยกรูปภาพจาก PDF โดยใช้ Python

เอกสาร PDF เพื่อแยกรูปภาพ รับรูปภาพจาก pdf หรือแยกรูปภาพจาก pdf

ตัวอย่างเช่น ก่อนอื่น ฉันจะแยกรูปภาพออกจากเอกสาร PDF เพียงทำตามขั้นตอนง่าย ๆ รูปภาพทั้งหมดก็สามารถดึงออกมาได้อย่างง่ายดาย

  • อัปโหลดเอกสาร PDF ไปยังคลาวด์
  • แยกรูปภาพออกจากเอกสารที่อัปโหลด
  • ดาวน์โหลดภาพที่แยกออกมา

อัปโหลดเอกสาร PDF

ประการแรก อัปโหลดเอกสาร PDF ไปยัง Cloud โดยใช้วิธีใดวิธีหนึ่งต่อไปนี้:

ดังนั้น ไฟล์ PDF จะถูกอัปโหลดที่ Cloud Storage

อัปโหลดไฟล์ PDF ที่แดชบอร์ด

อัปโหลดไฟล์ PDF ที่ dashboard.groupdocs.cloud/#/files

แยกรูปภาพจากเอกสาร PDF ที่อัปโหลด

ตอนนี้คุณทำส่วนที่ยากในการดึงรูปภาพทั้งหมดจาก pdf เสร็จแล้ว การทำตามโค้ด Python จะช่วยให้คุณดึงรูปภาพทั้งหมดออกจากเอกสาร PDF ที่อัปโหลดได้อย่างรวดเร็ว

# วิธีแยกรูปภาพจากเอกสาร Word, สเปรดชีต Excel, งานนำเสนอหรือเอกสาร PDF ใน Python
import groupdocs_parser_cloud
class ExtractImagesFromPDF:
    @classmethod  
    def Run(cls):
        # รับ APP SID และรหัสแอปจาก https://dashboard.groupdocs.cloud/
        configuration = groupdocs_parser_cloud.Configuration("xxxx-APP-SID-xxx", "xxxx APP KEY xxx")
        configuration.api_base_url = "https://api.groupdocs.cloud"
        parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
        
        options = groupdocs_parser_cloud.ImagesOptions()
        options.file_info = groupdocs_parser_cloud.FileInfo()
        options.file_info.file_path = "documents/doc-with-images.pdf"

        request = groupdocs_parser_cloud.ImagesRequest(options)
        result = parseApi.images(request)
        # แสดงคุณสมบัติของภาพที่แยกออกมา
       for image in result.images:
            print("Path: " + image.path)
            print("Download url: " + image.download_url)
            print("Image format: " + image.file_format)
            print("Page index: " + str(image.page_index))

ดาวน์โหลดภาพที่แยกออกมา

เมื่อคุณแยกรูปภาพแล้ว คุณสามารถดาวน์โหลดรูปภาพจากคลาวด์ได้จากแดชบอร์ดหรือโดยทางโปรแกรม รูปภาพที่แสดงที่นี่ดึงมาจากเอกสาร PDF ที่แสดงด้านบน

ภาพที่ดึงมาจากไฟล์ PDF

ภาพที่ดึงมาจากเอกสาร PDF

แยกรูปภาพออกจากเอกสารโดยใช้ Python

แยกภาพคุณภาพสูงจากไฟล์ pdf, xlsx, pptx หรือ docx

การดึงรูปภาพจาก Excel, PPT หรือ Word Docs โดยใช้ Python

ในทำนองเดียวกัน คุณสามารถแยกรูปภาพทั้งหมดจากเอกสาร Word, สเปรดชีต, งานนำเสนอด้วยโค้ด python ที่กล่าวถึงข้างต้นสำหรับเอกสาร PDF คุณเพียงแค่ต้องเปลี่ยนเส้นทางไฟล์ด้วยชื่อเอกสารที่ถูกต้องพร้อมนามสกุล

# แยกรูปภาพจากเอกสาร Word, สเปรดชีต Excel, งานนำเสนอใน Python
options.file_info.file_path = "documents/doc-with-images.docx"
# เพียงเปลี่ยนเส้นทางเอกสารตามความต้องการ (doc/docx, xls/xlsx, ppt/pptx, ...)
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)

แยกรูปภาพออกจากเอกสารออนไลน์

วิธีแยกรูปภาพออกจากไฟล์หรือเอกสารออนไลน์ฟรี Groupdocs.Parser มี เครื่องมือออนไลน์ฟรี เพื่อแยกรูปภาพจาก word ออนไลน์ แยกรูปภาพทั้งหมดจาก pdf บันทึกภาพทั้งหมดใน powerpoint หรือแยกรูปภาพจาก xlsx python เพียงเลือกเอกสารที่คุณต้องการแยกรูปภาพ jpg, png, jpeg หรือ gif

แยกรูปภาพจาก pdf ออนไลน์ฟรี, แยกรูปภาพจาก excel ออนไลน์, แยกรูปภาพจาก word ออนไลน์ และ แยกรูปภาพจาก pptx ออนไลน์ เครื่องมือได้รับการพัฒนาโดยใช้ Groupdocs.Parser Python API

บทสรุป

ในบทความนี้ เราได้เรียนรู้วิธีการแยกรูปภาพทางโปรแกรมจาก Word, Excel, PowerPoint, PDF และเอกสารอื่นๆ โดยใช้ Python ไม่มีความแตกต่างในรหัส เราเพียงแค่ต้องเปลี่ยนเส้นทางและประเภทของเอกสารต้นฉบับ

สำหรับคุณลักษณะเพิ่มเติมและเรียนรู้เพิ่มเติมเกี่ยวกับ API การแยกวิเคราะห์เอกสาร โปรดไปที่ เอกสารประกอบ สำหรับบทความที่มีตัวอย่างอยู่ด้วย วิธีที่ดีที่สุดในการทดสอบฟีเจอร์ที่ไฮไลต์คือการลองใช้ตัวอย่างการทำงานแบบโอเพ่นซอร์สจาก GitHub ในกรณีที่เกิดความสับสน GroupDocs Support Team รู้สึกยินดีเป็นอย่างยิ่งที่จะอำนวยความสะดวกให้คุณ ขอบคุณ

ถามคำถาม

หากคุณมีข้อสงสัยใดๆ เกี่ยวกับวิธีแยกรูปภาพจาก PDF, XLSX, PPTX หรือ Word DOCX โดยใช้ Python โปรดอย่าลังเลที่จะถามเราที่ ฟอรัมสนับสนุนฟรี

ดูสิ่งนี้ด้วย