Free Online DOCX Parser ออกแบบมาเพื่อแยกข้อความ รูปภาพ และรูปภาพจาก DOCX หรือ DOC

แยกวิเคราะห์เอกสาร Word โดยใช้ REST API ใน Python

ในหลายกรณี เราอาจต้องแยกวิเคราะห์เอกสาร Word และแยกรูปภาพหรือข้อความ การแยกรูปภาพและข้อความจากเอกสาร Word จะมีประโยชน์ในการวิเคราะห์ข้อความ ใช้ซ้ำ หรือรวมเข้ากับเอกสารอื่นๆ เราสามารถแยกวิเคราะห์ไฟล์ DOC หรือ DOCX ได้อย่างง่ายดาย และแยกรูปภาพ/ข้อความทั้งหมดบนคลาวด์โดยทางโปรแกรม ในบทความนี้ เราจะมาเรียนรู้วิธีการแยกวิเคราะห์เอกสาร Word โดยใช้ REST API ใน Python

หัวข้อต่อไปนี้จะครอบคลุมในบทความนี้:

Word Document Parser REST API และ Python SDK

สำหรับการแยกวิเคราะห์เอกสาร Word เราจะใช้ API ของ Python SDK of GroupDocs.Parser Cloud โปรดติดตั้งโดยใช้คำสั่งต่อไปนี้ในคอนโซลเพื่อแยกวิเคราะห์เอกสาร:

pip install groupdocs_parser_cloud

โปรด รับรหัสลูกค้าและข้อมูลลับจากแดชบอร์ด ก่อนทำตามขั้นตอนดังกล่าว เมื่อคุณมี ID และรหัสลับของคุณแล้ว ให้เพิ่มรหัสตามที่แสดงด้านล่าง:

client_id = "da0c487d-c1c0-45ae-b7bf-43eaf53c5ad5"
client_secret = "479db2b01dcb93a3d4d20efb16dea971"

configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""

แยกวิเคราะห์เอกสาร Word และแยกรูปภาพโดยใช้ REST API ใน Python

เราสามารถแยกวิเคราะห์เอกสาร Word และแยกรูปภาพโดยทางโปรแกรมโดยทำตามขั้นตอนด้านล่าง:

อัปโหลดเอกสาร

ประการแรก เราจะอัปโหลดเอกสาร Word (DOCX) ไปยัง Cloud โดยใช้ตัวอย่างโค้ดที่ระบุด้านล่าง:

# สร้างอินสแตนซ์ของ API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)

# สร้างคำขออัปโหลดไฟล์
request = groupdocs_parser_cloud.UploadFileRequest("sample.docx", "C:\\Files\\parser\\sample.docx", my_storage)

# อัพโหลดไฟล์
response = file_api.upload_file(request)

ด้วยเหตุนี้ ไฟล์ DOCX ที่อัปโหลดจะอยู่ใน ส่วนไฟล์ ของแดชบอร์ดบนระบบคลาวด์

แยกรูปภาพออกจากเอกสาร Word โดยใช้ Python

เราสามารถแยกรูปภาพทั้งหมดจากเอกสาร Word โดยทางโปรแกรมโดยทำตามขั้นตอนด้านล่าง

  • ขั้นแรก สร้างอินสแตนซ์ของ ParseApi
  • จากนั้น สร้างอินสแตนซ์ของ FileInfo
  • จากนั้นกำหนดเส้นทางไปยังไฟล์ DOCX อินพุต
  • จากนั้น สร้างอินสแตนซ์ของ ImageOptions
  • จากนั้นกำหนด FileInfo ให้กับ ImageOptions
  • หลังจากนั้น สร้าง ImagesRequest ด้วย ImageOptions เป็นอาร์กิวเมนต์
  • สุดท้าย แยกรูปภาพโดยเรียกเมธอด ParseApi.images() ด้วย ImageRequest

ตัวอย่างโค้ดต่อไปนี้แสดงวิธีแยกรูปภาพจากไฟล์ DOCX โดยใช้เอกสารแยกวิเคราะห์ REST API ใน Python

# การเริ่มต้น API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# กำหนดตัวเลือกรูปภาพ
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.docx"

# คำขอสร้างภาพ
request = groupdocs_parser_cloud.ImagesRequest(options)

# รับภาพ
result = parseApi.images(request)
แยกวิเคราะห์ Word DOCX และแยกรูปภาพโดยใช้ python แยกวิเคราะห์ word docx

แยกเอกสาร Word และแยกรูปภาพโดยใช้ Word Parser Online REST API ใน Python

ดาวน์โหลดภาพที่แยกออกมา

ตัวอย่างโค้ดด้านบนจะบันทึกภาพที่แยกออกมาด้วยตัวแยกวิเคราะห์ไฟล์คำบนคลาวด์ เราสามารถดาวน์โหลดรูปภาพเหล่านี้ได้โดยใช้ตัวอย่างโค้ดด้านล่าง:

# การเริ่มต้น API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
folder_api = groupdocs_parser_cloud.FolderApi.from_config(configuration)

# รับรายการไฟล์
request = groupdocs_parser_cloud.GetFilesListRequest("parser/images/sample_docx/", my_storage);
response = folder_api.get_files_list(request)

# ดาวน์โหลดภาพทีละภาพ
for data in response.value:
    # สร้างคำขอดาวน์โหลดไฟล์
    request = groupdocs_parser_cloud.DownloadFileRequest(data.path, my_storage)
    # ดาวน์โหลดไฟล์
    response = file_api.download_file(request)
    # ย้ายไฟล์ที่ดาวน์โหลดไปยังไดเร็กทอรีการทำงานของคุณ
    shutil.move(response, "C:\\Files\\parser\\")

แยกข้อความจากเอกสาร Word โดยใช้ REST API ใน Python

เราสามารถแยกข้อความทั้งหมดจากเอกสาร Word โดยทางโปรแกรมโดยทำตามขั้นตอนด้านล่าง

  • ขั้นแรก สร้างอินสแตนซ์ของ ParseApi
  • จากนั้น สร้างอินสแตนซ์ของ FileInfo
  • จากนั้นกำหนดเส้นทางไปยังไฟล์ DOCX อินพุต
  • จากนั้น สร้างอินสแตนซ์ของ TextOptions
  • จากนั้นกำหนด FileInfo ให้กับ TextOptions
  • หลังจากนั้น สร้าง TextRequest ด้วย TextOptions เป็นอาร์กิวเมนต์
  • สุดท้าย รับผลลัพธ์โดยเรียกเมธอด ParseApi.text() ด้วย TextRequest

ตัวอย่างโค้ดต่อไปนี้แสดงวิธีแยกข้อความจากไฟล์ DOCX โดยใช้ docx parser REST API

# การเริ่มต้น API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# กำหนดตัวเลือกข้อความ
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.docx"

# สร้างคำขอข้อความ
request = groupdocs_parser_cloud.TextRequest(options)

# รับข้อความ
result = parseApi.text(request)
print("Text: " + result.text)
แยกข้อความจากเอกสาร Word DOCX โดยใช้ REST API ใน Python

แยกข้อความจากเอกสาร Word โดยใช้ REST API ใน Python

ลองออนไลน์

จะใช้ซอฟต์แวร์แยกวิเคราะห์เอกสารออนไลน์ฟรีได้อย่างไร? โปรดลองใช้เครื่องมือแยกวิเคราะห์ DOCX ออนไลน์ฟรีต่อไปนี้ ซึ่งพัฒนาโดยใช้ API ของ python ของเอกสารคำที่แยกวิเคราะห์ข้างต้น https://products.groupdocs.app/parser/docx

บทสรุป

ในบทความนี้ เราได้เรียนรู้วิธีแยกวิเคราะห์เอกสาร Word โดยใช้โปรแกรมแยกวิเคราะห์คำบนคลาวด์ เราได้เห็นวิธีแยกรูปภาพและข้อความจากไฟล์ DOCX โดยใช้ parse docx Python บทความนี้ยังอธิบายวิธีการอัปโหลดไฟล์ DOCX ไปยังระบบคลาวด์โดยทางโปรแกรมและดาวน์โหลดภาพที่แยกออกจากระบบคลาวด์ นอกจากนี้ คุณสามารถเรียนรู้เพิ่มเติมเกี่ยวกับ GroupDocs.Parser Cloud API โดยใช้ เอกสารประกอบ เรายังมีส่วน API Reference ที่ช่วยให้คุณแสดงภาพและโต้ตอบกับ API ของเราได้โดยตรงผ่านเบราว์เซอร์ ในกรณีที่มีความคลุมเครือใดๆ เกี่ยวกับการแยกวิเคราะห์เอกสารและการแยกวิเคราะห์ไฟล์ โปรดติดต่อเราได้ที่ ฟอรัม

ดูสิ่งนี้ด้วย