ในหลายกรณี เราอาจต้องแยกวิเคราะห์เอกสาร Word และแยกรูปภาพหรือข้อความ การแยกรูปภาพและข้อความจากเอกสาร Word จะมีประโยชน์ในการวิเคราะห์ข้อความ ใช้ซ้ำ หรือรวมเข้ากับเอกสารอื่นๆ เราสามารถแยกวิเคราะห์ไฟล์ DOC หรือ DOCX ได้อย่างง่ายดาย และแยกรูปภาพ/ข้อความทั้งหมดบนคลาวด์โดยทางโปรแกรม ในบทความนี้ เราจะมาเรียนรู้วิธีการแยกวิเคราะห์เอกสาร Word โดยใช้ REST API ใน Python
หัวข้อต่อไปนี้จะครอบคลุมในบทความนี้:
- Word Document Parser REST API และ Python SDK
- แยกวิเคราะห์เอกสาร Word และแยกรูปภาพโดยใช้ REST API ใน Python
- แยกข้อความจากเอกสาร Word โดยใช้ REST API ใน Python
Word Document Parser REST API และ Python SDK
สำหรับการแยกวิเคราะห์เอกสาร Word เราจะใช้ API ของ Python SDK of GroupDocs.Parser Cloud โปรดติดตั้งโดยใช้คำสั่งต่อไปนี้ในคอนโซลเพื่อแยกวิเคราะห์เอกสาร:
pip install groupdocs_parser_cloud
โปรด รับรหัสลูกค้าและข้อมูลลับจากแดชบอร์ด ก่อนทำตามขั้นตอนดังกล่าว เมื่อคุณมี ID และรหัสลับของคุณแล้ว ให้เพิ่มรหัสตามที่แสดงด้านล่าง:
client_id = "da0c487d-c1c0-45ae-b7bf-43eaf53c5ad5"
client_secret = "479db2b01dcb93a3d4d20efb16dea971"
configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""
แยกวิเคราะห์เอกสาร Word และแยกรูปภาพโดยใช้ REST API ใน Python
เราสามารถแยกวิเคราะห์เอกสาร Word และแยกรูปภาพโดยทางโปรแกรมโดยทำตามขั้นตอนด้านล่าง:
- อัปโหลด ไฟล์ DOCX ไปยังคลาวด์
- แยกรูปภาพออกจากเอกสาร Word โดยใช้ Python
- ดาวน์โหลด ภาพที่แยกออกมา
อัปโหลดเอกสาร
ประการแรก เราจะอัปโหลดเอกสาร Word (DOCX) ไปยัง Cloud โดยใช้ตัวอย่างโค้ดที่ระบุด้านล่าง:
# สร้างอินสแตนซ์ของ API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
# สร้างคำขออัปโหลดไฟล์
request = groupdocs_parser_cloud.UploadFileRequest("sample.docx", "C:\\Files\\parser\\sample.docx", my_storage)
# อัพโหลดไฟล์
response = file_api.upload_file(request)
ด้วยเหตุนี้ ไฟล์ DOCX ที่อัปโหลดจะอยู่ใน ส่วนไฟล์ ของแดชบอร์ดบนระบบคลาวด์
แยกรูปภาพออกจากเอกสาร Word โดยใช้ Python
เราสามารถแยกรูปภาพทั้งหมดจากเอกสาร Word โดยทางโปรแกรมโดยทำตามขั้นตอนด้านล่าง
- ขั้นแรก สร้างอินสแตนซ์ของ ParseApi
- จากนั้น สร้างอินสแตนซ์ของ FileInfo
- จากนั้นกำหนดเส้นทางไปยังไฟล์ DOCX อินพุต
- จากนั้น สร้างอินสแตนซ์ของ ImageOptions
- จากนั้นกำหนด FileInfo ให้กับ ImageOptions
- หลังจากนั้น สร้าง ImagesRequest ด้วย ImageOptions เป็นอาร์กิวเมนต์
- สุดท้าย แยกรูปภาพโดยเรียกเมธอด ParseApi.images() ด้วย ImageRequest
ตัวอย่างโค้ดต่อไปนี้แสดงวิธีแยกรูปภาพจากไฟล์ DOCX โดยใช้เอกสารแยกวิเคราะห์ REST API ใน Python
# การเริ่มต้น API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# กำหนดตัวเลือกรูปภาพ
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.docx"
# คำขอสร้างภาพ
request = groupdocs_parser_cloud.ImagesRequest(options)
# รับภาพ
result = parseApi.images(request)
ดาวน์โหลดภาพที่แยกออกมา
ตัวอย่างโค้ดด้านบนจะบันทึกภาพที่แยกออกมาด้วยตัวแยกวิเคราะห์ไฟล์คำบนคลาวด์ เราสามารถดาวน์โหลดรูปภาพเหล่านี้ได้โดยใช้ตัวอย่างโค้ดด้านล่าง:
# การเริ่มต้น API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
folder_api = groupdocs_parser_cloud.FolderApi.from_config(configuration)
# รับรายการไฟล์
request = groupdocs_parser_cloud.GetFilesListRequest("parser/images/sample_docx/", my_storage);
response = folder_api.get_files_list(request)
# ดาวน์โหลดภาพทีละภาพ
for data in response.value:
# สร้างคำขอดาวน์โหลดไฟล์
request = groupdocs_parser_cloud.DownloadFileRequest(data.path, my_storage)
# ดาวน์โหลดไฟล์
response = file_api.download_file(request)
# ย้ายไฟล์ที่ดาวน์โหลดไปยังไดเร็กทอรีการทำงานของคุณ
shutil.move(response, "C:\\Files\\parser\\")
แยกข้อความจากเอกสาร Word โดยใช้ REST API ใน Python
เราสามารถแยกข้อความทั้งหมดจากเอกสาร Word โดยทางโปรแกรมโดยทำตามขั้นตอนด้านล่าง
- ขั้นแรก สร้างอินสแตนซ์ของ ParseApi
- จากนั้น สร้างอินสแตนซ์ของ FileInfo
- จากนั้นกำหนดเส้นทางไปยังไฟล์ DOCX อินพุต
- จากนั้น สร้างอินสแตนซ์ของ TextOptions
- จากนั้นกำหนด FileInfo ให้กับ TextOptions
- หลังจากนั้น สร้าง TextRequest ด้วย TextOptions เป็นอาร์กิวเมนต์
- สุดท้าย รับผลลัพธ์โดยเรียกเมธอด ParseApi.text() ด้วย TextRequest
ตัวอย่างโค้ดต่อไปนี้แสดงวิธีแยกข้อความจากไฟล์ DOCX โดยใช้ docx parser REST API
# การเริ่มต้น API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# กำหนดตัวเลือกข้อความ
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.docx"
# สร้างคำขอข้อความ
request = groupdocs_parser_cloud.TextRequest(options)
# รับข้อความ
result = parseApi.text(request)
print("Text: " + result.text)
ลองออนไลน์
จะใช้ซอฟต์แวร์แยกวิเคราะห์เอกสารออนไลน์ฟรีได้อย่างไร? โปรดลองใช้เครื่องมือแยกวิเคราะห์ DOCX ออนไลน์ฟรีต่อไปนี้ ซึ่งพัฒนาโดยใช้ API ของ python ของเอกสารคำที่แยกวิเคราะห์ข้างต้น https://products.groupdocs.app/parser/docx
บทสรุป
ในบทความนี้ เราได้เรียนรู้วิธีแยกวิเคราะห์เอกสาร Word โดยใช้โปรแกรมแยกวิเคราะห์คำบนคลาวด์ เราได้เห็นวิธีแยกรูปภาพและข้อความจากไฟล์ DOCX โดยใช้ parse docx Python บทความนี้ยังอธิบายวิธีการอัปโหลดไฟล์ DOCX ไปยังระบบคลาวด์โดยทางโปรแกรมและดาวน์โหลดภาพที่แยกออกจากระบบคลาวด์ นอกจากนี้ คุณสามารถเรียนรู้เพิ่มเติมเกี่ยวกับ GroupDocs.Parser Cloud API โดยใช้ เอกสารประกอบ เรายังมีส่วน API Reference ที่ช่วยให้คุณแสดงภาพและโต้ตอบกับ API ของเราได้โดยตรงผ่านเบราว์เซอร์ ในกรณีที่มีความคลุมเครือใดๆ เกี่ยวกับการแยกวิเคราะห์เอกสารและการแยกวิเคราะห์ไฟล์ โปรดติดต่อเราได้ที่ ฟอรัม