แยกข้อความจากเอกสาร PDF ด้วย Python โดยใช้ GroupDocs.Conversion Cloud
PDF (Portable Document Format) เป็นหนึ่งในรูปแบบไฟล์ที่สำคัญและใช้กันอย่างแพร่หลายซึ่งใช้ในการนำเสนอและแลกเปลี่ยนเอกสาร ในฐานะผู้พัฒนา Python มีหลายสถานการณ์ที่คุณต้องการแยกข้อความจากเอกสาร PDF และส่งออกในรูปแบบอื่นโดยใช้ Python สำหรับการวิเคราะห์ข้อความ ในโพสต์นี้ เราจะแสดงวิธีแยกข้อความจากเอกสาร PDF อย่างถูกต้องโดยใช้ GroupDocs.Conversion Cloud SDK for Python
GroupDocs.Conversion Cloud เป็นโซลูชัน REST API ที่ไม่ขึ้นกับแพลตฟอร์มสำหรับการแปลงเอกสารและรูปภาพโดยไม่ต้องพึ่งพาแอปพลิเคชันของบุคคลที่สาม มันแปลงเอกสารมากกว่า 50 ประเภทจากรูปแบบหนึ่งเป็นอีกรูปแบบหนึ่ง มี SDK สำหรับภาษาโปรแกรมยอดนิยมทั้งหมดรวมถึง Python ดังนั้นนักพัฒนาจึงสามารถใช้ API ได้โดยตรงในแอปพลิเคชันของตนโดยไม่ต้องกังวลเกี่ยวกับการเรียกใช้ REST API พื้นฐาน
ให้เราเริ่มรหัส:
ติดตั้ง GroupDocs.Conversion Cloud Package สิ่งแรก ติดตั้ง groupdocs-conversion-cloud package จาก pypi ด้วยคำสั่งต่อไปนี้
>pip ติดตั้ง groupdocs-conversion-cloud
ตัวอย่างการสกัดข้อความ Python PDF เราจะทำตามขั้นตอนเหล่านี้เพื่อแยกข้อความจากเอกสาร PDF:
ลงทะเบียนฟรีกับ groupdocs.cloud to get your AppSID and AppKey สร้างโมดูลPythonและคัดลอกวางโค้ดต่อไปนี้ในนั้น เราได้ใช้ตัวเลือกเริ่มต้นเพื่อแยกข้อความของเอกสาร PDF คุณสามารถแยกข้อความของบางหน้าได้โดยใช้ ตัวเลือกการแปลง ของรูปแบบข้อความ # นำเข้าโมดูล import groupdocs_conversion_cloud # รับ app_sid และ app_key ของคุณที่ https://dashboard.
โซลูชัน RESTful API ที่เชื่อถือได้เพื่อเพิ่มประสิทธิภาพเอกสาร PDF
GroupDocs.Conversion Cloud เป็นโซลูชันการแปลงเอกสารและรูปภาพ ช่วยให้นักพัฒนาสามารถเพิ่มคุณสมบัติการแปลงเอกสารในแอปพลิเคชันของตนบนแพลตฟอร์มใดก็ได้ด้วยการควบคุมที่สมบูรณ์โดยใช้ REST API Calls มาตรฐาน ในโพสต์นี้ เราจะพูดถึงวิธีเพิ่มประสิทธิภาพเอกสาร PDF คุณสามารถไปที่ GroupDocs.Convesion Cloud เพื่อดูรายการคุณลักษณะทั้งหมด
บางครั้งเอกสาร PDF อาจมีข้อมูลเพิ่มเติม การลดขนาดไฟล์ PDF จะช่วยให้คุณเพิ่มประสิทธิภาพการถ่ายโอนและการจัดเก็บเครือข่าย สิ่งนี้มีประโยชน์อย่างยิ่งสำหรับการเผยแพร่บนหน้าเว็บ การแชร์บนโซเชียลเน็ตเวิร์ก ส่งทางอีเมล หรือการเก็บถาวรในที่เก็บข้อมูล ให้ฉันแสดงให้คุณเห็นว่าคุณสามารถใช้ GroupDocs.Conversion Cloud เพื่อเพิ่มประสิทธิภาพเอกสาร PDF สำหรับเว็บหรือปรับขนาดไฟล์ PDF ได้ง่ายเพียงใด ฉันจะใช้ cURL ในตัวอย่างต่อไปนี้ คุณสามารถใช้ SDK ของภาษาโปรแกรมที่คุณชอบโดยไม่ต้องกังวลเกี่ยวกับการเรียกใช้ REST API
เพิ่มประสิทธิภาพเอกสาร PDF สำหรับเว็บ การปรับให้เหมาะสมหรือการทำให้เป็นเส้นตรงสำหรับเว็บ หมายถึงกระบวนการสร้างไฟล์ PDF ที่เหมาะสำหรับการเรียกดูออนไลน์โดยใช้เว็บเบราว์เซอร์ ไฟล์ PDF เชิงเส้นจะโหลดได้เร็วกว่าทางอินเทอร์เน็ต เนื่องจากไฟล์ PDF ที่ทำให้เป็นเส้นตรงมีข้อมูลที่ช่วยให้เซิร์ฟเวอร์การสตรีมแบบไบต์สามารถดาวน์โหลดไฟล์ PDF ทีละหน้าได้ หากการสตรีมแบบไบต์ถูกปิดใช้งานบนเซิร์ฟเวอร์หรือหากไฟล์ PDF ไม่ได้ทำให้เป็นเส้นตรง จะต้องดาวน์โหลดไฟล์ PDF ทั้งหมดก่อนที่จะสามารถดูได้ ตรวจสอบคำสั่ง cURL API เพื่อเพิ่มประสิทธิภาพไฟล์ PDF สำหรับการแสดงเว็บ:
ปรับ PDF ให้เหมาะสมสำหรับเว็บ
ขอแนะนำ GroupDocs.Conversion Cloud V2
GroupDocs Cloud มีความยินดีที่จะประกาศ GroupDocs.Conversion Cloud REST API เวอร์ชัน V2 เป็น API เวอร์ชันใหม่ทั้งหมด ด้วยแนวทางที่เรียบง่ายและใช้งานง่ายเมื่อเทียบกับ V1 API ใหม่มีวิธีการและตัวเลือกน้อยลงสำหรับงานแปลงเอกสารด้วยสถาปัตยกรรมที่ได้รับการปรับปรุง ในเวอร์ชันนี้ API มีวิธีการทำงานกับที่เก็บข้อมูลบนคลาวด์ซึ่งเป็นส่วนที่สำคัญ เรียนรู้เพิ่มเติม.
มีอะไรใหม่ วิธีการ API ของ GroupDocs.Conversion Cloud V2 แบ่งออกเป็นสี่ส่วน ส่วน Conversion API มีวิธีการแปลงเอกสาร ส่วน File API มีวิธีการอัปโหลด ดาวน์โหลด คัดลอก ย้าย และลบไฟล์ มีการเพิ่มวิธีการสร้าง คัดลอก ย้าย ลบโฟลเดอร์ในที่เก็บข้อมูลบนคลาวด์ในส่วน Folder API และ Storage API รวมถึงวิธีการรับข้อมูลพื้นที่เก็บข้อมูลและข้อมูลไฟล์
ในย่อหน้าถัดไป เราจะพูดถึงคุณลักษณะและฟังก์ชันการทำงานของ GroupDocs.Viewer Cloud V2
มันทำงานอย่างไร ในยุคดิจิทัลนี้ บริการแปลงเอกสารกำลังกลายเป็นความต้องการที่สำคัญขององค์กร รูปแบบเอกสารที่แตกต่างกันของเอกสารเป็นสิ่งจำเป็นในกระบวนการทางธุรกิจเพื่อวัตถุประสงค์ที่แตกต่างกัน ในฐานะนักพัฒนา คุณอาจกำลังค้นหาโซลูชันที่มีประสิทธิภาพและเชื่อถือได้เพื่อพัฒนาเครื่องมือแปลงเอกสาร GroupDocs.Conversion Cloud REST API รองรับการแปลงรูปแบบเอกสารมากกว่า 65 รูปแบบ ช่วยให้สามารถรวมคุณสมบัติการแปลงเอกสารในแอปพลิเคชันของคุณได้อย่างราบรื่น
เราจะแสดงให้คุณเห็นว่าคุณสามารถแปลงเอกสารเป็นรูปแบบเอกสารอื่นและเพิ่มลายน้ำได้อย่างง่ายดายและรวดเร็วเพียงใด เรากำลังใช้ cURL สำหรับคำขอ REST API ในตัวอย่างนี้ โปรดตรวจสอบรายการ [SDK ที่ใช้งานได้] ทั้งหมด]2 เพื่อใช้ GroupDocs.
การเพิ่มประสิทธิภาพทรัพยากร PDF และตัวเลือกบุ๊กมาร์กเปิดตัวใน Next Generation GroupDocs.Conversion Cloud 18.6
เรายินดีที่จะประกาศเปิดตัว Next Generation GroupDocs.Conversion Cloud 18.6 รายเดือน รุ่นนี้แนะนำตัวเลือกใหม่ในคุณสมบัติการแปลง PDF พร้อมกับการแก้ไขจุดบกพร่องที่สำคัญสำหรับ “การส่งคืน URL ที่ไม่ถูกต้อง” ในเวอร์ชันนี้ เราได้อัปเดต PHP และ .NET SDK เพื่อความเข้าใจที่ดีขึ้นเกี่ยวกับการใช้ฟีเจอร์ API API นี้สามารถทำงานร่วมกับแอปพลิเคชันของคุณเพื่อใช้ประโยชน์จากคุณสมบัติการแปลงเอกสาร โปรดคลิก ที่นี่ เพื่อดูรายละเอียดเพิ่มเติม
คุณสมบัติใหม่ - GroupDocs.Conversion Cloud GroupDocs.Conversion Cloud API เวอร์ชัน 18.6 มีตัวเลือกใหม่ในการแปลงเอกสาร PDF จาก Words, Cells และ XPS เพื่อควบคุมการเพิ่มประสิทธิภาพทรัพยากร ตัวเลือก Bookmark และการสร้าง PDF ระดับสีเทา ฯลฯ GroupDocs.Conversion Cloud API รองรับการแปลงเอกสารหลักเกือบทั้งหมดและการแปลงรูปแบบรูปภาพเป็น และจาก. การเปลี่ยนแปลงที่สำคัญบางประการในรุ่นปัจจุบันแสดงไว้ด้านล่าง คุณสามารถเยี่ยมชม GitHub ของเราเพื่อรับ SDK ที่อัปเดตสำหรับรายละเอียดทั้งหมด
ตัวเลือกสำหรับการสร้าง PDF เชิงเส้นเมื่อแปลงเป็น PDF ระบุระดับบุ๊กมาร์ก ระดับหัวเรื่อง และระดับขยายเมื่อแปลงจาก Words เป็น PDF และ XPS ตัวเลือกสำหรับการควบคุมการแปลงจากเซลล์ ตัวเลือกสำหรับการเพิ่มประสิทธิภาพทรัพยากรเมื่อแปลงเป็น PDF ตัวเลือกสำหรับการแปลงเป็น PDF ระดับสีเทา ผลลัพธ์ของการแปลงส่งคืน URL ที่ไม่ถูกต้อง - แก้ไข ทรัพยากร GroupDocs.
รับรูปแบบการแปลงที่รองรับทั้งหมดจาก Document Stream ใน Next Generation GroupDocs.Conversion Cloud 18.4
เรายินดีที่จะประกาศให้ Next Generation GroupDocs.Conversion Cloud 18.4 REST API เผยแพร่สู่สาธารณะ นี่คือรีลีสสำหรับการบำรุงรักษา ซึ่งรวมถึงการปรับปรุงบางอย่างในประสิทธิภาพการแปลงเอกสารพร้อมกับการอัปเดต PHP และ .NET SDK เพื่อให้เข้าใจคุณสมบัติของ API ได้ดียิ่งขึ้น API นี้สามารถทำงานร่วมกับแอปพลิเคชันของคุณเพื่อใช้ประโยชน์จากคุณสมบัติการแปลงเอกสาร โปรดคลิก ที่นี่ เพื่อดูรายละเอียดเพิ่มเติม
GroupDocs.Conversion Cloud - การปรับปรุงและแก้ไข API การแปลงเอกสารสำหรับคลาวด์ของเรารองรับการแปลงเอกสารหลักและรูปแบบรูปภาพเกือบทั้งหมด การเปิดตัวรายเดือนนี้แนะนำการทดสอบหน่วยใน PHP และ .NET SDK เพื่อรับการแปลงที่เป็นไปได้จากสตรีมเอกสารสำหรับรูปแบบเอกสารที่รองรับ การเปลี่ยนแปลงที่สำคัญบางประการในรุ่นปัจจุบันแสดงไว้ด้านล่าง คุณสามารถเยี่ยมชม GitHub ของเราเพื่อรับ SDK ที่อัปเดตสำหรับรายละเอียดทั้งหมด
เพิ่มการทดสอบหน่วยเพิ่มเติมใน .NET และ PHP SDK สำหรับการแปลงที่เป็นไปได้จากสตรีมเอกสาร ปรับปรุงข้อกำหนด Swagger ของ GroupDocs.Conversion สำหรับ Cloud ไม่สามารถจัดการคำขอด้วยเนื้อหา MIME หลายส่วนเดียว - แก้ไข ทรัพยากร GroupDocs.Conversion Cloud API คุณสามารถเยี่ยมชมแหล่งข้อมูล API ต่อไปนี้เพื่อเริ่มต้นใช้งานและใช้งาน API
ภาพรวม GroupDocs.Conversion Cloud API เอกสาร GroupDocs.
การแนะนำ PHP SDK ใน Next Generation GroupDocs.Conversion Cloud 18.3