استخراج نص من ملف PDF باستخدام Python

قد تحتاج إلى قراءة واستخراج نص من مستندات PDF في تطبيقات Python الخاصة بك. لذلك ، بصفتك مطور Python ، يمكنك بسهولة استخراج كل النص من مستندات PDF برمجيًا على السحابة. تشرح هذه المقالة كيفية استخراج النص من مستندات PDF باستخدام واجهة برمجة تطبيقات REST في Python.

سيتم تناول الموضوعات التالية في هذه المقالة:

محلل المستندات REST API و Python SDK

لاستخراج نص من مستند PDF ، سأستخدم Python SDK of GroupDocs.Parser Cloud API. يسمح لـ Python بالحصول على نص من ملف pdf وتحليل البيانات من جميع أنواع المستندات الشائعة. يمكنك استخراج النص والصور وتحليل البيانات بواسطة قالب باستخدام SDK. كما أنها توفر حزم SDK لـ .NET و Java و PHP و Ruby و Node.js باعتبارها أعضاء عائلة محلل المستندات لواجهة برمجة التطبيقات السحابية.

يمكنك تثبيت GroupDocs.Parser Cloud على مشروع Python الخاص بك باستخدام pip (package installer for python) باستخدام الأمر التالي في وحدة التحكم:

pip install groupdocs_parser_cloud

يرجى الحصول على معرّف العميل وسر العميل من لوحة القيادة قبل البدء في اتباع الخطوات وأمثلة الكود المتاحة. بمجرد حصولك على معرّف العميل والسرية ، أضف الرمز كما هو موضح أدناه:

client_id = "112f0f38-9dae-42d5-b4fc-cc84ae644972"
client_secret = "16ad3fe0bdc39c910f57d2fd48a5d618"

configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""

استخراج نص من ملف PDF باستخدام واجهة برمجة تطبيقات REST في Python

يمكنك استخراج نص من مستندات PDF باتباع الخطوات البسيطة المذكورة أدناه:

قم بتحميل المستند

بادئ ذي بدء ، قم بتحميل مستند PDF للحصول على نص من pdf python باستخدام مثال الكود الموضح أدناه:

# تهيئة API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""

request = groupdocs_parser_cloud.UploadFileRequest("sample.pdf", "C:\\Files\\sample.pdf", my_storage)
response = file_api.upload_file(request)

نتيجة لذلك ، سيكون ملف PDF الذي تم تحميله (sample.pdf) متاحًا في قسم الملفات من لوحة التحكم الخاصة بك على السحابة. أنت الآن جاهز لاستخراج المحتوى من ملف pdf.

استخراج نص من مستندات PDF باستخدام Python

يمكنك بسهولة استخراج نص من ملف pdf باستخدام بيثون برمجيًا باتباع الخطوات المذكورة أدناه.

  • قم بإنشاء مثيل لـ ParseApi
  • حدد TextOptions
  • حدد المسار لملف PDF
  • إنشاء TextRequest
  • احصل على النتائج عن طريق استدعاء الأسلوب ParseApi.text()

يوضح نموذج التعليمات البرمجية التالي كيفية استخراج كل النص من مستند PDF باستخدام واجهة برمجة تطبيقات REST.

# تهيئة API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# تحديد خيارات النص
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

print("Text: " + result.text)
استخراج النص من المستند بأكمله

استخراج النص من المستند بأكمله

قراءة النص حسب أرقام الصفحات من مستندات PDF باستخدام Python

يمكنك بسهولة استخراج النص من صفحات معينة من ملف PDF برمجيًا باتباع الخطوات المذكورة أدناه.

  • قم بإنشاء مثيل لـ ParseApi
  • حدد TextOptions
  • قم بتوفير المسار لملف PDF
  • قم بتعيين رقم صفحة البداية
  • تعيين عدد الصفحات لاستخراجها
  • إنشاء TextRequest
  • احصل على النتائج عن طريق استدعاء الأسلوب ParseApi.text()

يوضح نموذج الكود التالي كيفية استخراج الكلمات من pdf في Python حسب نطاق أرقام الصفحات باستخدام واجهة برمجة تطبيقات REST.

# تهيئة API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# تحديد خيارات النص
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
options.start_page_number = 1
options.count_pages_to_extract = 2

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

for page in result.pages:
    print("PageIndex: " + str(page.page_index) + ". Text: " + page.text)
استخراج النص من ملف pdf بنطاق رقم الصفحة

استخراج النص من خلال نطاق رقم الصفحة

احصل على نص من مستند مرفق مع PDF باستخدام Python

يمكنك استخراج النص من مستند داخل حاوية ، متاح كمرفق في ملف PDF برمجيًا باتباع الخطوات المذكورة أدناه.

  • قم بإنشاء مثيل لـ ParseApi
  • حدد TextOptions
  • حدد المسار لملف PDF
  • تحديد معلومات الحاوية
  • قم بتوفير المسار النسبي للمستند الداخلي
  • قم بتعيين رقم صفحة البداية
  • تعيين عدد الصفحات لاستخراجها
  • إنشاء TextRequest
  • احصل على النتائج عن طريق استدعاء الأسلوب ParseApi.text()

يوضح نموذج التعليمات البرمجية التالي كيفية استخراج النص من مستند داخل مستند PDF باستخدام REST API.

# تهيئة API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# تحديد خيارات النص
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "PDF_with_attachements.pdf"
options.file_info.password = "password"
container_info = groupdocs_parser_cloud.ContainerItemInfo()
container_info.relative_path = "template-document.pdf"
options.container_item_info = container_info
options.start_page_number = 2
options.count_pages_to_extract = 1

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

print("Text: " + result.pages[0].text)
استخراج نص من مستند داخل حاوية

استخراج نص من مستند داخل حاوية

جرب عبر الإنترنت

كيفية استخراج نص من ملف pdf على الإنترنت مجانًا؟ يرجى تجربة أداة تحليل PDF المجانية التالية عبر الإنترنت لاستخراج النص من ملف pdf مجانًا. تم تطوير مستخرج نص pdf باستخدام واجهة برمجة التطبيقات المذكورة أعلاه. https://products.groupdocs.app/parser/pdf

خاتمة

في هذه المقالة ، تعلمت كيفية استخراج نص من مستندات PDF على السحابة. توضح هذه المقالة أيضًا كيفية تحميل ملف PDF برمجيًا على السحابة ومستخرج نص pdf عبر الإنترنت. علاوة على ذلك ، تعلمنا أيضًا استخراج النص فقط من ملف pdf برقم الصفحة واستخراج نص Python من ملف pdf من المستند المرفق.

يمكنك معرفة المزيد حول GroupDocs.Parser Cloud API باستخدام التوثيق. نوفر أيضًا قسم مرجع واجهة برمجة التطبيقات الذي يتيح لك تصور واجهات برمجة التطبيقات الخاصة بنا والتفاعل معها مباشرةً من خلال المتصفح. في حالة وجود أي غموض حول استخراج نصوص pdf واستخراج النص من pdf python ، فلا تتردد في الاتصال بنا على المنتدى.

أنظر أيضا