Python Extract Text من مستند PDF

يعد تنسيق PDF (تنسيق المستند المحمول) أحد أهم تنسيقات الملفات المستخدمة على نطاق واسع لتقديم المستندات وتبادلها. بصفتك مطورًا للغة Python ، هناك العديد من السيناريوهات التي تريد استخراج نص من مستند PDF وتصديره بتنسيق مختلف باستخدام Python لتحليلات النص. في هذا المنشور ، سنوضح لك كيفية استخراج النص من مستند PDF بدقة باستخدام GroupDocs.Conversion Cloud SDK for Python.

GroupDocs.Conversion Cloud عبارة عن حل REST API مستقل للنظام الأساسي لتحويل المستندات والصور دون الاعتماد على أي تطبيق تابع لجهة خارجية. يقوم بتحويل أكثر من 50 نوعًا من المستندات من تنسيق إلى آخر. يقدم SDKs لجميع لغات البرمجة الشائعة بما في ذلك Python ، لذلك يمكن للمطورين استخدام API مباشرة في تطبيقاتهم دون القلق بشأن استدعاءات REST API الأساسية.

لنبدأ الكود:

تثبيت حزمة GroupDocs.Conversion السحابية

أول شيء أولاً ، قم بتثبيت حزمة groupdocs-conversion-cloud من pypi باستخدام الأمر التالي.

> تثبيت النقطة groupdocs-convert-cloud

مثال على استخراج نص Python PDF

سنتبع هذه الخطوات لاستخراج نص من مستند PDF:

  • تسجيل مجاني مع groupdocs.cloud to get your AppSID and AppKey
  • قم بإنشاء وحدة python ونسخ ولصق الكود التالي فيها. لقد استخدمنا الخيارات الافتراضية لاستخراج نص من وثيقة PDF. يمكنك استخراج نص من صفحات معينة كذلك باستخدام خيارات التحويل لتنسيق النص.
# وحدة الاستيراد
import groupdocs_conversion_cloud

# احصل على app_sid و app_key على https://dashboard.groupdocs.cloud (التسجيل المجاني مطلوب).
app_sid = "xxxxx-xxxx-xxxx-xxxx-xxxxxxxx"
app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

# إنشاء مثيل من API
convert_api = groupdocs_conversion_cloud.ConvertApi.from_keys(app_sid, app_key)
file_api = groupdocs_conversion_cloud.FileApi.from_keys(app_sid, app_key)

try:

        #upload soruce file to storage
        filename = '02_pages.pdf'
        remote_name = '02_pages.pdf'
        output_name= 'sample.txt'
        strformat='txt'

        request_upload = groupdocs_conversion_cloud.UploadFileRequest(remote_name,filename)
        response_upload = file_api.upload_file(request_upload)
        #Extract Text from PDF document
        settings = groupdocs_conversion_cloud.ConvertSettings()
        settings.file_path =remote_name
        settings.format = strformat
        settings.output_path = output_name
                
        request = groupdocs_conversion_cloud.ConvertDocumentRequest(settings)
        response = convert_api.convert_document(request)

        print("Document converted successfully: " + str(response))
except groupdocs_conversion_cloud.ApiException as e:
        print("Exception when calling get_supported_conversion_types: {0}".format(e.message))
  • قم بتشغيل الكود في IDE المفضل لديك ، وستحصل على الإخراج التالي وهذا كل شيء. أنجزت المهمة!
Document converted successfully: [{'name': 'sample.txt',
 'path': 'sample.txt',
 'size': 791,
 'url': 'https://api.groupdocs.cloud/v2.0/conversion/storage/file/sample.txt'}]

لا تتردد في ترك تعليق لنا في منتدى الدعم لمشاركة أفكارك حول GroupDocs.Conversion Cloud API. أو أخبرنا إذا كان لديك أي اقتراحات أو إذا كنت بحاجة إلى أي ميزات معينة تتوقعها من REST API.