استخراج متن از یک سند PDF توسط پایتون

PDF (Portable Document Format) یکی از مهم ترین و پرکاربردترین فرمت های فایل است که برای ارائه و تبادل اسناد استفاده می شود. به‌عنوان یک توسعه‌دهنده پایتون، سناریوهای زیادی وجود دارد که می‌خواهید متن را از یک سند PDF استخراج کنید و با استفاده از Python برای تجزیه و تحلیل متن، آن را در قالب دیگری صادر کنید. در این پست، نحوه استخراج متن از یک سند PDF را با استفاده از GroupDocs.Conversion Cloud SDK for Python به شما نشان خواهیم داد.

GroupDocs.Conversion Cloud یک راه حل REST API مستقل از پلتفرم برای تبدیل سند و تصویر بدون وابستگی به برنامه های شخص ثالث است. بیش از 50 نوع سند را از یک فرمت به فرمت دیگر تبدیل می کند. SDKs را برای همه زبان‌های برنامه‌نویسی محبوب از جمله پایتون ارائه می‌کند، بنابراین توسعه‌دهندگان می‌توانند مستقیماً از API در برنامه‌های خود استفاده کنند بدون اینکه نگران تماس‌های REST API اساسی باشند.

بیایید کد را شروع کنیم:

GroupDocs.Conversion Cloud Package را نصب کنید

اول از همه، بسته groupdocs-conversion-cloud را از pypi با دستور زیر نصب کنید.

>pip install groupdocs-conversion-cloud

مثال استخراج متن PDF پایتون

برای استخراج متن از یک سند PDF مراحل زیر را دنبال می کنیم:

  • ثبت نام رایگان با groupdocs.cloud to get your AppSID and AppKey
  • یک ماژول پایتون ایجاد کنید و کدهای زیر را در آن کپی کنید. ما از گزینه های پیش فرض برای استخراج متن سند PDF استفاده کرده ایم. می توانید متن صفحات خاص را با استفاده از Convert Options از قالب متن استخراج کنید.
# ماژول وارد کنید
import groupdocs_conversion_cloud

# app_sid و app_key خود را در https://dashboard.groupdocs.cloud دریافت کنید (ثبت نام رایگان لازم است).
app_sid = "xxxxx-xxxx-xxxx-xxxx-xxxxxxxx"
app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

# نمونه ای از API ایجاد کنید
convert_api = groupdocs_conversion_cloud.ConvertApi.from_keys(app_sid, app_key)
file_api = groupdocs_conversion_cloud.FileApi.from_keys(app_sid, app_key)

try:

        #upload soruce file to storage
        filename = '02_pages.pdf'
        remote_name = '02_pages.pdf'
        output_name= 'sample.txt'
        strformat='txt'

        request_upload = groupdocs_conversion_cloud.UploadFileRequest(remote_name,filename)
        response_upload = file_api.upload_file(request_upload)
        #Extract Text from PDF document
        settings = groupdocs_conversion_cloud.ConvertSettings()
        settings.file_path =remote_name
        settings.format = strformat
        settings.output_path = output_name
                
        request = groupdocs_conversion_cloud.ConvertDocumentRequest(settings)
        response = convert_api.convert_document(request)

        print("Document converted successfully: " + str(response))
except groupdocs_conversion_cloud.ApiException as e:
        print("Exception when calling get_supported_conversion_types: {0}".format(e.message))
  • کد را در IDE مورد علاقه خود اجرا کنید، خروجی زیر را دریافت خواهید کرد و تمام. وظیفه انجام شد!
Document converted successfully: [{'name': 'sample.txt',
 'path': 'sample.txt',
 'size': 791,
 'url': 'https://api.groupdocs.cloud/v2.0/conversion/storage/file/sample.txt'}]

می توانید نظرات خود را درباره GroupDocs.Conversion Cloud API در تالار گفتمان پشتیبانی با ما در میان بگذارید. یا اگر پیشنهادی دارید یا اگر به ویژگی‌های خاصی نیاز دارید که انتظار دارید REST API ما داشته باشد، به ما اطلاع دهید.