PDF (Portable Document Format) یکی از مهم ترین و پرکاربردترین فرمت های فایل است که برای ارائه و تبادل اسناد استفاده می شود. بهعنوان یک توسعهدهنده پایتون، سناریوهای زیادی وجود دارد که میخواهید متن را از یک سند PDF استخراج کنید و با استفاده از Python برای تجزیه و تحلیل متن، آن را در قالب دیگری صادر کنید. در این پست، نحوه استخراج متن از یک سند PDF را با استفاده از GroupDocs.Conversion Cloud SDK for Python به شما نشان خواهیم داد.
GroupDocs.Conversion Cloud یک راه حل REST API مستقل از پلتفرم برای تبدیل سند و تصویر بدون وابستگی به برنامه های شخص ثالث است. بیش از 50 نوع سند را از یک فرمت به فرمت دیگر تبدیل می کند. SDKs را برای همه زبانهای برنامهنویسی محبوب از جمله پایتون ارائه میکند، بنابراین توسعهدهندگان میتوانند مستقیماً از API در برنامههای خود استفاده کنند بدون اینکه نگران تماسهای REST API اساسی باشند.
بیایید کد را شروع کنیم:
GroupDocs.Conversion Cloud Package را نصب کنید
اول از همه، بسته groupdocs-conversion-cloud را از pypi با دستور زیر نصب کنید.
>pip install groupdocs-conversion-cloud
مثال استخراج متن PDF پایتون
برای استخراج متن از یک سند PDF مراحل زیر را دنبال می کنیم:
- ثبت نام رایگان با groupdocs.cloud to get your AppSID and AppKey
- یک ماژول پایتون ایجاد کنید و کدهای زیر را در آن کپی کنید. ما از گزینه های پیش فرض برای استخراج متن سند PDF استفاده کرده ایم. می توانید متن صفحات خاص را با استفاده از Convert Options از قالب متن استخراج کنید.
# ماژول وارد کنید
import groupdocs_conversion_cloud
# app_sid و app_key خود را در https://dashboard.groupdocs.cloud دریافت کنید (ثبت نام رایگان لازم است).
app_sid = "xxxxx-xxxx-xxxx-xxxx-xxxxxxxx"
app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"
# نمونه ای از API ایجاد کنید
convert_api = groupdocs_conversion_cloud.ConvertApi.from_keys(app_sid, app_key)
file_api = groupdocs_conversion_cloud.FileApi.from_keys(app_sid, app_key)
try:
#upload soruce file to storage
filename = '02_pages.pdf'
remote_name = '02_pages.pdf'
output_name= 'sample.txt'
strformat='txt'
request_upload = groupdocs_conversion_cloud.UploadFileRequest(remote_name,filename)
response_upload = file_api.upload_file(request_upload)
#Extract Text from PDF document
settings = groupdocs_conversion_cloud.ConvertSettings()
settings.file_path =remote_name
settings.format = strformat
settings.output_path = output_name
request = groupdocs_conversion_cloud.ConvertDocumentRequest(settings)
response = convert_api.convert_document(request)
print("Document converted successfully: " + str(response))
except groupdocs_conversion_cloud.ApiException as e:
print("Exception when calling get_supported_conversion_types: {0}".format(e.message))
- کد را در IDE مورد علاقه خود اجرا کنید، خروجی زیر را دریافت خواهید کرد و تمام. وظیفه انجام شد!
Document converted successfully: [{'name': 'sample.txt',
'path': 'sample.txt',
'size': 791,
'url': 'https://api.groupdocs.cloud/v2.0/conversion/storage/file/sample.txt'}]
می توانید نظرات خود را درباره GroupDocs.Conversion Cloud API در تالار گفتمان پشتیبانی با ما در میان بگذارید. یا اگر پیشنهادی دارید یا اگر به ویژگیهای خاصی نیاز دارید که انتظار دارید REST API ما داشته باشد، به ما اطلاع دهید.