ممکن است لازم باشد متنی را از اسناد PDF در برنامه های پایتون خود بخوانید و استخراج کنید. بنابراین، بهعنوان یک توسعهدهنده پایتون، میتوانید به راحتی تمام متنها را از اسناد PDF بهصورت برنامهنویسی در فضای ابری استخراج کنید. در این مقاله نحوه استخراج متن از اسناد PDF با استفاده از REST API در پایتون توضیح داده می شود.
موضوعات زیر در این مقاله پوشش داده خواهد شد:
Document Parser REST API و Python SDK
برای استخراج متن از یک سند PDF، من از Python SDK of GroupDocs.Parser Cloud API استفاده خواهم کرد. این اجازه می دهد تا پایتون متن را از pdf دریافت کند و داده ها را از انواع اسناد محبوب تجزیه کند. با استفاده از SDK میتوانید متن، تصاویر و دادهها را توسط یک الگو استخراج کنید. همچنین SDK های .NET، جاوا، PHP، Ruby و Node.js را به عنوان [اعضای خانواده تجزیه کننده اسناد3 برای Cloud API ارائه می کند.
میتوانید با استفاده از دستور زیر در کنسول، GroupDocs.Parser Cloud را با پیپ (package installer for python) در پروژه پایتون خود نصب کنید:
pip install groupdocs_parser_cloud
لطفاً قبل از شروع به دنبال کردن مراحل و نمونه کدهای موجود، شناسه مشتری و راز مشتری خود را از داشبورد دریافت کنید. هنگامی که شناسه مشتری و Secret خود را دریافت کردید، کد را مطابق شکل زیر اضافه کنید:
client_id = "112f0f38-9dae-42d5-b4fc-cc84ae644972"
client_secret = "16ad3fe0bdc39c910f57d2fd48a5d618"
configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""
استخراج متن از PDF با استفاده از REST API در پایتون
با دنبال کردن مراحل ساده زیر می توانید متن را از اسناد PDF استخراج کنید:
- [آپلود فایل PDF در فضای ابری6
- استخراج متن از اسناد PDF با استفاده از Python
- خواندن متن با شماره صفحه از اسناد PDF با استفاده از Python
- دریافت متن از سند پیوست شده با PDF با استفاده از پایتون
سند را آپلود کنید
اول از همه، سند PDF را برای دریافت متن از pdf پایتون با استفاده از مثال کد زیر آپلود کنید:
# مقداردهی اولیه api
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""
request = groupdocs_parser_cloud.UploadFileRequest("sample.pdf", "C:\\Files\\sample.pdf", my_storage)
response = file_api.upload_file(request)
در نتیجه، فایل PDF آپلود شده (sample.pdf) در بخش فایل ها داشبورد شما در فضای ابری در دسترس خواهد بود. اکنون آماده استخراج مطالب از pdf هستید.
استخراج متن از اسناد PDF با استفاده از پایتون
با انجام مراحل ذکر شده در زیر می توانید به راحتی متن را با پایتون به صورت برنامه نویسی از pdf استخراج کنید.
- یک نمونه از ParseApi ایجاد کنید
- TextOptions را تعریف کنید
- مسیر فایل PDF را تنظیم کنید
- TextRequest ایجاد کنید
- با فراخوانی روش ParseApi.text() به نتیجه برسید
نمونه کد زیر نحوه استخراج تمام متن از سند PDF را با استفاده از REST API نشان می دهد.
# مقداردهی اولیه api
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# گزینه های متن را تعریف کنید
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)
print("Text: " + result.text)
خواندن متن به شماره صفحه از اسناد PDF با استفاده از پایتون
با انجام مراحل ذکر شده در زیر می توانید به راحتی متن را از صفحات خاصی از یک فایل PDF به صورت برنامه نویسی استخراج کنید.
- یک نمونه از ParseApi ایجاد کنید
- TextOptions را تعریف کنید
- مسیر فایل PDF را ارائه دهید
- شماره صفحه شروع را تنظیم کنید
- تعداد صفحات را برای استخراج تنظیم کنید
- TextRequest ایجاد کنید
- با فراخوانی روش ParseApi.text() به نتیجه برسید
نمونه کد زیر نحوه استخراج کلمات از pdf در پایتون را بر اساس محدوده شماره صفحات با استفاده از REST API نشان می دهد.
# مقداردهی اولیه api
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# گزینه های متن را تعریف کنید
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
options.start_page_number = 1
options.count_pages_to_extract = 2
request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)
for page in result.pages:
print("PageIndex: " + str(page.page_index) + ". Text: " + page.text)
دریافت متن از سند پیوست شده با PDF با استفاده از پایتون
با دنبال کردن مراحل ذکر شده در زیر، میتوانید متن را از یک سند داخل یک ظرف، که به صورت پیوست در یک فایل PDF در دسترس است، به صورت برنامهنویسی استخراج کنید.
- یک نمونه از ParseApi ایجاد کنید
- TextOptions را تعریف کنید
- مسیر فایل PDF را تنظیم کنید
- ContainerItemInfo را تعریف کنید
- مسیر نسبی سند داخلی را ارائه دهید
- شماره صفحه شروع را تنظیم کنید
- تعداد صفحات را برای استخراج تنظیم کنید
- TextRequest ایجاد کنید
- با فراخوانی روش ParseApi.text() به نتایج برسید
نمونه کد زیر نحوه استخراج متن از یک سند داخل یک سند PDF را با استفاده از REST API نشان می دهد.
# مقداردهی اولیه api
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# گزینه های متن را تعریف کنید
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "PDF_with_attachements.pdf"
options.file_info.password = "password"
container_info = groupdocs_parser_cloud.ContainerItemInfo()
container_info.relative_path = "template-document.pdf"
options.container_item_info = container_info
options.start_page_number = 2
options.count_pages_to_extract = 1
request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)
print("Text: " + result.pages[0].text)
آنلاین را امتحان کنید
چگونه متن را از pdf به صورت آنلاین به صورت رایگان استخراج کنیم؟ لطفا ابزار تجزیه و تحلیل PDF آنلاین رایگان زیر را برای استخراج متن از pdf به صورت رایگان امتحان کنید. این استخراج کننده متن pdf با استفاده از API فوق توسعه یافته است. https://products.groupdocs.app/parser/pdf
نتیجه
در این مقاله نحوه استخراج متن از اسناد PDF در فضای ابری را یاد گرفتید. این مقاله همچنین نحوه آپلود برنامهنویسی یک فایل PDF را بر روی ابر و استخراج متن pdf به صورت آنلاین توضیح داد. علاوه بر این، ما همچنین یاد گرفتیم که فقط متن را از pdf با شماره صفحه استخراج کنیم و متن python را از pdf از سند پیوست استخراج کنیم.
میتوانید با استفاده از مستندات درباره GroupDocs.Parser Cloud API بیشتر بیاموزید. ما همچنین یک بخش API Reference ارائه میکنیم که به شما امکان میدهد APIهای ما را مستقیماً از طریق مرورگر تجسم کنید و با آنها تعامل داشته باشید. در صورت وجود هرگونه ابهامی در مورد استخراج متن pdf و استخراج متن از pdf python، لطفاً با ما در [فروم 18 تماس بگیرید.