استخراج متن از PDF با استفاده از پایتون

ممکن است لازم باشد متنی را از اسناد PDF در برنامه های پایتون خود بخوانید و استخراج کنید. بنابراین، به‌عنوان یک توسعه‌دهنده پایتون، می‌توانید به راحتی تمام متن‌ها را از اسناد PDF به‌صورت برنامه‌نویسی در فضای ابری استخراج کنید. در این مقاله نحوه استخراج متن از اسناد PDF با استفاده از REST API در پایتون توضیح داده می شود.

موضوعات زیر در این مقاله پوشش داده خواهد شد:

Document Parser REST API و Python SDK

برای استخراج متن از یک سند PDF، من از Python SDK of GroupDocs.Parser Cloud API استفاده خواهم کرد. این اجازه می دهد تا پایتون متن را از pdf دریافت کند و داده ها را از انواع اسناد محبوب تجزیه کند. با استفاده از SDK می‌توانید متن، تصاویر و داده‌ها را توسط یک الگو استخراج کنید. همچنین SDK های .NET، جاوا، PHP، Ruby و Node.js را به عنوان [اعضای خانواده تجزیه کننده اسناد3 برای Cloud API ارائه می کند.

می‌توانید با استفاده از دستور زیر در کنسول، GroupDocs.Parser Cloud را با پیپ (package installer for python) در پروژه پایتون خود نصب کنید:

pip install groupdocs_parser_cloud

لطفاً قبل از شروع به دنبال کردن مراحل و نمونه کدهای موجود، شناسه مشتری و راز مشتری خود را از داشبورد دریافت کنید. هنگامی که شناسه مشتری و Secret خود را دریافت کردید، کد را مطابق شکل زیر اضافه کنید:

client_id = "112f0f38-9dae-42d5-b4fc-cc84ae644972"
client_secret = "16ad3fe0bdc39c910f57d2fd48a5d618"

configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""

استخراج متن از PDF با استفاده از REST API در پایتون

با دنبال کردن مراحل ساده زیر می توانید متن را از اسناد PDF استخراج کنید:

سند را آپلود کنید

اول از همه، سند PDF را برای دریافت متن از pdf پایتون با استفاده از مثال کد زیر آپلود کنید:

# مقداردهی اولیه api
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""

request = groupdocs_parser_cloud.UploadFileRequest("sample.pdf", "C:\\Files\\sample.pdf", my_storage)
response = file_api.upload_file(request)

در نتیجه، فایل PDF آپلود شده (sample.pdf) در بخش فایل ها داشبورد شما در فضای ابری در دسترس خواهد بود. اکنون آماده استخراج مطالب از pdf هستید.

استخراج متن از اسناد PDF با استفاده از پایتون

با انجام مراحل ذکر شده در زیر می توانید به راحتی متن را با پایتون به صورت برنامه نویسی از pdf استخراج کنید.

  • یک نمونه از ParseApi ایجاد کنید
  • TextOptions را تعریف کنید
  • مسیر فایل PDF را تنظیم کنید
  • TextRequest ایجاد کنید
  • با فراخوانی روش ParseApi.text() به نتیجه برسید

نمونه کد زیر نحوه استخراج تمام متن از سند PDF را با استفاده از REST API نشان می دهد.

# مقداردهی اولیه api
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# گزینه های متن را تعریف کنید
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

print("Text: " + result.text)
متن را از کل سند استخراج کنید

متن را از کل سند استخراج کنید

خواندن متن به شماره صفحه از اسناد PDF با استفاده از پایتون

با انجام مراحل ذکر شده در زیر می توانید به راحتی متن را از صفحات خاصی از یک فایل PDF به صورت برنامه نویسی استخراج کنید.

  • یک نمونه از ParseApi ایجاد کنید
  • TextOptions را تعریف کنید
  • مسیر فایل PDF را ارائه دهید
  • شماره صفحه شروع را تنظیم کنید
  • تعداد صفحات را برای استخراج تنظیم کنید
  • TextRequest ایجاد کنید
  • با فراخوانی روش ParseApi.text() به نتیجه برسید

نمونه کد زیر نحوه استخراج کلمات از pdf در پایتون را بر اساس محدوده شماره صفحات با استفاده از REST API نشان می دهد.

# مقداردهی اولیه api
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# گزینه های متن را تعریف کنید
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
options.start_page_number = 1
options.count_pages_to_extract = 2

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

for page in result.pages:
    print("PageIndex: " + str(page.page_index) + ". Text: " + page.text)
متن را از فایل pdf با یک محدوده شماره صفحه استخراج کنید

متن را با یک محدوده شماره صفحه استخراج کنید

دریافت متن از سند پیوست شده با PDF با استفاده از پایتون

با دنبال کردن مراحل ذکر شده در زیر، می‌توانید متن را از یک سند داخل یک ظرف، که به صورت پیوست در یک فایل PDF در دسترس است، به صورت برنامه‌نویسی استخراج کنید.

  • یک نمونه از ParseApi ایجاد کنید
  • TextOptions را تعریف کنید
  • مسیر فایل PDF را تنظیم کنید
  • ContainerItemInfo را تعریف کنید
  • مسیر نسبی سند داخلی را ارائه دهید
  • شماره صفحه شروع را تنظیم کنید
  • تعداد صفحات را برای استخراج تنظیم کنید
  • TextRequest ایجاد کنید
  • با فراخوانی روش ParseApi.text() به نتایج برسید

نمونه کد زیر نحوه استخراج متن از یک سند داخل یک سند PDF را با استفاده از REST API نشان می دهد.

# مقداردهی اولیه api
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# گزینه های متن را تعریف کنید
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "PDF_with_attachements.pdf"
options.file_info.password = "password"
container_info = groupdocs_parser_cloud.ContainerItemInfo()
container_info.relative_path = "template-document.pdf"
options.container_item_info = container_info
options.start_page_number = 2
options.count_pages_to_extract = 1

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

print("Text: " + result.pages[0].text)
استخراج متن از یک سند در داخل یک ظرف

استخراج متن از یک سند در داخل یک ظرف

آنلاین را امتحان کنید

چگونه متن را از pdf به صورت آنلاین به صورت رایگان استخراج کنیم؟ لطفا ابزار تجزیه و تحلیل PDF آنلاین رایگان زیر را برای استخراج متن از pdf به صورت رایگان امتحان کنید. این استخراج کننده متن pdf با استفاده از API فوق توسعه یافته است. https://products.groupdocs.app/parser/pdf

نتیجه

در این مقاله نحوه استخراج متن از اسناد PDF در فضای ابری را یاد گرفتید. این مقاله همچنین نحوه آپلود برنامه‌نویسی یک فایل PDF را بر روی ابر و استخراج متن pdf به صورت آنلاین توضیح داد. علاوه بر این، ما همچنین یاد گرفتیم که فقط متن را از pdf با شماره صفحه استخراج کنیم و متن python را از pdf از سند پیوست استخراج کنیم.

می‌توانید با استفاده از مستندات درباره GroupDocs.Parser Cloud API بیشتر بیاموزید. ما همچنین یک بخش API Reference ارائه می‌کنیم که به شما امکان می‌دهد API‌های ما را مستقیماً از طریق مرورگر تجسم کنید و با آن‌ها تعامل داشته باشید. در صورت وجود هرگونه ابهامی در مورد استخراج متن pdf و استخراج متن از pdf python، لطفاً با ما در [فروم 18 تماس بگیرید.

همچنین ببینید