استخراج نص من مستندات PDF باستخدام واجهة برمجة تطبيقات REST في Python

قد تحتاج إلى قراءة واستخراج نص من مستندات PDF في تطبيقات Python الخاصة بك. لذلك ، بصفتك مطور Python ، يمكنك بسهولة استخراج كل النص من مستندات PDF برمجيًا على السحابة. تشرح هذه المقالة كيفية استخراج النص من مستندات PDF باستخدام واجهة برمجة تطبيقات REST في Python.

سيتم تناول الموضوعات التالية في هذه المقالة:

محلل المستندات REST API و Python SDK
استخراج نص من ملف PDF باستخدام واجهة برمجة تطبيقات REST

محلل المستندات REST API و Python SDK

لاستخراج نص من مستند PDF ، سأستخدم Python SDK of GroupDocs.Parser Cloud API. يسمح لـ Python بالحصول على نص من ملف pdf وتحليل البيانات من جميع أنواع المستندات الشائعة. يمكنك استخراج النص والصور وتحليل البيانات بواسطة قالب باستخدام SDK. كما أنها توفر حزم SDK لـ .NET و Java و PHP و Ruby و Node.js باعتبارها أعضاء عائلة محلل المستندات لواجهة برمجة التطبيقات السحابية.

يمكنك تثبيت GroupDocs.Parser Cloud على مشروع Python الخاص بك باستخدام pip (package installer for python) باستخدام الأمر التالي في وحدة التحكم:

pip install groupdocs_parser_cloud

يرجى الحصول على معرّف العميل وسر العميل من لوحة القيادة قبل البدء في اتباع الخطوات وأمثلة الكود المتاحة. بمجرد حصولك على معرّف العميل والسرية ، أضف الرمز كما هو موضح أدناه:

client_id = "112f0f38-9dae-42d5-b4fc-cc84ae644972"
client_secret = "16ad3fe0bdc39c910f57d2fd48a5d618"

configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""

استخراج نص من ملف PDF باستخدام واجهة برمجة تطبيقات REST في Python

يمكنك استخراج نص من مستندات PDF باتباع الخطوات البسيطة المذكورة أدناه:

تحميل ملف PDF على السحابة
استخراج نص من مستندات PDF باستخدام Python
قراءة النص بأرقام الصفحات من مستندات PDF باستخدام Python
إحضار نص من مستند مرفق مع PDF باستخدام Python

قم بتحميل المستند

بادئ ذي بدء ، قم بتحميل مستند PDF للحصول على نص من pdf python باستخدام مثال الكود الموضح أدناه:

# تهيئة API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""

request = groupdocs_parser_cloud.UploadFileRequest("sample.pdf", "C:\\Files\\sample.pdf", my_storage)
response = file_api.upload_file(request)

نتيجة لذلك ، سيكون ملف PDF الذي تم تحميله (sample.pdf) متاحًا في قسم الملفات من لوحة التحكم الخاصة بك على السحابة. أنت الآن جاهز لاستخراج المحتوى من ملف pdf.

استخراج نص من مستندات PDF باستخدام Python

يمكنك بسهولة استخراج نص من ملف pdf باستخدام بيثون برمجيًا باتباع الخطوات المذكورة أدناه.

قم بإنشاء مثيل لـ ParseApi
حدد TextOptions
حدد المسار لملف PDF
إنشاء TextRequest
احصل على النتائج عن طريق استدعاء الأسلوب ParseApi.text()

يوضح نموذج التعليمات البرمجية التالي كيفية استخراج كل النص من مستند PDF باستخدام واجهة برمجة تطبيقات REST.

# تهيئة API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# تحديد خيارات النص
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

print("Text: " + result.text)

قراءة النص حسب أرقام الصفحات من مستندات PDF باستخدام Python

يمكنك بسهولة استخراج النص من صفحات معينة من ملف PDF برمجيًا باتباع الخطوات المذكورة أدناه.

قم بإنشاء مثيل لـ ParseApi
حدد TextOptions
قم بتوفير المسار لملف PDF
قم بتعيين رقم صفحة البداية
تعيين عدد الصفحات لاستخراجها
إنشاء TextRequest
احصل على النتائج عن طريق استدعاء الأسلوب ParseApi.text()

يوضح نموذج الكود التالي كيفية استخراج الكلمات من pdf في Python حسب نطاق أرقام الصفحات باستخدام واجهة برمجة تطبيقات REST.

# تهيئة API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# تحديد خيارات النص
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
options.start_page_number = 1
options.count_pages_to_extract = 2

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

for page in result.pages:
    print("PageIndex: " + str(page.page_index) + ". Text: " + page.text)

استخراج النص من ملف pdf بنطاق رقم الصفحة — *استخراج النص من خلال نطاق رقم الصفحة*

احصل على نص من مستند مرفق مع PDF باستخدام Python

يمكنك استخراج النص من مستند داخل حاوية ، متاح كمرفق في ملف PDF برمجيًا باتباع الخطوات المذكورة أدناه.

قم بإنشاء مثيل لـ ParseApi
حدد TextOptions
حدد المسار لملف PDF
تحديد معلومات الحاوية
قم بتوفير المسار النسبي للمستند الداخلي
قم بتعيين رقم صفحة البداية
تعيين عدد الصفحات لاستخراجها
إنشاء TextRequest
احصل على النتائج عن طريق استدعاء الأسلوب ParseApi.text()

يوضح نموذج التعليمات البرمجية التالي كيفية استخراج النص من مستند داخل مستند PDF باستخدام REST API.

# تهيئة API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# تحديد خيارات النص
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "PDF_with_attachements.pdf"
options.file_info.password = "password"
container_info = groupdocs_parser_cloud.ContainerItemInfo()
container_info.relative_path = "template-document.pdf"
options.container_item_info = container_info
options.start_page_number = 2
options.count_pages_to_extract = 1

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

print("Text: " + result.pages[0].text)

جرب عبر الإنترنت

كيفية استخراج نص من ملف pdf على الإنترنت مجانًا؟ يرجى تجربة أداة تحليل PDF المجانية التالية عبر الإنترنت لاستخراج النص من ملف pdf مجانًا. تم تطوير مستخرج نص pdf باستخدام واجهة برمجة التطبيقات المذكورة أعلاه. https://products.groupdocs.app/parser/pdf

خاتمة

في هذه المقالة ، تعلمت كيفية استخراج نص من مستندات PDF على السحابة. توضح هذه المقالة أيضًا كيفية تحميل ملف PDF برمجيًا على السحابة ومستخرج نص pdf عبر الإنترنت. علاوة على ذلك ، تعلمنا أيضًا استخراج النص فقط من ملف pdf برقم الصفحة واستخراج نص Python من ملف pdf من المستند المرفق.

يمكنك معرفة المزيد حول GroupDocs.Parser Cloud API باستخدام التوثيق. نوفر أيضًا قسم مرجع واجهة برمجة التطبيقات الذي يتيح لك تصور واجهات برمجة التطبيقات الخاصة بنا والتفاعل معها مباشرةً من خلال المتصفح. في حالة وجود أي غموض حول استخراج نصوص pdf واستخراج النص من pdf python ، فلا تتردد في الاتصال بنا على المنتدى.

أنظر أيضا

حل REST API لتحليل المستندات واستخراج البيانات

محلل المستندات REST API و Python SDK#

استخراج نص من ملف PDF باستخدام واجهة برمجة تطبيقات REST في Python#

قم بتحميل المستند#

استخراج نص من مستندات PDF باستخدام Python#

قراءة النص حسب أرقام الصفحات من مستندات PDF باستخدام Python#

احصل على نص من مستند مرفق مع PDF باستخدام Python#

جرب عبر الإنترنت#

خاتمة#

أنظر أيضا#