
هل سبق لك أن واجهت موقفًا حيث كنت بحاجة لاستخراج نص من ملف PDF برمجيًا؟ يمكن أن يكون استخراج النصوص من ملفات PDF برمجيًا مهمة معقدة، خاصة عند التعامل مع مستندات كبيرة. إذا كنت مطور Java وتبحث عن حل موثوق، فإن GroupDocs.Parser Cloud SDK لـ Java يوفر وسيلة فعالة لاستخراج النصوص من ملفات PDF. في هذه المقالة، سنستكشف كيفية استخراج نصوص من ملف PDF في Java باستخدام واجهة برمجة التطبيقات REST.
ستتناول المقالة المواضيع التالية:
- Java REST API لاستخراج النص من ملفات PDF وتثبيت SDK
- كيفية استخراج جميع النصوص من ملفات PDF في Java باستخدام واجهة برمجة التطبيقات REST
- استخراج نص محدد من PDF في Java حسب نطاق رقم الصفحة
Java REST API to Extract Text from PDF Files and SDK Installation
GroupDocs.Parser Cloud SDK for Java هو مجموعة أدوات قوية وسهلة الاستخدام وغنية بالميزات توفر إمكانيات شاملة لتحليل PDF. مع مجموعة شاملة من واجهات برمجة التطبيقات، يمكنك استخراج النصوص، والبيانات التعريفية، والصور، وتحليل البيانات من أكثر من 50 نوعًا من document formats. كما أنها توفر C# .NET و Java و PHP و Ruby و Python SDKs كأعضاء في document parser family members الخاصة بـ Cloud API. يمكن دمج SDK في تطبيق يستند إلى Java لتبسيط عملية التطوير الخاصة بك وزيادة الإنتاجية.
يمكنك إما download ملف JAR لواجهة برمجة التطبيقات أو تثبيته باستخدام Maven عن طريق إضافة المستودع والاعتماد التاليين إلى ملف pom.xml الخاص بمشروعك:
مستودع مافن:
<repository>
<id>groupdocs-artifact-repository</id>
<name>GroupDocs Artifact Repository</name>
<url>https://repository.groupdocs.cloud/repo</url>
</repository>
اعتماد Maven:
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser-cloud</artifactId>
<version>23.3</version>
<scope>compile</scope>
</dependency>
بعد ذلك، sign up للحصول على حساب تجريبي مجاني أو purchase a subscription plan على موقع GroupDocs و get your API key. بمجرد أن يكون لديك Client Id و Client Secret، أضف مقتطف الشفرة أدناه إلى تطبيق يعتمد على Java:
# احصل على clientid و clientsecret الخاصين بك من https://dashboard.groupdocs.cloud بعد التسجيل.
String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);
كيف تستخرج كل النصوص من ملفات PDF في Java باستخدام واجهة برمجة التطبيقات REST
استخراج النص من ملفات PDF في Java باستخدام GroupDocs.Parser Cloud SDK هو عملية بسيطة. إليك كيفية القيام بذلك:
قم بتحميل الملف
أولاً، قم بتحميل مستند PDF إلى السحابة باستخدام مثال الشيفرة الموضح أدناه:
package com.groupdocsdev.classes;
import java.io.File;
import java.nio.file.Paths;
import com.groupdocs.cloud.Parser.api.*;
import com.groupdocs.cloud.Parser.client.ApiException;
import com.groupdocs.cloud.Parser.model.*;
import com.groupdocs.cloud.Parser.model.requests.*;
// رفع الملف إلى تخزين السحابة باستخدام Java
public class App {
public static void main(String[] args) {
FileApi apiInstance = new FileApi(configuration);
try {
File fileStream = new File("H:\\groupdocs-cloud-data\\input-sample-file.pdf");
UploadFileRequest request = new UploadFileRequest("java-testing\\input-sample-file.pdf", fileStream, MyStorage);
FilesUploadResult response = apiInstance.uploadFile(request);
System.out.println("Expected response type is FilesUploadResult: " + response.getUploaded().size());
} catch (ApiException e) {
System.err.println("Exception while calling FileApi:");
e.printStackTrace();
}
}
}
نتيجة لذلك، سيكون ملف PDF المرفوع متاحًا في [files section][https://dashboard.groupdocs.cloud/files] من لوحة التحكم الخاصة بك على السحابة.
استخراج النص من مستند PDF في Java
اتبع الخطوات ومثال على شفرة المصدر لاستخراج جميع النصوص من ملفات PDF برمجياً في Java باستخدام GroupDocs.Parser Cloud SDK لـ Java:
- أولاً، قم باستيراد الفئات المطلوبة إلى ملف Java الخاص بك.
- ثانيًا، قم بإنشاء مثيل من فئة ParseApi.
- ثالثًا، أنشئ مثيلًا من فئة FileInfo.
- بعد ذلك، قم بتعيين المسار إلى ملف PDF كمدخل.
- ثم، أنشئ مثيلًا من فئة TextOptions().
- التالي، قم بتعيين fileInfo إلى طريقة setFileInfo.
- الآن، أنشئ مثيلًا من فئة TextRequest() ومرر معلمة TextOptions.
- أخيرًا، احصل على النتائج عن طريق استدعاء طريقة ParseApi.text() وتمرير معلمة TextRequest.
العينة التالية من الكود توضح كيفية استخراج كافة النصوص من ملف PDF باستخدام API REST في Java:
package com.groupdocsdev.classes;
import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;
// كيف تستخرج النص من مستند PDF في Java.
public class App {
public static void main(String[] args) {
// إنشاء مثيل لواجهة برمجة تطبيقات Parse
ParseApi apiInstance = new ParseApi(configuration);
try {
// إعداد الإعدادات
FileInfo fileInfo = new FileInfo();
fileInfo.setFilePath("java-testing/input-sample-file.pdf");
TextOptions options = new TextOptions();
options.setFileInfo(fileInfo);
TextRequest request = new TextRequest(options);
TextResult response = apiInstance.text(request);
// احصل على مسار ملف المخرجات
System.out.println("Output file path: " + response.getPath());
} catch (ApiException e) {
System.err.println("Exception while calling FileApi:");
e.printStackTrace();
}
}
}
يمكنك رؤية المخرجات في الصورة أدناه:

استخراج النص من مستند PDF في جافا
استخراج نص معين من PDF في Java حسب نطاق رقم الصفحة
تقدم هذه القسم تعليمات خطوة بخطوة ومثال على شفرة البرمجة لاستخراج نص معين من ملف PDF برمجياً في Java:
- أولاً، قم باستيراد الفئات المطلوبة إلى ملف Java الخاص بك.
- ثانياً، أنشئ مثيلاً من فئة ParseApi.
- ثالثًا، أنشئ مثيلًا من فئة FileInfo.
- بعد ذلك، قم بتعيين المسار إلى ملف PDF كمدخل.
- ثم، أنشئ مثيلًا من فئة TextOptions().
- الآن، قدم قيم setStartPageNumber و setCountPagesToExtract.
- ثم قم بتعيين fileInfo إلى طريقة setFileInfo.
- الآن، أنشئ مثيلًا من فئة TextRequest() ومرر معلمة TextOptions.
- أخيرًا، احصل على النتائج من خلال استدعاء الطريقة ParseApi.text() وتمرير معلمة TextRequest.
العينة التالية من الكود تظهر كيفية استخراج نص محدد من ملف PDF حسب نطاق رقم الصفحة في Java باستخدام REST API:
package com.groupdocsdev.classes;
import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;
// كيف تستخرج النص من ملف PDF حسب نطاق رقم الصفحة في Java.
public class App {
public static void main(String[] args) {
// قم بإنشاء مثيل من واجهة برمجة تطبيقات Parse
ParseApi apiInstance = new ParseApi(configuration);
try {
// أعد الإعدادات
FileInfo fileInfo = new FileInfo();
fileInfo.setFilePath("java-testing/input-sample-file.pdf");
TextOptions options = new TextOptions();
options.setStartPageNumber(1);
options.setCountPagesToExtract(1);
options.setFileInfo(fileInfo);
TextRequest request = new TextRequest(options);
TextResult response = apiInstance.text(request);
// احصل على مسار ملف الإخراج
System.out.println("Output file path: " + response.getPath());
} catch (ApiException e) {
System.err.println("Exception while calling FileApi:");
e.printStackTrace();
}
}
}
محلل مستندات مجاني عبر الإنترنت
ما هي أفضل طريقة لاستخراج النص من PDF عبر الإنترنت مجانًا؟ يرجى تجربة online PDF document parser software لاستخراج النص من PDF. تم تطوير أداة PDF Parser هذه باستخدام مكتبة تحليل Java المذكورة أعلاه.
استنتاج
في الختام، يعتبر GroupDocs.Parser Cloud SDK لجافا أداة قيمة لمطوري Java تتيح لك استخراج النصوص، والبيانات الوصفية، والصور بكفاءة. ما يلي هو ما تعلمته من هذه المقالة:
- How to extract all text from PDF files using REST API in Java.
- برنامجياً قم بتحميل ملف PDF إلى السحابة باستخدام Java.
- كيف تستخرج المحتوى من PDF في Java باستخدام واجهة برمجة التطبيقات REST.
- أداة استخراج نص PDF عبر الإنترنت لتحليل مستندات PDF.
بالإضافة إلى ذلك، يمكنك معرفة المزيد عن واجهة برمجة التطبيقات لـ GroupDocs.Parser Cloud باستخدام documentation. نحن نقدم أيضًا قسم API Reference الذي يتيح لك تصور والتفاعل مع واجهات برمجة التطبيقات الخاصة بنا مباشرة من خلال المتصفح. الكود المصدري الكامل لـ Java SDK متاح مجانًا على Github.
أخيرًا، نستمر في كتابة مقالات مدونة جديدة حول تنسيقات الملفات المختلفة والتحليل باستخدام REST API. لذا، يرجى التواصل للحصول على آخر التحديثات.
Ask a question
في حال كان لديك أي استفسارات أو لبس حول كيفية استخراج النص من ملفات PDF، لا تتردد في الاتصال بنا عبر forum.
أسئلة شائعة
How do I extract all text from a PDF file using Java?
يمكنك استخراج كل النص من ملف PDF باستخدام GroupDocs.Parser Cloud SDK for Java في تطبيقات Java الخاصة بك. توفر هذه الحزمة البرمجية القوية طريقة فعالة ومباشرة لاستخراج النص من ملفات PDF باستخدام Java.
Can I extract text from password-protected PDF files using GroupDocs.Parser Cloud SDK for Java?
نعم، SDK يدعم استخراج النص من ملفات PDF المحمية بكلمة مرور. يمكنك تقديم كلمة المرور كخيار خلال عملية الاستخراج.
هل من الممكن استخراج النص من صفحات محددة داخل ملف PDF؟
نعم، GroupDocs.Parser Cloud SDK for Java يتيح لك تحديد رقم نطاق الصفحات التي تريد استخراج النص منها. بهذه الطريقة، يمكنك بسهولة استخراج النص من أقسام محددة من وثيقة PDF.
انظر أيضًا
هنا بعض المقالات ذات الصلة التي قد تجدها مفيدة: