تحليل المستند - استخراج نص من ملف PDF في Java

هل سبق لك أن واجهت موقفًا احتجت فيه إلى استخراج نص من ملف PDF برمجيًا؟ يمكن أن يكون استخراج النص من ملفات PDF برمجيًا مهمة معقدة ، خاصة عند التعامل مع المستندات الكبيرة. إذا كنت مطور Java وتبحث عن حل موثوق ، فإن GroupDocs.Parser Cloud SDK لـ Java توفر طريقة فعالة لاستخراج النص من ملفات PDF. في هذه المقالة ، سوف نستكشف كيفية استخراج نص من ملف PDF في Java باستخدام REST API.

سيتم تناول الموضوعات التالية في هذه المقالة:

Java REST API لاستخراج النص من ملفات PDF وتثبيت SDK

GroupDocs.Parser Cloud SDK لجافا عبارة عن مجموعة تطوير برامج قوية وسهلة الاستخدام وغنية بالمميزات توفر إمكانات تحليل PDF شاملة. من خلال مجموعته الشاملة من واجهات برمجة التطبيقات ، يمكنك استخراج النصوص والبيانات الوصفية والصور وتحليل البيانات بسهولة من أكثر من 50 نوعًا من تنسيقات المستندات. كما أنها توفر C# .NET ، و Java ، و PHP ، و Ruby ، و Python SDK باعتبارها أعضاء عائلة محلل المستندات لواجهة برمجة التطبيقات السحابية. يمكن دمج SDK في تطبيق قائم على Java لتبسيط عملية التطوير لديك وتعزيز الإنتاجية.

يمكنك إما تنزيل ملف JAR الخاص بواجهة برمجة التطبيقات أو تثبيته باستخدام Maven عن طريق إضافة المستودع التالي والتبعية إلى ملف pom.xml الخاص بمشروعك:

مستودع مافن:

<repository>
    <id>groupdocs-artifact-repository</id>
    <name>GroupDocs Artifact Repository</name>
    <url>https://repository.groupdocs.cloud/repo</url>
</repository>

تبعية المخضرم:

<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser-cloud</artifactId>
    <version>23.3</version>
    <scope>compile</scope>
</dependency>

بعد ذلك ، اشترك للحصول على حساب تجريبي مجاني أو شراء خطة اشتراك على موقع GroupDocs و احصل على مفتاح API الخاص بك. بمجرد حصولك على معرف العميل وسر العميل ، أضف مقتطف الشفرة أدناه إلى تطبيق يستند إلى Java:

# احصل على client_id و client_secret من https://dashboard.groupdocs.cloud بعد التسجيل.

String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);

كيفية استخراج كل النص من ملفات PDF في جافا باستخدام واجهة برمجة تطبيقات REST

استخراج نص من ملفات PDF في Java باستخدام GroupDocs.Parser Cloud SDK هي عملية مباشرة. هيريس كيفية القيام بذلك:

تحميل الملف

أولاً ، قم بتحميل مستند PDF إلى السحابة باستخدام مثال الرمز الموضح أدناه:

package com.groupdocsdev.classes;

import java.io.File;
import java.nio.file.Paths;

import com.groupdocs.cloud.Parser.api.*;
import com.groupdocs.cloud.Parser.client.ApiException;
import com.groupdocs.cloud.Parser.model.*;
import com.groupdocs.cloud.Parser.model.requests.*;

// قم بتحميل الملف إلى Cloud Storage باستخدام Java
public class App {

	public static void main(String[] args) {

		FileApi apiInstance = new FileApi(configuration);
		try {
			File fileStream = new File("H:\\groupdocs-cloud-data\\input-sample-file.pdf");
			UploadFileRequest request = new UploadFileRequest("java-testing\\input-sample-file.pdf", fileStream, MyStorage);
			FilesUploadResult response = apiInstance.uploadFile(request);
			System.out.println("Expected response type is FilesUploadResult: " + response.getUploaded().size());
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
	}
}

نتيجة لذلك ، سيكون ملف PDF الذي تم تحميله متاحًا في قسم الملفات من لوحة التحكم على السحابة.

استخراج نص من مستند PDF في Java

اتبع الخطوات ومثال مقتطف الشفرة لاستخراج كل النص من ملفات PDF برمجيًا في Java باستخدام GroupDocs.Parser Cloud SDK لجافا:

  • أولاً ، قم باستيراد الفئات المطلوبة إلى ملف Java الخاص بك.
  • ثانيًا ، قم بإنشاء مثيل للفئة ParseApi.
  • ثالثًا ، قم بإنشاء مثيل للفئة FileInfo.
  • بعد ذلك ، قم بتعيين المسار إلى ملف PDF كمدخل.
  • ثم قم بإنشاء مثيل لفئة TextOptions().
  • بعد ذلك ، قم بتعيين fileInfo إلى طريقة setFileInfo.
  • الآن ، قم بإنشاء مثيل لفئة TextRequest() وتمرير معلمة TextOptions.
  • أخيرًا ، احصل على النتائج عن طريق استدعاء طريقة ParseApi.text() وتمرير معلمة TextRequest.

يوضح نموذج التعليمات البرمجية التالي كيفية استخراج كل النص من ملف PDF باستخدام واجهة برمجة تطبيقات REST في Java:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;

// كيفية استخراج نص من مستند PDF بجافا.
public class App {

	public static void main(String[] args) {
		
		// قم بإنشاء مثيل من Parse API
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// تحضير الإعدادات
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");
			TextOptions options = new TextOptions();
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);

			// الحصول على مسار ملف الإخراج
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

يمكنك أن ترى الإخراج في الصورة أدناه:

جافا استخراج النص من وثيقة PDF

استخراج نص من مستند PDF في جافا

استخراج نص معين من PDF في جافا حسب نطاق رقم الصفحة

يوفر هذا القسم إرشادات خطوة بخطوة ومثالًا لمقتطف الشفرة لاستخراج نص معين من ملف PDF برمجيًا في Java:

  • أولاً ، قم باستيراد الفئات المطلوبة إلى ملف Java الخاص بك.
  • ثانيًا ، قم بإنشاء مثيل للفئة ParseApi.
  • ثالثًا ، قم بإنشاء مثيل للفئة FileInfo.
  • بعد ذلك ، قم بتعيين المسار إلى ملف PDF كمدخل.
  • ثم قم بإنشاء مثيل لفئة TextOptions().
  • الآن ، قم بتوفير قيم setStartPageNumber و setCountPagesToExtract.
  • بعد ذلك ، قم بتعيين fileInfo إلى أسلوب setFileInfo.
  • الآن ، قم بإنشاء مثيل لفئة TextRequest() وتمرير معلمة TextOptions.
  • أخيرًا ، احصل على النتائج عن طريق استدعاء طريقة ParseApi.text() وتمرير معلمة TextRequest.

يوضح نموذج التعليمات البرمجية التالي كيفية استخراج نص معين من ملف PDF حسب رقم نطاق الصفحات في Java باستخدام REST API:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;

// كيفية استخراج نص من ملف PDF عن طريق رقم نطاق الصفحات في Java.
public class App {

	public static void main(String[] args) {
		
		// قم بإنشاء مثيل من Parse API
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// تحضير الإعدادات
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");
			TextOptions options = new TextOptions();
			options.setStartPageNumber(1);
			options.setCountPagesToExtract(1);
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);
				
			// الحصول على مسار ملف الإخراج
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

محلل مجاني للوثائق عبر الإنترنت

ما هي أفضل طريقة لاستخراج نص من ملف PDF عبر الإنترنت مجانًا؟ الرجاء تجربة برنامج محلل مستندات PDF عبر الإنترنت لاستخراج نص من ملف PDF. تم تطوير أداة محلل PDF باستخدام مكتبة محلل Java المذكورة أعلاه.

خاتمة

في الختام ، GroupDocs.Parser Cloud SDK for Java هي أداة قيمة لمطوري Java تسمح لك باستخراج النصوص والبيانات الوصفية والصور بكفاءة. فيما يلي ما تعلمته من هذه المقالة:

  • كيفية استخراج كل النصوص من ملفات PDF باستخدام REST API في Java ؛
  • تحميل ملف PDF برمجيًا إلى السحابة باستخدام Java ؛
  • كيفية استخراج المحتوى من PDF في Java باستخدام REST API ؛
  • وأداة استخراج نص PDF عبر الإنترنت لتحليل مستندات PDF.

بالإضافة إلى ذلك ، يمكنك معرفة المزيد حول GroupDocs.Parser Cloud API باستخدام التوثيق. نوفر أيضًا قسم مرجع واجهة برمجة التطبيقات الذي يتيح لك تصور واجهات برمجة التطبيقات الخاصة بنا والتفاعل معها مباشرةً من خلال المتصفح. شفرة المصدر الكاملة لـ Java SDK متاحة مجانًا على Github.

أخيرًا ، نواصل كتابة مقالات مدونة جديدة حول تنسيقات ملفات مختلفة والتحليل باستخدام REST API. لذا ، يرجى التواصل معنا للحصول على آخر التحديثات.

طرح سؤال

في حال كان لديك أي استفسارات أو ارتباك حول كيفية استخراج نص من ملفات PDF ، فلا تتردد في الاتصال بنا عبر المنتدى.

أسئلة وأجوبة

كيف يمكنني استخراج كل النص من ملف PDF باستخدام Java؟

يمكنك استخراج كل النص من ملف PDF باستخدام GroupDocs.Parser Cloud SDK for Java في تطبيقات Java الخاصة بك. يوفر SDK القوي هذا طريقة فعالة ومباشرة لاستخراج النص من ملفات PDF باستخدام Java.

هل يمكنني استخراج نص من ملفات PDF المحمية بكلمة مرور باستخدام GroupDocs.Parser Cloud SDK لـ Java؟

نعم ، يدعم SDK استخراج النص من ملفات PDF المحمية بكلمة مرور. يمكنك توفير كلمة المرور كخيار أثناء عملية الاستخراج.

هل من الممكن استخراج نص من صفحات معينة داخل ملف PDF؟

نعم ، GroupDocs.Parser Cloud SDK for Java يسمح لك بتحديد رقم نطاق الصفحات الذي تريد استخراج النص منه. بهذه الطريقة ، يمكنك بسهولة استخراج نص من أقسام معينة من مستند PDF.

أنظر أيضا

فيما يلي بعض المقالات ذات الصلة التي قد تجدها مفيدة: