تجزیه سند – استخراج متن از فایل PDF در جاوا

آیا تا به حال با وضعیتی مواجه شده‌اید که نیاز به استخراج متن از یک PDF فایل به‌طور برنامه‌نویسی داشتید؟ استخراج متن از فایل‌های PDF به‌طور برنامه‌نویسی می‌تواند کار پیچیده‌ای باشد، به‌ویژه زمانی که با اسناد بزرگ سر و کار دارید. اگر شما یک توسعه‌دهنده Java هستید و به دنبال یک راه حل مطمئن می‌گردید، گروه‌داک Parser Cloud SDK برای Java یک روش کارآمد برای استخراج متن از فایل‌های PDF ارائه می‌دهد. در این مقاله، به بررسی چگونگی استخراج متن از فایل PDF در Java با استفاده از REST API خواهیم پرداخت.

موضوعات زیر در این مقاله پوشش داده خواهند شد:

Java REST API برای استخراج متن از فایل‌های PDF و نصب SDK

GroupDocs.Parser Cloud SDK for Java یک کیت توسعه نرم‌افزار قدرتمند، کاربرپسند و با ویژگی‌های غنی است که قابلیت‌های جامع تجزیه PDF را فراهم می‌کند. با مجموعه جامع از APIها، می‌توانید به راحتی متن، متا دیتا، تصاویر و داده‌ها را از بیش از 50 نوع document formats استخراج کنید. همچنین C# .NET، Java، PHP، Ruby و Python SDKها را به عنوان document parser family members برای Cloud API ارائه می‌دهد. SDK می‌تواند در یک برنامه مبتنی بر Java یکپارچه‌سازی شود تا فرآیند توسعه شما را ساده کرده و بهره‌وری را افزایش دهد.

شما می‌توانید یا download فایل JAR API را دانلود کنید یا آن را با استفاده از Maven با افزودن مخزن و وابستگی زیر به فایل pom.xml پروژه خود نصب کنید:

Maven Repository:

<repository>
    <id>groupdocs-artifact-repository</id>
    <name>GroupDocs Artifact Repository</name>
    <url>https://repository.groupdocs.cloud/repo</url>
</repository>

وابستگی مِیون:

<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser-cloud</artifactId>
    <version>23.3</version>
    <scope>compile</scope>
</dependency>

در مرحله بعد، sign up برای یک حساب آزمایشی رایگان یا purchase a subscription plan در وب‌سایت GroupDocs و get your API key. پس از اینکه Client Id و Client Secret را داشتید، کد کوتاه زیر را به یک برنامه مبتنی بر Java اضافه کنید:

# درخواست کلید مشتری (clientid) و رمز مشتری (clientsecret) خود را از https://dashboard.groupdocs.cloud پس از ثبت نام دریافت کنید.

String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);

چگونه 모든 متن را از فایل‌های PDF در Java با استفاده از REST API استخراج کنیم

استخراج متن از فایل‌های PDF در Java با استفاده از GroupDocs.Parser Cloud SDK یک فرایند ساده است. در اینجا چگونگی انجام آن آمده است:

  • آپلود فایل PDF را به Cloud ارسال کنید.
  • Extract متن را از PDF با استفاده از Java استخراج کنید.

فایل را بارگذاری کنید

در ابتدا، سند PDF را با استفاده از کد نمونه زیر به Cloud آپلود کنید:

package com.groupdocsdev.classes;

import java.io.File;
import java.nio.file.Paths;

import com.groupdocs.cloud.Parser.api.*;
import com.groupdocs.cloud.Parser.client.ApiException;
import com.groupdocs.cloud.Parser.model.*;
import com.groupdocs.cloud.Parser.model.requests.*;

// فایل را با استفاده از Java به فضای ذخیره‌سازی ابری آپلود کنید.
public class App {

	public static void main(String[] args) {

		FileApi apiInstance = new FileApi(configuration);
		try {
			File fileStream = new File("H:\\groupdocs-cloud-data\\input-sample-file.pdf");
			UploadFileRequest request = new UploadFileRequest("java-testing\\input-sample-file.pdf", fileStream, MyStorage);
			FilesUploadResult response = apiInstance.uploadFile(request);
			System.out.println("Expected response type is FilesUploadResult: " + response.getUploaded().size());
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
	}
}

در نتیجه، فایل PDF بارگذاری شده در [files section][https://dashboard.groupdocs.cloud/files] داشبورد شما در Cloud در دسترس خواهد بود.

متن را از سند PDF در Java استخراج کنید

مراحل و یک کد نمونه برای استخراج تمام متن از فایل‌های PDF به صورت برنامه‌نویسی در Java با استفاده از GroupDocs.Parser Cloud SDK برای Java را دنبال کنید:

  • ابتدا، کلاس‌های مورد نیاز را به فایل جاوای خود وارد کنید.
  • ثانیاً، یک نمونه از کلاس ParseApi ایجاد کنید.
  • سوم اینکه یک نمونه از کلاس FileInfo را ایجاد کنید.
  • در مرحله بعد، مسیر فایل PDF را به عنوان ورودی تنظیم کنید.
  • سپس یک نمونه از کلاس TextOptions() ایجاد کنید.
  • سپس fileInfo را به متد setFileInfo اختصاص دهید.
  • حالا یک نمونه از کلاس TextRequest() ایجاد کنید و پارامتر TextOptions را عبور دهید.
  • در نهایت، نتایج را با فراخوانی متد ParseApi.text() و عبور دادن پارامتر TextRequest دریافت کنید.

کد نمونه زیر نحوه استخراج تمام متن از یک فایل PDF با استفاده از یک API REST در Java را نشان می‌دهد:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;

// چگونه می توان متن را از یک سند PDF در Java استخراج کرد.
public class App {

	public static void main(String[] args) {
		
		// یک نمونه از API پارس ایجاد کنید
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// تنظیمات را آماده کنید
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");
			TextOptions options = new TextOptions();
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);

			// مسیر فایل خروجی را بگیرید
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

شما می‌توانید خروجی را در تصویر زیر ببینید:

جاوا استخراج متن از سند PDF

متن را از سند PDF در Java استخراج کنید

متن خاصی را از PDF در Java بر اساس محدوده شماره صفحه استخراج کنید

این بخش دستورالعمل‌های مرحله به مرحله و یک قطعه کد نمونه برای استخراج متن خاص از فایل PDF به صورت برنامه‌نویسی در Java را ارائه می‌دهد:

  • ابتدا، کلاس‌های مورد نیاز را به فایل جاوای خود وارد کنید.
  • ثانیاً، یک نمونه از کلاس ParseApi ایجاد کنید.
  • سوم اینکه، یک نمونه از کلاس FileInfo ایجاد کنید.
  • در مرحله بعد، مسیر فایل PDF را به عنوان ورودی تنظیم کنید.
  • سپس یک نمونه از کلاس TextOptions() ایجاد کنید.
  • اکنون، مقادیر setStartPageNumber و setCountPagesToExtract را ارائه دهید.
  • سپس، fileInfo را به متد setFileInfo اختصاص دهید.
  • حالا یک نمونه از کلاس TextRequest() ایجاد کنید و پارامتر TextOptions را عبور دهید.
  • در نهایت، نتایج را با فراخوانی متد ParseApi.text() و ارسال پارامتر TextRequest دریافت کنید.

نمونه کد زیر نشان می‌دهد که چگونه می‌توان متن خاصی را از فایل PDF با شماره محدوده صفحه در Java با استفاده از REST API استخراج کرد:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;

// چگونه می‌توان متن را از یک فایل PDF بر اساس شماره دامنه صفحه در Java استخراج کرد.
public class App {

	public static void main(String[] args) {
		
		// یک نمونه از API پارس ایجاد کنید
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// تنظیمات را آماده کنید
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");
			TextOptions options = new TextOptions();
			options.setStartPageNumber(1);
			options.setCountPagesToExtract(1);
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);
				
			// مسیر فایل خروجی را بگیرید
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

پارسر آنلاین رایگان مدارک

بهترین راه برای استخراج متن از PDF به صورت آنلاین و رایگان چیست؟ لطفاً از یک online PDF document parser software برای استخراج متن از PDF استفاده کنید. این ابزار PDF Parser با استفاده از کتابخانه تجزیه Java ذکر شده در بالا توسعه یافته است.

نتیجه گیری

در نتیجه، GroupDocs.Parser Cloud SDK برای Java ابزاری ارزشمند برای توسعه‌دهندگان Java است که به شما امکان استخراج متن، متاداده و تصاویر به طور کارآمد را می‌دهد. موارد زیر را از این مقاله آموخته‌اید:

  • چگونه می‌توان تمام متن را از فایل‌های PDF با استفاده از REST API در Java استخراج کرد.
  • فایل PDF را به صورت برنامه‌نویسی به فضای ابری با استفاده از Java بارگذاری کنید.
  • چگونه محتوا را از PDF در Java با استفاده از API REST استخراج کنیم.
  • ابزار استخراج متن PDF آنلاین برای تجزیه و تحلیل اسناد PDF.

علاوه بر این، شما می‌توانید اطلاعات بیشتری در مورد GroupDocs.Parser Cloud API با استفاده از documentation بیاموزید. ما همچنین یک بخش API Reference ارائه می‌دهیم که به شما امکان می‌دهد APIهای ما را به طور مستقیم از طریق مرورگر مشاهده و با آن‌ها تعامل کنید. کد منبع کامل SDK Java به صورت رایگان در Github در دسترس است.

در نهایت، ما به نوشتن مقالات جدید بلاگ درباره فرمت های مختلف فایل و تجزیه با استفاده از REST API ادامه می‌دهیم. بنابراین، لطفاً برای دریافت آخرین به‌روزرسانی‌ها با ما در تماس باشید.

سوالی بپرسید

در صورت داشتن هر گونه سوال یا ابهام در مورد نحوه استخراج متن از فایل‌های PDF، لطفاً احساس راحتی کرده و با ما از طریق forum تماس بگیرید.

سوالات متداول

How do I extract all text from a PDF file using Java?

شما می‌توانید تمام متن را از یک فایل PDF با استفاده از GroupDocs.Parser Cloud SDK for Java در برنامه‌های Java خود استخراج کنید. این SDK قدرتمند روشی کارآمد و ساده برای استخراج متن از فایل‌های PDF با استفاده از Java ارائه می‌دهد.

Can I extract text from password-protected PDF files using GroupDocs.Parser Cloud SDK for Java?

بله، SDK از استخراج متن از فایل‌های PDF محافظت‌شده با رمز پشتیبانی می‌کند. شما می‌توانید رمز عبور را به عنوان یک گزینه در طول فرآیند استخراج ارائه دهید.

آیا استخراج متن از صفحات خاص در یک فایل PDF ممکن است؟

بله، GroupDocs.Parser Cloud SDK for Java به شما این امکان را می‌دهد که محدوده شماره صفحه‌ای را که می‌خواهید متن را استخراج کنید، مشخص کنید. به این ترتیب، می‌توانید به راحتی متن را از بخش‌های خاصی از یک سند PDF استخراج کنید.

همچنین ببینید

در اینجا برخی از مقالات مرتبط وجود دارد که ممکن است برای شما مفید باشد: