تجزیه سند - استخراج متن از فایل PDF در جاوا

آیا تا به حال با موقعیتی مواجه شده اید که لازم باشد متنی را از یک فایل PDF به صورت برنامه نویسی استخراج کنید؟ استخراج متن از فایل‌های پی‌دی‌اف به‌صورت برنامه‌ای می‌تواند کار پیچیده‌ای باشد، به‌ویژه زمانی که با اسناد بزرگ سروکار دارید. اگر یک توسعه دهنده جاوا هستید و به دنبال راه حل قابل اعتمادی هستید، GroupDocs.Parser Cloud SDK برای جاوا راهی کارآمد برای استخراج متن از فایل های PDF ارائه می دهد. در این مقاله نحوه استخراج متن از فایل PDF در جاوا با استفاده از REST API را بررسی خواهیم کرد.

موضوعات زیر باید در این مقاله پوشش داده شود:

Java REST API برای استخراج متن از فایل‌های PDF و نصب SDK

GroupDocs.Parser Cloud SDK for Java یک کیت توسعه نرم افزار قدرتمند، کاربرپسند و با ویژگی های غنی است که قابلیت های تجزیه PDF جامع را ارائه می دهد. با مجموعه ای جامع از API ها، می توانید متن، ابرداده، تصاویر و داده ها را از بیش از 50 نوع فرمت های سند به راحتی استخراج کنید. همچنین C#.NET، Java، PHP، Ruby و Python SDKها را به عنوان [اعضای خانواده تجزیه کننده اسناد7 خود برای Cloud API فراهم می کند. SDK را می توان در یک برنامه کاربردی مبتنی بر جاوا ادغام کرد تا فرآیند توسعه شما را ساده کرده و بهره وری را افزایش دهد.

می توانید فایل JAR API را دانلود یا با استفاده از Maven با افزودن مخزن و وابستگی زیر به فایل pom.xml پروژه خود نصب کنید:

مخزن Maven:

<repository>
    <id>groupdocs-artifact-repository</id>
    <name>GroupDocs Artifact Repository</name>
    <url>https://repository.groupdocs.cloud/repo</url>
</repository>

وابستگی Maven:

<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser-cloud</artifactId>
    <version>23.3</version>
    <scope>compile</scope>
</dependency>

سپس، ثبت نام کنید برای یک حساب آزمایشی رایگان یا یک طرح اشتراک را بخرید در وب‌سایت GroupDocs و کلید API خود را دریافت کنید. هنگامی که Client Id و Client Secret را دارید، قطعه کد زیر را به یک برنامه مبتنی بر جاوا اضافه کنید:

# پس از ثبت نام، client_id و client_secret خود را از https://dashboard.groupdocs.cloud دریافت کنید.

String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);

نحوه استخراج تمام متن از فایل‌های PDF در جاوا با استفاده از REST API

استخراج متن از فایل‌های PDF در جاوا با استفاده از GroupDocs.Parser Cloud SDK یک فرآیند ساده است. در اینجا نحوه انجام آن آمده است:

  • آپلود فایل PDF را در ابر
  • Extract متن از PDF با استفاده از جاوا

آپلود فایل

ابتدا، سند PDF را با استفاده از نمونه کد زیر در ابر آپلود کنید:

package com.groupdocsdev.classes;

import java.io.File;
import java.nio.file.Paths;

import com.groupdocs.cloud.Parser.api.*;
import com.groupdocs.cloud.Parser.client.ApiException;
import com.groupdocs.cloud.Parser.model.*;
import com.groupdocs.cloud.Parser.model.requests.*;

// با استفاده از جاوا فایل را در فضای ذخیره سازی ابری آپلود کنید
public class App {

	public static void main(String[] args) {

		FileApi apiInstance = new FileApi(configuration);
		try {
			File fileStream = new File("H:\\groupdocs-cloud-data\\input-sample-file.pdf");
			UploadFileRequest request = new UploadFileRequest("java-testing\\input-sample-file.pdf", fileStream, MyStorage);
			FilesUploadResult response = apiInstance.uploadFile(request);
			System.out.println("Expected response type is FilesUploadResult: " + response.getUploaded().size());
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
	}
}

در نتیجه، فایل PDF آپلود شده در بخش فایل ها داشبورد شما در فضای ابری در دسترس خواهد بود.

استخراج متن از سند PDF در جاوا

مراحل و یک نمونه کد کد را دنبال کنید تا با استفاده از GroupDocs.Parser Cloud SDK برای جاوا، تمام متن را از فایل‌های PDF به صورت برنامه‌نویسی در جاوا استخراج کنید:

  • ابتدا کلاس های مورد نیاز را در فایل جاوا خود وارد کنید.
  • در مرحله دوم، یک نمونه از کلاس ParseApi ایجاد کنید.
  • سوم، یک نمونه از کلاس FileInfo ایجاد کنید.
  • سپس مسیر فایل PDF را به عنوان ورودی تنظیم کنید.
  • سپس، یک نمونه از کلاس TextOptions() ایجاد کنید.
  • سپس fileInfo را به متد setFileInfo اختصاص دهید.
  • اکنون یک نمونه از کلاس TextRequest() بسازید و پارامتر TextOptions را پاس کنید.
  • در نهایت با فراخوانی متد ParseApi.text() و پاس دادن پارامتر TextRequest به نتیجه برسید.

نمونه کد زیر نحوه استخراج تمام متن از یک فایل PDF را با استفاده از REST API در جاوا نشان می دهد:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;

// نحوه استخراج متن از یک سند PDF در جاوا.
public class App {

	public static void main(String[] args) {
		
		// یک نمونه از Parse API ایجاد کنید
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// تنظیمات را آماده کنید
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");
			TextOptions options = new TextOptions();
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);

			// دریافت مسیر فایل خروجی
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

خروجی را در تصویر زیر مشاهده می کنید:

استخراج متن جاوا از سند PDF

استخراج متن از سند PDF در جاوا

استخراج متن خاص از PDF در جاوا بر اساس محدوده شماره صفحه

این بخش دستورالعمل های گام به گام و یک نمونه کد کد را برای استخراج متن خاص از یک فایل PDF به صورت برنامه نویسی در جاوا ارائه می دهد:

  • ابتدا کلاس های مورد نیاز را در فایل جاوا خود وارد کنید.
  • در مرحله دوم، یک نمونه از کلاس ParseApi ایجاد کنید.
  • سوم، یک نمونه از کلاس FileInfo ایجاد کنید.
  • سپس مسیر فایل PDF را به عنوان ورودی تنظیم کنید.
  • سپس، یک نمونه از کلاس TextOptions() ایجاد کنید.
  • اکنون مقادیر setStartPageNumber و setCountPagesToExtract را ارائه دهید.
  • سپس fileInfo را به متد setFileInfo اختصاص دهید.
  • اکنون یک نمونه از کلاس TextRequest() بسازید و پارامتر TextOptions را پاس کنید.
  • در نهایت با فراخوانی متد ParseApi.text() و پاس دادن پارامتر TextRequest به نتیجه برسید.

نمونه کد زیر نحوه استخراج متن خاص از فایل PDF را بر اساس شماره محدوده صفحه در جاوا با استفاده از REST API نشان می دهد:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;

// نحوه استخراج متن از یک فایل PDF بر اساس شماره محدوده صفحه در جاوا.
public class App {

	public static void main(String[] args) {
		
		// یک نمونه از Parse API ایجاد کنید
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// تنظیمات را آماده کنید
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");
			TextOptions options = new TextOptions();
			options.setStartPageNumber(1);
			options.setCountPagesToExtract(1);
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);
				
			// دریافت مسیر فایل خروجی
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

تجزیه کننده اسناد آنلاین رایگان

بهترین راه برای استخراج متن از PDF به صورت رایگان چیست؟ لطفاً یک [نرم افزار تجزیه کننده اسناد PDF آنلاین 22 را برای استخراج متن از PDF امتحان کنید. این ابزار تجزیه‌کننده PDF با استفاده از کتابخانه تجزیه‌کننده جاوا که در بالا ذکر شد توسعه یافته است.

نتیجه

در پایان، GroupDocs.Parser Cloud SDK برای جاوا یک ابزار ارزشمند برای توسعه دهندگان جاوا است که به شما امکان می دهد متن، ابرداده و تصاویر را به طور موثر استخراج کنید. آنچه از این مقاله آموخته اید به شرح زیر است:

  • نحوه استخراج تمام متن از فایل های PDF با استفاده از REST API در جاوا.
  • به صورت برنامه نویسی یک فایل PDF را با استفاده از جاوا در فضای ابری آپلود کنید.
  • نحوه استخراج محتوا از PDF در جاوا با استفاده از REST API.
  • و ابزار استخراج متن PDF آنلاین برای تجزیه اسناد PDF.

علاوه بر این، می‌توانید با استفاده از مستندات درباره GroupDocs.Parser Cloud API اطلاعات بیشتری کسب کنید. ما همچنین یک بخش API Reference ارائه می دهیم که به شما امکان می دهد API های ما را مستقیماً از طریق مرورگر تجسم کنید و با آنها تعامل داشته باشید. کد منبع کامل جاوا SDK به صورت رایگان در Github در دسترس است.

در نهایت، ما به نوشتن مقالات وبلاگ جدید در قالب‌های فایل مختلف و تجزیه با استفاده از REST API ادامه می‌دهیم. بنابراین، لطفا برای آخرین به روز رسانی تماس بگیرید.

یه سوال بپرس

در صورتی که در مورد نحوه استخراج متن از فایل‌های پی‌دی‌اف سؤال یا سردرگمی دارید، لطفاً از طریق [فروم 26 ما با ما تماس بگیرید.

سوالات متداول

چگونه می توانم تمام متن را از یک فایل PDF با استفاده از جاوا استخراج کنم؟

می توانید تمام متن را از یک فایل PDF با استفاده از GroupDocs.Parser Cloud SDK for Java در برنامه های جاوا خود استخراج کنید. این SDK قدرتمند روشی کارآمد و ساده برای استخراج متن از فایل های PDF با استفاده از جاوا فراهم می کند.

آیا می توانم متن را از فایل های PDF محافظت شده با رمز عبور با استفاده از GroupDocs.Parser Cloud SDK برای جاوا استخراج کنم؟

بله، SDK از استخراج متن از فایل های PDF محافظت شده با رمز عبور پشتیبانی می کند. شما می توانید رمز عبور را به عنوان یک گزینه در طول فرآیند استخراج ارائه دهید.

آیا امکان استخراج متن از صفحات خاصی در یک فایل PDF وجود دارد؟

بله، GroupDocs.Parser Cloud SDK for Java به شما امکان می دهد شماره محدوده صفحه ای را که می خواهید متن را از آن استخراج کنید، مشخص کنید. به این ترتیب می توانید به راحتی متن را از بخش های خاصی از یک سند PDF استخراج کنید.

همچنین ببینید

در اینجا چند مقاله مرتبط وجود دارد که ممکن است برای شما مفید باشد: