
آیا تا به حال با وضعیتی مواجه شدهاید که نیاز به استخراج متن از یک PDF فایل بهطور برنامهنویسی داشتید؟ استخراج متن از فایلهای PDF بهطور برنامهنویسی میتواند کار پیچیدهای باشد، بهویژه زمانی که با اسناد بزرگ سر و کار دارید. اگر شما یک توسعهدهنده Java هستید و به دنبال یک راه حل مطمئن میگردید، گروهداک Parser Cloud SDK برای Java یک روش کارآمد برای استخراج متن از فایلهای PDF ارائه میدهد. در این مقاله، به بررسی چگونگی استخراج متن از فایل PDF در Java با استفاده از REST API خواهیم پرداخت.
موضوعات زیر در این مقاله پوشش داده خواهند شد:
- Java REST API برای استخراج متن از فایلهای PDF و نصب SDK
- چگونه تمام متن را از فایلهای PDF در Java با استفاده از REST API استخراج کنیم
- Extract Specific Text from PDF in Java by Page Number Range
Java REST API برای استخراج متن از فایلهای PDF و نصب SDK
GroupDocs.Parser Cloud SDK for Java یک کیت توسعه نرمافزار قدرتمند، کاربرپسند و با ویژگیهای غنی است که قابلیتهای جامع تجزیه PDF را فراهم میکند. با مجموعه جامع از APIها، میتوانید به راحتی متن، متا دیتا، تصاویر و دادهها را از بیش از 50 نوع document formats استخراج کنید. همچنین C# .NET، Java، PHP، Ruby و Python SDKها را به عنوان document parser family members برای Cloud API ارائه میدهد. SDK میتواند در یک برنامه مبتنی بر Java یکپارچهسازی شود تا فرآیند توسعه شما را ساده کرده و بهرهوری را افزایش دهد.
شما میتوانید یا download فایل JAR API را دانلود کنید یا آن را با استفاده از Maven با افزودن مخزن و وابستگی زیر به فایل pom.xml پروژه خود نصب کنید:
Maven Repository:
<repository>
<id>groupdocs-artifact-repository</id>
<name>GroupDocs Artifact Repository</name>
<url>https://repository.groupdocs.cloud/repo</url>
</repository>
وابستگی مِیون:
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser-cloud</artifactId>
<version>23.3</version>
<scope>compile</scope>
</dependency>
در مرحله بعد، sign up برای یک حساب آزمایشی رایگان یا purchase a subscription plan در وبسایت GroupDocs و get your API key. پس از اینکه Client Id و Client Secret را داشتید، کد کوتاه زیر را به یک برنامه مبتنی بر Java اضافه کنید:
# درخواست کلید مشتری (clientid) و رمز مشتری (clientsecret) خود را از https://dashboard.groupdocs.cloud پس از ثبت نام دریافت کنید.
String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);
چگونه 모든 متن را از فایلهای PDF در Java با استفاده از REST API استخراج کنیم
استخراج متن از فایلهای PDF در Java با استفاده از GroupDocs.Parser Cloud SDK یک فرایند ساده است. در اینجا چگونگی انجام آن آمده است:
فایل را بارگذاری کنید
در ابتدا، سند PDF را با استفاده از کد نمونه زیر به Cloud آپلود کنید:
package com.groupdocsdev.classes;
import java.io.File;
import java.nio.file.Paths;
import com.groupdocs.cloud.Parser.api.*;
import com.groupdocs.cloud.Parser.client.ApiException;
import com.groupdocs.cloud.Parser.model.*;
import com.groupdocs.cloud.Parser.model.requests.*;
// فایل را با استفاده از Java به فضای ذخیرهسازی ابری آپلود کنید.
public class App {
public static void main(String[] args) {
FileApi apiInstance = new FileApi(configuration);
try {
File fileStream = new File("H:\\groupdocs-cloud-data\\input-sample-file.pdf");
UploadFileRequest request = new UploadFileRequest("java-testing\\input-sample-file.pdf", fileStream, MyStorage);
FilesUploadResult response = apiInstance.uploadFile(request);
System.out.println("Expected response type is FilesUploadResult: " + response.getUploaded().size());
} catch (ApiException e) {
System.err.println("Exception while calling FileApi:");
e.printStackTrace();
}
}
}
در نتیجه، فایل PDF بارگذاری شده در [files section][https://dashboard.groupdocs.cloud/files] داشبورد شما در Cloud در دسترس خواهد بود.
متن را از سند PDF در Java استخراج کنید
مراحل و یک کد نمونه برای استخراج تمام متن از فایلهای PDF به صورت برنامهنویسی در Java با استفاده از GroupDocs.Parser Cloud SDK برای Java را دنبال کنید:
- ابتدا، کلاسهای مورد نیاز را به فایل جاوای خود وارد کنید.
- ثانیاً، یک نمونه از کلاس ParseApi ایجاد کنید.
- سوم اینکه یک نمونه از کلاس FileInfo را ایجاد کنید.
- در مرحله بعد، مسیر فایل PDF را به عنوان ورودی تنظیم کنید.
- سپس یک نمونه از کلاس TextOptions() ایجاد کنید.
- سپس fileInfo را به متد setFileInfo اختصاص دهید.
- حالا یک نمونه از کلاس TextRequest() ایجاد کنید و پارامتر TextOptions را عبور دهید.
- در نهایت، نتایج را با فراخوانی متد ParseApi.text() و عبور دادن پارامتر TextRequest دریافت کنید.
کد نمونه زیر نحوه استخراج تمام متن از یک فایل PDF با استفاده از یک API REST در Java را نشان میدهد:
package com.groupdocsdev.classes;
import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;
// چگونه می توان متن را از یک سند PDF در Java استخراج کرد.
public class App {
public static void main(String[] args) {
// یک نمونه از API پارس ایجاد کنید
ParseApi apiInstance = new ParseApi(configuration);
try {
// تنظیمات را آماده کنید
FileInfo fileInfo = new FileInfo();
fileInfo.setFilePath("java-testing/input-sample-file.pdf");
TextOptions options = new TextOptions();
options.setFileInfo(fileInfo);
TextRequest request = new TextRequest(options);
TextResult response = apiInstance.text(request);
// مسیر فایل خروجی را بگیرید
System.out.println("Output file path: " + response.getPath());
} catch (ApiException e) {
System.err.println("Exception while calling FileApi:");
e.printStackTrace();
}
}
}
شما میتوانید خروجی را در تصویر زیر ببینید:

متن را از سند PDF در Java استخراج کنید
متن خاصی را از PDF در Java بر اساس محدوده شماره صفحه استخراج کنید
این بخش دستورالعملهای مرحله به مرحله و یک قطعه کد نمونه برای استخراج متن خاص از فایل PDF به صورت برنامهنویسی در Java را ارائه میدهد:
- ابتدا، کلاسهای مورد نیاز را به فایل جاوای خود وارد کنید.
- ثانیاً، یک نمونه از کلاس ParseApi ایجاد کنید.
- سوم اینکه، یک نمونه از کلاس FileInfo ایجاد کنید.
- در مرحله بعد، مسیر فایل PDF را به عنوان ورودی تنظیم کنید.
- سپس یک نمونه از کلاس TextOptions() ایجاد کنید.
- اکنون، مقادیر setStartPageNumber و setCountPagesToExtract را ارائه دهید.
- سپس، fileInfo را به متد setFileInfo اختصاص دهید.
- حالا یک نمونه از کلاس TextRequest() ایجاد کنید و پارامتر TextOptions را عبور دهید.
- در نهایت، نتایج را با فراخوانی متد ParseApi.text() و ارسال پارامتر TextRequest دریافت کنید.
نمونه کد زیر نشان میدهد که چگونه میتوان متن خاصی را از فایل PDF با شماره محدوده صفحه در Java با استفاده از REST API استخراج کرد:
package com.groupdocsdev.classes;
import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;
// چگونه میتوان متن را از یک فایل PDF بر اساس شماره دامنه صفحه در Java استخراج کرد.
public class App {
public static void main(String[] args) {
// یک نمونه از API پارس ایجاد کنید
ParseApi apiInstance = new ParseApi(configuration);
try {
// تنظیمات را آماده کنید
FileInfo fileInfo = new FileInfo();
fileInfo.setFilePath("java-testing/input-sample-file.pdf");
TextOptions options = new TextOptions();
options.setStartPageNumber(1);
options.setCountPagesToExtract(1);
options.setFileInfo(fileInfo);
TextRequest request = new TextRequest(options);
TextResult response = apiInstance.text(request);
// مسیر فایل خروجی را بگیرید
System.out.println("Output file path: " + response.getPath());
} catch (ApiException e) {
System.err.println("Exception while calling FileApi:");
e.printStackTrace();
}
}
}
پارسر آنلاین رایگان مدارک
بهترین راه برای استخراج متن از PDF به صورت آنلاین و رایگان چیست؟ لطفاً از یک online PDF document parser software برای استخراج متن از PDF استفاده کنید. این ابزار PDF Parser با استفاده از کتابخانه تجزیه Java ذکر شده در بالا توسعه یافته است.
نتیجه گیری
در نتیجه، GroupDocs.Parser Cloud SDK برای Java ابزاری ارزشمند برای توسعهدهندگان Java است که به شما امکان استخراج متن، متاداده و تصاویر به طور کارآمد را میدهد. موارد زیر را از این مقاله آموختهاید:
- چگونه میتوان تمام متن را از فایلهای PDF با استفاده از REST API در Java استخراج کرد.
- فایل PDF را به صورت برنامهنویسی به فضای ابری با استفاده از Java بارگذاری کنید.
- چگونه محتوا را از PDF در Java با استفاده از API REST استخراج کنیم.
- ابزار استخراج متن PDF آنلاین برای تجزیه و تحلیل اسناد PDF.
علاوه بر این، شما میتوانید اطلاعات بیشتری در مورد GroupDocs.Parser Cloud API با استفاده از documentation بیاموزید. ما همچنین یک بخش API Reference ارائه میدهیم که به شما امکان میدهد APIهای ما را به طور مستقیم از طریق مرورگر مشاهده و با آنها تعامل کنید. کد منبع کامل SDK Java به صورت رایگان در Github در دسترس است.
در نهایت، ما به نوشتن مقالات جدید بلاگ درباره فرمت های مختلف فایل و تجزیه با استفاده از REST API ادامه میدهیم. بنابراین، لطفاً برای دریافت آخرین بهروزرسانیها با ما در تماس باشید.
سوالی بپرسید
در صورت داشتن هر گونه سوال یا ابهام در مورد نحوه استخراج متن از فایلهای PDF، لطفاً احساس راحتی کرده و با ما از طریق forum تماس بگیرید.
سوالات متداول
How do I extract all text from a PDF file using Java?
شما میتوانید تمام متن را از یک فایل PDF با استفاده از GroupDocs.Parser Cloud SDK for Java در برنامههای Java خود استخراج کنید. این SDK قدرتمند روشی کارآمد و ساده برای استخراج متن از فایلهای PDF با استفاده از Java ارائه میدهد.
Can I extract text from password-protected PDF files using GroupDocs.Parser Cloud SDK for Java?
بله، SDK از استخراج متن از فایلهای PDF محافظتشده با رمز پشتیبانی میکند. شما میتوانید رمز عبور را به عنوان یک گزینه در طول فرآیند استخراج ارائه دهید.
آیا استخراج متن از صفحات خاص در یک فایل PDF ممکن است؟
بله، GroupDocs.Parser Cloud SDK for Java به شما این امکان را میدهد که محدوده شماره صفحهای را که میخواهید متن را استخراج کنید، مشخص کنید. به این ترتیب، میتوانید به راحتی متن را از بخشهای خاصی از یک سند PDF استخراج کنید.
همچنین ببینید
در اینجا برخی از مقالات مرتبط وجود دارد که ممکن است برای شما مفید باشد: