آیا تا به حال با موقعیتی مواجه شده اید که لازم باشد متنی را از یک فایل PDF به صورت برنامه نویسی استخراج کنید؟ استخراج متن از فایلهای پیدیاف بهصورت برنامهای میتواند کار پیچیدهای باشد، بهویژه زمانی که با اسناد بزرگ سروکار دارید. اگر یک توسعه دهنده جاوا هستید و به دنبال راه حل قابل اعتمادی هستید، GroupDocs.Parser Cloud SDK برای جاوا راهی کارآمد برای استخراج متن از فایل های PDF ارائه می دهد. در این مقاله نحوه استخراج متن از فایل PDF در جاوا با استفاده از REST API را بررسی خواهیم کرد.
موضوعات زیر باید در این مقاله پوشش داده شود:
- Java REST API برای استخراج متن از فایلهای PDF و نصب SDK
- نحوه استخراج تمام متن از فایلهای PDF در جاوا با استفاده از REST API
- [استخراج متن خاص از PDF در جاوا بر اساس محدوده شماره صفحه4
Java REST API برای استخراج متن از فایلهای PDF و نصب SDK
GroupDocs.Parser Cloud SDK for Java یک کیت توسعه نرم افزار قدرتمند، کاربرپسند و با ویژگی های غنی است که قابلیت های تجزیه PDF جامع را ارائه می دهد. با مجموعه ای جامع از API ها، می توانید متن، ابرداده، تصاویر و داده ها را از بیش از 50 نوع فرمت های سند به راحتی استخراج کنید. همچنین C#.NET، Java، PHP، Ruby و Python SDKها را به عنوان [اعضای خانواده تجزیه کننده اسناد7 خود برای Cloud API فراهم می کند. SDK را می توان در یک برنامه کاربردی مبتنی بر جاوا ادغام کرد تا فرآیند توسعه شما را ساده کرده و بهره وری را افزایش دهد.
می توانید فایل JAR API را دانلود یا با استفاده از Maven با افزودن مخزن و وابستگی زیر به فایل pom.xml پروژه خود نصب کنید:
مخزن Maven:
<repository>
<id>groupdocs-artifact-repository</id>
<name>GroupDocs Artifact Repository</name>
<url>https://repository.groupdocs.cloud/repo</url>
</repository>
وابستگی Maven:
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser-cloud</artifactId>
<version>23.3</version>
<scope>compile</scope>
</dependency>
سپس، ثبت نام کنید برای یک حساب آزمایشی رایگان یا یک طرح اشتراک را بخرید در وبسایت GroupDocs و کلید API خود را دریافت کنید. هنگامی که Client Id و Client Secret را دارید، قطعه کد زیر را به یک برنامه مبتنی بر جاوا اضافه کنید:
# پس از ثبت نام، client_id و client_secret خود را از https://dashboard.groupdocs.cloud دریافت کنید.
String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);
نحوه استخراج تمام متن از فایلهای PDF در جاوا با استفاده از REST API
استخراج متن از فایلهای PDF در جاوا با استفاده از GroupDocs.Parser Cloud SDK یک فرآیند ساده است. در اینجا نحوه انجام آن آمده است:
آپلود فایل
ابتدا، سند PDF را با استفاده از نمونه کد زیر در ابر آپلود کنید:
package com.groupdocsdev.classes;
import java.io.File;
import java.nio.file.Paths;
import com.groupdocs.cloud.Parser.api.*;
import com.groupdocs.cloud.Parser.client.ApiException;
import com.groupdocs.cloud.Parser.model.*;
import com.groupdocs.cloud.Parser.model.requests.*;
// با استفاده از جاوا فایل را در فضای ذخیره سازی ابری آپلود کنید
public class App {
public static void main(String[] args) {
FileApi apiInstance = new FileApi(configuration);
try {
File fileStream = new File("H:\\groupdocs-cloud-data\\input-sample-file.pdf");
UploadFileRequest request = new UploadFileRequest("java-testing\\input-sample-file.pdf", fileStream, MyStorage);
FilesUploadResult response = apiInstance.uploadFile(request);
System.out.println("Expected response type is FilesUploadResult: " + response.getUploaded().size());
} catch (ApiException e) {
System.err.println("Exception while calling FileApi:");
e.printStackTrace();
}
}
}
در نتیجه، فایل PDF آپلود شده در بخش فایل ها داشبورد شما در فضای ابری در دسترس خواهد بود.
استخراج متن از سند PDF در جاوا
مراحل و یک نمونه کد کد را دنبال کنید تا با استفاده از GroupDocs.Parser Cloud SDK برای جاوا، تمام متن را از فایلهای PDF به صورت برنامهنویسی در جاوا استخراج کنید:
- ابتدا کلاس های مورد نیاز را در فایل جاوا خود وارد کنید.
- در مرحله دوم، یک نمونه از کلاس ParseApi ایجاد کنید.
- سوم، یک نمونه از کلاس FileInfo ایجاد کنید.
- سپس مسیر فایل PDF را به عنوان ورودی تنظیم کنید.
- سپس، یک نمونه از کلاس TextOptions() ایجاد کنید.
- سپس fileInfo را به متد setFileInfo اختصاص دهید.
- اکنون یک نمونه از کلاس TextRequest() بسازید و پارامتر TextOptions را پاس کنید.
- در نهایت با فراخوانی متد ParseApi.text() و پاس دادن پارامتر TextRequest به نتیجه برسید.
نمونه کد زیر نحوه استخراج تمام متن از یک فایل PDF را با استفاده از REST API در جاوا نشان می دهد:
package com.groupdocsdev.classes;
import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;
// نحوه استخراج متن از یک سند PDF در جاوا.
public class App {
public static void main(String[] args) {
// یک نمونه از Parse API ایجاد کنید
ParseApi apiInstance = new ParseApi(configuration);
try {
// تنظیمات را آماده کنید
FileInfo fileInfo = new FileInfo();
fileInfo.setFilePath("java-testing/input-sample-file.pdf");
TextOptions options = new TextOptions();
options.setFileInfo(fileInfo);
TextRequest request = new TextRequest(options);
TextResult response = apiInstance.text(request);
// دریافت مسیر فایل خروجی
System.out.println("Output file path: " + response.getPath());
} catch (ApiException e) {
System.err.println("Exception while calling FileApi:");
e.printStackTrace();
}
}
}
خروجی را در تصویر زیر مشاهده می کنید:
استخراج متن خاص از PDF در جاوا بر اساس محدوده شماره صفحه
این بخش دستورالعمل های گام به گام و یک نمونه کد کد را برای استخراج متن خاص از یک فایل PDF به صورت برنامه نویسی در جاوا ارائه می دهد:
- ابتدا کلاس های مورد نیاز را در فایل جاوا خود وارد کنید.
- در مرحله دوم، یک نمونه از کلاس ParseApi ایجاد کنید.
- سوم، یک نمونه از کلاس FileInfo ایجاد کنید.
- سپس مسیر فایل PDF را به عنوان ورودی تنظیم کنید.
- سپس، یک نمونه از کلاس TextOptions() ایجاد کنید.
- اکنون مقادیر setStartPageNumber و setCountPagesToExtract را ارائه دهید.
- سپس fileInfo را به متد setFileInfo اختصاص دهید.
- اکنون یک نمونه از کلاس TextRequest() بسازید و پارامتر TextOptions را پاس کنید.
- در نهایت با فراخوانی متد ParseApi.text() و پاس دادن پارامتر TextRequest به نتیجه برسید.
نمونه کد زیر نحوه استخراج متن خاص از فایل PDF را بر اساس شماره محدوده صفحه در جاوا با استفاده از REST API نشان می دهد:
package com.groupdocsdev.classes;
import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;
// نحوه استخراج متن از یک فایل PDF بر اساس شماره محدوده صفحه در جاوا.
public class App {
public static void main(String[] args) {
// یک نمونه از Parse API ایجاد کنید
ParseApi apiInstance = new ParseApi(configuration);
try {
// تنظیمات را آماده کنید
FileInfo fileInfo = new FileInfo();
fileInfo.setFilePath("java-testing/input-sample-file.pdf");
TextOptions options = new TextOptions();
options.setStartPageNumber(1);
options.setCountPagesToExtract(1);
options.setFileInfo(fileInfo);
TextRequest request = new TextRequest(options);
TextResult response = apiInstance.text(request);
// دریافت مسیر فایل خروجی
System.out.println("Output file path: " + response.getPath());
} catch (ApiException e) {
System.err.println("Exception while calling FileApi:");
e.printStackTrace();
}
}
}
تجزیه کننده اسناد آنلاین رایگان
بهترین راه برای استخراج متن از PDF به صورت رایگان چیست؟ لطفاً یک [نرم افزار تجزیه کننده اسناد PDF آنلاین 22 را برای استخراج متن از PDF امتحان کنید. این ابزار تجزیهکننده PDF با استفاده از کتابخانه تجزیهکننده جاوا که در بالا ذکر شد توسعه یافته است.
نتیجه
در پایان، GroupDocs.Parser Cloud SDK برای جاوا یک ابزار ارزشمند برای توسعه دهندگان جاوا است که به شما امکان می دهد متن، ابرداده و تصاویر را به طور موثر استخراج کنید. آنچه از این مقاله آموخته اید به شرح زیر است:
- نحوه استخراج تمام متن از فایل های PDF با استفاده از REST API در جاوا.
- به صورت برنامه نویسی یک فایل PDF را با استفاده از جاوا در فضای ابری آپلود کنید.
- نحوه استخراج محتوا از PDF در جاوا با استفاده از REST API.
- و ابزار استخراج متن PDF آنلاین برای تجزیه اسناد PDF.
علاوه بر این، میتوانید با استفاده از مستندات درباره GroupDocs.Parser Cloud API اطلاعات بیشتری کسب کنید. ما همچنین یک بخش API Reference ارائه می دهیم که به شما امکان می دهد API های ما را مستقیماً از طریق مرورگر تجسم کنید و با آنها تعامل داشته باشید. کد منبع کامل جاوا SDK به صورت رایگان در Github در دسترس است.
در نهایت، ما به نوشتن مقالات وبلاگ جدید در قالبهای فایل مختلف و تجزیه با استفاده از REST API ادامه میدهیم. بنابراین، لطفا برای آخرین به روز رسانی تماس بگیرید.
یه سوال بپرس
در صورتی که در مورد نحوه استخراج متن از فایلهای پیدیاف سؤال یا سردرگمی دارید، لطفاً از طریق [فروم 26 ما با ما تماس بگیرید.
سوالات متداول
چگونه می توانم تمام متن را از یک فایل PDF با استفاده از جاوا استخراج کنم؟
می توانید تمام متن را از یک فایل PDF با استفاده از GroupDocs.Parser Cloud SDK for Java در برنامه های جاوا خود استخراج کنید. این SDK قدرتمند روشی کارآمد و ساده برای استخراج متن از فایل های PDF با استفاده از جاوا فراهم می کند.
آیا می توانم متن را از فایل های PDF محافظت شده با رمز عبور با استفاده از GroupDocs.Parser Cloud SDK برای جاوا استخراج کنم؟
بله، SDK از استخراج متن از فایل های PDF محافظت شده با رمز عبور پشتیبانی می کند. شما می توانید رمز عبور را به عنوان یک گزینه در طول فرآیند استخراج ارائه دهید.
آیا امکان استخراج متن از صفحات خاصی در یک فایل PDF وجود دارد؟
بله، GroupDocs.Parser Cloud SDK for Java به شما امکان می دهد شماره محدوده صفحه ای را که می خواهید متن را از آن استخراج کنید، مشخص کنید. به این ترتیب می توانید به راحتی متن را از بخش های خاصی از یک سند PDF استخراج کنید.
همچنین ببینید
در اینجا چند مقاله مرتبط وجود دارد که ممکن است برای شما مفید باشد:
- استخراج تصاویر از فایل های PDF با استفاده از Node.js
- استخراج داده ها از PDF با استفاده از REST API در Node.js
- تجزیه و تحلیل اسناد Word با استفاده از REST API در پایتون
- استخراج داده های خاص از PDF با استفاده از پایتون
- استخراج تصاویر از اسناد PDF با استفاده از پایتون
- نحوه استخراج متن از PDF با استفاده از پایتون