दस्तावेज़ पार्सिंग - जावा में पीडीएफ फाइल से टेक्स्ट निकालें

क्या आपको कभी ऐसी स्थिति का सामना करना पड़ा है जहाँ आपको पीडीएफ फ़ाइल से प्रोग्रामेटिक रूप से पाठ निकालने की आवश्यकता है? पीडीएफ फाइलों से प्रोग्रामेटिक रूप से टेक्स्ट निकालना एक जटिल काम हो सकता है, खासकर जब बड़े दस्तावेजों के साथ काम कर रहे हों। यदि आप एक जावा डेवलपर हैं और एक विश्वसनीय समाधान की तलाश कर रहे हैं, तो Java के लिए GroupDocs.Parser Cloud SDK पीडीएफ फाइलों से टेक्स्ट निकालने का एक कुशल तरीका प्रदान करता है। इस लेख में, हम REST API का उपयोग करके जावा में पीडीएफ फाइल से टेक्स्ट निकालने का तरीका जानेंगे।

इस लेख में निम्नलिखित विषयों को शामिल किया जाएगा:

पीडीएफ फाइलों और एसडीके इंस्टॉलेशन से टेक्स्ट निकालने के लिए जावा रेस्ट एपीआई

GroupDocs.Parser Cloud SDK for Java एक शक्तिशाली, उपयोगकर्ता के अनुकूल और सुविधा संपन्न सॉफ्टवेयर डेवलपमेंट किट है जो व्यापक पीडीएफ पार्सिंग क्षमता प्रदान करता है। इसके एपीआई के व्यापक सेट के साथ, आप आसानी से 50 से अधिक प्रकार के दस्तावेज़ प्रारूपों से पाठ, मेटाडेटा, चित्र और डेटा पार्स कर सकते हैं। यह क्लाउड एपीआई के लिए अपने दस्तावेज़ पार्सर परिवार के सदस्यों के रूप में C# .NET, Java, PHP, Ruby और Python SDKs भी प्रदान करता है। एसडीके को आपकी विकास प्रक्रिया को सरल बनाने और उत्पादकता बढ़ाने के लिए जावा-आधारित एप्लिकेशन में एकीकृत किया जा सकता है।

आप या तो डाउनलोड एपीआई की जेएआर फ़ाइल कर सकते हैं या इसे अपने प्रोजेक्ट की pom.xml फ़ाइल में निम्नलिखित रिपोजिटरी और निर्भरता जोड़कर मेवेन का उपयोग करके इंस्टॉल कर सकते हैं:

मावेन रिपोजिटरी:

<repository>
    <id>groupdocs-artifact-repository</id>
    <name>GroupDocs Artifact Repository</name>
    <url>https://repository.groupdocs.cloud/repo</url>
</repository>

मावेन निर्भरता:

<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser-cloud</artifactId>
    <version>23.3</version>
    <scope>compile</scope>
</dependency>

अगला, साइन अप एक नि: शुल्क परीक्षण खाते के लिए या एक सदस्यता योजना खरीदें GroupDocs वेबसाइट पर और अपनी एपीआई कुंजी प्राप्त करें। एक बार आपके पास क्लाइंट आईडी और क्लाइंट सीक्रेट हो जाने के बाद, जावा-आधारित एप्लिकेशन में कोड स्निपेट जोड़ें:

# पंजीकरण के बाद https://dashboard.groupdocs.cloud से अपना client_id और client_secret प्राप्त करें।

String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);

REST API का उपयोग करके जावा में पीडीएफ फाइलों से सभी टेक्स्ट कैसे निकालें

GroupDocs.Parser Cloud SDK का उपयोग करके जावा में पीडीएफ फाइलों से टेक्स्ट निकालना एक सीधी प्रक्रिया है। यह कैसे करना है:

  • अपलोड पीडीएफ फाइल को क्लाउड पर
  • निकालें जावा का उपयोग करके पीडीएफ से पाठ

फ़ाइल अपलोड करें

सबसे पहले, नीचे दिए गए कोड उदाहरण का उपयोग करके PDF दस्तावेज़ को क्लाउड पर अपलोड करें:

package com.groupdocsdev.classes;

import java.io.File;
import java.nio.file.Paths;

import com.groupdocs.cloud.Parser.api.*;
import com.groupdocs.cloud.Parser.client.ApiException;
import com.groupdocs.cloud.Parser.model.*;
import com.groupdocs.cloud.Parser.model.requests.*;

// जावा का उपयोग करके क्लाउड स्टोरेज में फाइल अपलोड करें
public class App {

	public static void main(String[] args) {

		FileApi apiInstance = new FileApi(configuration);
		try {
			File fileStream = new File("H:\\groupdocs-cloud-data\\input-sample-file.pdf");
			UploadFileRequest request = new UploadFileRequest("java-testing\\input-sample-file.pdf", fileStream, MyStorage);
			FilesUploadResult response = apiInstance.uploadFile(request);
			System.out.println("Expected response type is FilesUploadResult: " + response.getUploaded().size());
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
	}
}

नतीजतन, अपलोड की गई पीडीएफ फाइल क्लाउड पर आपके डैशबोर्ड के फाइल सेक्शन में उपलब्ध होगी।

जावा में पीडीएफ दस्तावेज़ से पाठ निकालें

Java में GroupDocs.Parser Cloud SDK for Java का उपयोग करके जावा में प्रोग्रामेटिक रूप से पीडीएफ फाइलों से सभी पाठ निकालने के लिए चरणों और एक उदाहरण कोड स्निपेट का पालन करें:

  • सबसे पहले, आवश्यक कक्षाओं को अपनी जावा फ़ाइल में आयात करें।
  • दूसरे, ParseApi वर्ग का एक उदाहरण बनाएँ।
  • तीसरा, FileInfo वर्ग का एक उदाहरण बनाएँ।
  • इसके बाद, इनपुट के रूप में पीडीएफ फाइल का पाथ सेट करें।
  • फिर, TextOptions() वर्ग का एक उदाहरण बनाएँ।
  • इसके बाद, FileInfo को setFileInfo मेथड में असाइन करें।
  • अब, TextRequest() वर्ग का एक उदाहरण बनाएं और TextOptions पैरामीटर पास करें।
  • अंत में, ParseApi.text() विधि को कॉल करके और TextRequest पैरामीटर पास करके परिणाम प्राप्त करें।

निम्न कोड नमूना दिखाता है कि जावा में REST API का उपयोग करके PDF फ़ाइल से सभी टेक्स्ट को कैसे निकाला जाए:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;

// जावा में पीडीएफ दस्तावेज़ से टेक्स्ट कैसे निकालें।
public class App {

	public static void main(String[] args) {
		
		// पार्स एपीआई का एक उदाहरण बनाएं
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// सेटिंग्स तैयार करें
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");
			TextOptions options = new TextOptions();
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);

			// आउटपुट फ़ाइल पथ प्राप्त करें
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

आप नीचे दी गई छवि में आउटपुट देख सकते हैं:

जावा पीडीएफ दस्तावेज़ से पाठ निकालें

जावा में पीडीएफ दस्तावेज़ से टेक्स्ट निकालें

पृष्ठ संख्या श्रेणी द्वारा जावा में पीडीएफ से विशिष्ट पाठ निकालें

यह खंड चरण-दर-चरण निर्देश और जावा में प्रोग्रामेटिक रूप से एक पीडीएफ फाइल से विशिष्ट पाठ निकालने के लिए एक उदाहरण कोड स्निपेट प्रदान करता है:

  • सबसे पहले, आवश्यक कक्षाओं को अपनी जावा फ़ाइल में आयात करें।
  • दूसरे, ParseApi वर्ग का एक उदाहरण बनाएँ।
  • तीसरा, FileInfo वर्ग का एक उदाहरण बनाएँ।
  • इसके बाद, इनपुट के रूप में पीडीएफ फाइल का पाथ सेट करें।
  • फिर, TextOptions() वर्ग का एक उदाहरण बनाएँ।
  • अब, setStartPageNumber और setCountPagesToExtract मान प्रदान करें।
  • फिर, FileInfo को setFileInfo मेथड में असाइन करें।
  • अब, TextRequest() वर्ग का एक उदाहरण बनाएं और TextOptions पैरामीटर पास करें।
  • अंत में, ParseApi.text() विधि को कॉल करके और TextRequest पैरामीटर पास करके परिणाम प्राप्त करें।

निम्न कोड नमूना दिखाता है कि जावा में पृष्ठ श्रेणी संख्या द्वारा पीडीएफ फ़ाइल से विशिष्ट पाठ को कैसे निकालना है, REST API का उपयोग करना:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;

// जावा में पेज रेंज नंबर द्वारा पीडीएफ फाइल से टेक्स्ट कैसे निकालें।
public class App {

	public static void main(String[] args) {
		
		// पार्स एपीआई का एक उदाहरण बनाएं
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// सेटिंग्स तैयार करें
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");
			TextOptions options = new TextOptions();
			options.setStartPageNumber(1);
			options.setCountPagesToExtract(1);
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);
				
			// आउटपुट फ़ाइल पथ प्राप्त करें
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

मुफ़्त ऑनलाइन दस्तावेज़ पार्सर

ऑनलाइन PDF से मुफ्त टेक्स्ट निकालने का सबसे अच्छा तरीका क्या है? पीडीएफ से पाठ निकालने के लिए कृपया एक ऑनलाइन पीडीएफ दस्तावेज़ पार्सर सॉफ्टवेयर आज़माएं। यह पीडीएफ पार्सर टूल उपर्युक्त जावा पार्सर लाइब्रेरी का उपयोग करके विकसित किया गया है।

निष्कर्ष

अंत में, Java के लिए GroupDocs.Parser Cloud SDK जावा डेवलपर्स के लिए एक मूल्यवान उपकरण है जो आपको पाठ, मेटाडेटा और छवियों को कुशलतापूर्वक निकालने की अनुमति देता है। इस लेख से आपने जो सीखा वह निम्नलिखित है:

  • जावा में रेस्ट एपीआई का उपयोग करके पीडीएफ फाइलों से सभी पाठ कैसे निकालें;
  • जावा का उपयोग करके क्लाउड पर पीडीएफ फाइल को प्रोग्रामेटिक रूप से अपलोड करें;
  • REST API का उपयोग करके जावा में PDF से सामग्री कैसे निकालें;
  • और पीडीएफ दस्तावेजों को पार्स करने के लिए ऑनलाइन पीडीएफ टेक्स्ट एक्सट्रैक्शन टूल।

इसके अलावा, आप दस्तावेज़ का उपयोग करके GroupDocs.Parser Cloud API के बारे में अधिक जान सकते हैं। हम एक एपीआई संदर्भ अनुभाग भी प्रदान करते हैं जो आपको सीधे ब्राउज़र के माध्यम से हमारे एपीआई के साथ कल्पना और बातचीत करने देता है। जावा एसडीके का पूरा स्रोत कोड गीथूब पर स्वतंत्र रूप से उपलब्ध है।

अंत में, हम विभिन्न फ़ाइल स्वरूपों पर नए ब्लॉग लेख लिखते रहते हैं और REST API का उपयोग करके पार्स करते हैं। तो, कृपया नवीनतम अपडेट के लिए संपर्क करें।

प्रश्न पूछें

यदि आपके पास पीडीएफ फाइलों से पाठ निकालने के तरीके के बारे में कोई प्रश्न या भ्रम है, तो कृपया हमारे फोरम के माध्यम से हमसे बेझिझक संपर्क करें।

पूछे जाने वाले प्रश्न

मैं जावा का उपयोग कर पीडीएफ फाइल से सभी टेक्स्ट कैसे निकालूं?

आप अपने जावा अनुप्रयोगों में GroupDocs.Parser Cloud SDK for Java का उपयोग करके एक पीडीएफ फाइल से सभी पाठ निकाल सकते हैं। यह शक्तिशाली एसडीके जावा का उपयोग करके पीडीएफ फाइलों से टेक्स्ट निकालने का एक कुशल और सीधा तरीका प्रदान करता है।

क्या मैं Java के लिए GroupDocs.Parser Cloud SDK का उपयोग करके पासवर्ड से सुरक्षित PDF फ़ाइलों से टेक्स्ट निकाल सकता हूँ?

हां, एसडीके पासवर्ड से सुरक्षित पीडीएफ फाइलों से पाठ निष्कर्षण का समर्थन करता है। निष्कर्षण प्रक्रिया के दौरान आप एक विकल्प के रूप में पासवर्ड प्रदान कर सकते हैं।

क्या पीडीएफ फाइल के भीतर विशिष्ट पृष्ठों से टेक्स्ट निकालना संभव है?

हां, GroupDocs.Parser Cloud SDK for Java आपको पृष्ठ श्रेणी संख्या निर्दिष्ट करने की अनुमति देता है जिससे आप पाठ निकालना चाहते हैं। इस तरह, आप PDF दस्तावेज़ के विशिष्ट अनुभागों से आसानी से टेक्स्ट निकाल सकते हैं।

यह सभी देखें

यहां कुछ संबंधित लेख दिए गए हैं जो आपके लिए उपयोगी हो सकते हैं: