Extract Text from PDF using Node.js - Text Extractor

การปลดล็อกข้อความจาก PDF ไฟล์เป็นสิ่งสำคัญสำหรับการจัดทำดัชนีเนื้อหา การทำงานอัตโนมัติ และการวิเคราะห์ข้อมูล ด้วย GroupDocs.Parser Cloud SDK สำหรับ Node.js คุณสามารถดึงข้อความที่เป็นลักษณะทั่วไปหรือเป็นโครงสร้างจาก PDFs โดยใช้ RESTful API ที่ง่าย — โดยไม่ต้องพึ่งพาเครื่องมือที่มีน้ำหนักมากหรือการแยกวิเคราะห์ด้วยตนเอง

ทำไมต้องดึงข้อความจาก PDF??

การดึงข้อความจาก PDF เป็นสิ่งสำคัญสำหรับ:

  • สร้างเอกสารการจัดการหรือท่อส่ง OCR.
  • การเก็บข้อมูลอัตโนมัติจากสัญญา, ใบแจ้งหนี้, และรายงาน.
  • การเปิดใช้งานการค้นหาแบบเต็มข้อความสำหรับบันทึกดิจิทัล
  • การทำความสะอาดและจัดระเบียบเนื้อหาสำหรับโมเดล AI/ML.

เรามาพูดคุยเกี่ยวกับหัวข้อดังต่อไปนี้ให้ละเอียดขึ้น:

API REST สำหรับการดึงข้อความ

GroupDocs.Parser Cloud SDK for Node.js เป็น wrapper ที่มีน้ำหนักเบาและมีประสิทธิภาพสูงสำหรับการโต้ตอบกับ GroupDocs.Parser Cloud REST API มันช่วยให้นักพัฒนาสามารถดึงข้อมูลที่เป็นโครงสร้างหรือไม่มีโครงสร้าง เช่น:

  • ข้อความ (เอกสารทั้งหมด, หน้าเฉพาะ, หรือพื้นที่ที่เลือก)
  • Images
  • Metadata
  • ฟิลด์เอกสาร
  • ข้อมูลที่มีโครงสร้างจากตารางหรือฟอร์ม

มันรองรับหลายรูปแบบ — รวมถึง PDF, Word, Excel, PowerPoint, MSG, ZIP, และอื่น ๆ .

ข้อกำหนดเบื้องต้น ติดตั้ง GroupDocs.Parser Cloud SDK สำหรับ Node.js:

npm install groupdocs-parser-cloud

สร้างบัญชีที่ GroupDocs.Cloud Dashboard เพื่อขอรับ Client ID และ Client Secret สำหรับการยืนยันตัวตน สำหรับข้อมูลเพิ่มเติม กรุณาเยี่ยมชม บทความ.

วิธีการดึงข้อความจาก PDF โดยใช้ Node.js

ปฏิบัติตามขั้นตอนเหล่านี้เพื่อแยกข้อความจากไฟล์ PDF โดยใช้ Node.js SDK.

ขั้นตอนที่ 1: ตั้งค่าคอนฟิกูเรชัน:

const { ParserApi, Configuration, ImagesRequest, FileInfo, ImagesOptions } = require("groupdocs-parser-cloud");

const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);

ขั้นตอนที่ 2: กำหนดค่าการนำเข้าหมายเลข PDF: สร้างอ็อบเจ็กต์ของคลาสตัวร้องขอข้อความ (TextRequest) และส่งผ่านอินสแตนซ์ของคลาสตัวเลือกข้อความ (TextOptions)

const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";

const options = new TextOptions();
options.fileInfo = fileInfo;

const request = new TextRequest(options);

ขั้นตอนที่ 3: ดึงข้อความจาก PDF: เรียกใช้วิธีการ text และมันจะคืนค่าคอนเทนต์ข้อความธรรมดาของ PDF ของคุณออกมา

parserApi.text(request).then(response => {
    console.log("Extracted text content:");
    console.log(response.text);
}).catch(err => {
    console.error("Error extracting text:", err);
});
// สำหรับตัวอย่างเพิ่มเติม โปรดเยี่ยมชม [https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-node]
const { Configuration, ParserApi, TextOptions, TextRequest, FileInfo } = require("groupdocs-parser-cloud");

const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);

const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";

const options = new TextOptions();
options.fileInfo = fileInfo;

const request = new TextRequest(options);

parserApi.text(request).then(response => {
    console.log("Extracted text content:");
    console.log(response.text);
}).catch(err => {
    console.error("Error extracting text:", err);
});

คุณสามารถดูผลลัพธ์ของตัวอย่างโค้ดด้านบนได้ในภาพด้านล่าง:

pdf text extractor

Extract Text from PDF via cURL

ถ้าคุณชื่นชอบการใช้งานแบบ command-line หรืออยากรวมเข้ากับสคริปต์? คุณสามารถดึงข้อความโดยใช้ cURL กับ GroupDocs.Parser REST API ได้।

ขั้นตอนที่ 1 – สร้าง Token การเข้าถึง:

curl -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"

ขั้นตอนที่ 2 – ดึงภาพด้วย REST API:

curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H  "accept: application/json" \
-H  "authorization: Bearer {ACCESS_TOKEN}" \
-H  "Content-Type: application/json" \
-d 
    "{  
        \"FileInfo\": 
        {
            \"FilePath\": \"Binder1.pdf\",
            \"StorageName\": \"internal\"
        },
        \"StartPageNumber\": 0,
        \"CountPagesToExtract\": 1
    }"
  • เปลี่ยน เป็นตัวที่คุณสร้างขึ้น.

ข้อดีของการใช้ cURL กับ GroupDocs.Parser API

  • ไม่ต้องการ SDK: ใช้ REST ตรงๆ สำหรับการรวมระบบอย่างรวดเร็ว.
  • ไม่ขึ้นอยู่กับแพลตฟอร์ม: ใช้งานได้กับระบบปฏิบัติการหรือภาษาใดก็ได้
  • เหมาะสำหรับ CI/CD Pipelines: ตรวจสอบการแยกข้อความอัตโนมัติในสภาพแวดล้อม DevOps.
  • เบา: ไม่มีการติดตั้งเพิ่มเติมนอกเหนือจาก cURL.

Online Text Extractor

หากคุณกำลังมองหาวิธีการที่ไม่ต้องเขียนโค้ด ให้ใช้เครื่องมือออนไลน์ฟรีของเรา PDF Text Extractor ที่ขับเคลื่อนโดย GroupDocs.Parser Cloud.

ตัวดึงรูปภาพออนไลน์

ข้อสรุป

GroupDocs.Parser Cloud SDK สำหรับ Node.js ทำให้การดึงข้อความจาก PDF ง่ายดาย ไม่ว่าคุณจะต้องการการแยกแยะเนื้อหาอย่างเต็มรูปแบบ การขุดข้อมูล หรือการทำงานอัตโนมัติของเอกสาร ด้วยการสนับสนุนการเรียก RESTful และการรวม cURL API นี้เหมาะสำหรับการสร้างแอพพลิเคชั่นการประมวลผลเอกสารที่ทันสมัยและปรับขยายได้ใน Node.js หรือสภาพแวดล้อมอื่น ๆ

📚 แหล่งข้อมูลเพิ่มเติม

คำถามที่พบบ่อย – FAQs

วิธีการดึงรูปภาพจาก Word คืออะไร?

คุณสามารถใช้ GroupDocs.Parser Cloud SDKs เพื่อดึงข้อความจากไฟล์ PDF โดยใช้โปรแกรมได้ โปรดเยี่ยมชม link เพื่อดูรายละเอียดเพิ่มเติม

ราคาที่ใช้ในการกำหนดคืออะไร?

เรามีแบบจำลองการคิดราคาชำระเงินแบบจ่ายครั้งเดียว หากต้องการข้อมูลเพิ่มเติม โปรดเยี่ยมชม pricing guide.

บทความที่แนะนำ