แยกข้อความจาก PDF โดยใช้ REST API ใน Node.js

คุณสามารถแยกวิเคราะห์เอกสาร PDF ของคุณและแยกข้อความทั้งหมดโดยทางโปรแกรมบนคลาวด์ได้อย่างง่ายดาย ในบทความนี้ คุณจะได้เรียนรู้วิธีแยกข้อความจากเอกสาร PDF โดยใช้ REST API ใน Node.js

หัวข้อต่อไปนี้จะครอบคลุมในบทความนี้:

PDF Parser REST API และ Node.js SDK เพื่อแยกข้อความ

สำหรับการแยกวิเคราะห์เอกสาร PDF ฉันจะใช้ API ของ Node.js SDK ของ GroupDocs.Parser Cloud ช่วยให้คุณสามารถแยกวิเคราะห์ข้อมูลจาก [รูปแบบเอกสารที่รองรับ] กว่า 50 ประเภท]3 นอกจากนี้ยังรองรับการแยกวิเคราะห์คอนเทนเนอร์ เช่น ไฟล์เก็บถาวร ZIP ไฟล์ข้อมูลอีเมล OST e-books มาร์กอัป และพอร์ตโฟลิโอ PDF ในแอปพลิเคชัน Node.js ของคุณ คุณสามารถแยกข้อความ รูปภาพ และแยกวิเคราะห์ข้อมูลตามเทมเพลตโดยใช้ SDK นอกจากนี้ยังมี .NET, Java, PHP, Ruby และ Python SDK เป็น สมาชิกตระกูลตัวแยกวิเคราะห์เอกสาร สำหรับ Cloud API

คุณสามารถติดตั้ง GroupDocs.Parser Cloud ลงในแอปพลิเคชัน Node.js โดยใช้คำสั่งต่อไปนี้ในคอนโซล:

npm install groupdocs-parser-cloud

โปรด รับรหัสลูกค้าและข้อมูลลับจากแดชบอร์ด ก่อนทำตามขั้นตอนดังกล่าว เมื่อคุณมี ID และรหัสลับของคุณแล้ว ให้เพิ่มรหัสตามที่แสดงด้านล่าง:

global.clientId = "112f0f38-9dae-42d5-b4fc-cc84ae644972";
global.clientSecret = "16ad3fe0bdc39c910f57d2fd48a5d618";
global.myStorage = "";

const configuration = new groupdocs_parser_cloud.Configuration(clientId, clientSecret);
configuration.apiBaseUrl = "https://api.groupdocs.cloud";

แยกข้อความจาก PDF โดยใช้ REST API ใน Node.js

คุณสามารถแยกข้อความจากเอกสาร PDF โดยทำตามขั้นตอนง่าย ๆ ที่กล่าวถึงด้านล่าง:

อัปโหลดเอกสาร

ขั้นแรก อัปโหลดเอกสาร PDF ไปยัง Cloud โดยใช้ตัวอย่างโค้ดด้านล่าง:

// สร้าง FileApi
let fileApi = groupdocs_parser_cloud.FileApi.fromConfig(configuration);
let filePath = 'C:\\Files\\Parser\\sample.pdf';

fs.readFile(filePath, (err, fileStream) => {
  // สร้างคำขออัปโหลดไฟล์
  let request = new groupdocs_parser_cloud.UploadFileRequest("sample.pdf", fileStream, myStorage);
  // อัพโหลดไฟล์
  fileApi.uploadFile(request);
});

ด้วยเหตุนี้ ไฟล์ PDF ที่อัปโหลดจะอยู่ใน ส่วนไฟล์ ของแดชบอร์ดของคุณบนระบบคลาวด์

แยกข้อความจากเอกสาร PDF โดยใช้ Node.js

คุณสามารถแยกข้อความทั้งหมดจากเอกสาร PDF โดยทางโปรแกรมโดยทำตามขั้นตอนด้านล่าง:

  • สร้างอินสแตนซ์ของ ParseApi
  • สร้างอินสแตนซ์ของ FileInfo
  • จากนั้นกำหนดเส้นทางไปยังไฟล์ PDF
  • สร้างตัวอย่างของ TextOptions
  • จากนั้นกำหนด FileInfo ให้กับ TextOptions
  • ตอนนี้ สร้างตัวอย่างของ TextRequest ด้วย TextOptions
  • สุดท้าย รับผลลัพธ์โดยเรียกเมธอด ParseApi.text() ด้วย TextRequest

ตัวอย่างโค้ดต่อไปนี้แสดงวิธีแยกข้อความทั้งหมดจากเอกสาร PDF โดยใช้ REST API ใน Node.js

// การเริ่มต้น API
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// ไฟล์อินพุต
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.pdf";

// กำหนดตัวเลือกข้อความ
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;

// สร้างคำขอข้อความ
let request = new groupdocs_parser_cloud.TextRequest(options);

// แยกข้อความ
let result = await parseApi.text(request);
console.log(result.text);
แยกข้อความจาก PDF โดยใช้ REST API ใน Node.js

แยกข้อความจาก PDF โดยใช้ REST API ใน Node.js

รับข้อความตามหมายเลขหน้าจากเอกสาร PDF โดยใช้ Node.js

คุณสามารถแยกข้อความจากหน้าเฉพาะของไฟล์ PDF โดยทางโปรแกรมโดยทำตามขั้นตอนด้านล่าง:

  • สร้างอินสแตนซ์ของ ParseApi
  • สร้างอินสแตนซ์ของ FileInfo
  • จากนั้นกำหนดเส้นทางไปยังไฟล์ PDF
  • สร้างตัวอย่างของ TextOptions
  • จากนั้นกำหนด FileInfo ให้กับ TextOptions
  • ตั้งค่าหมายเลขหน้าเริ่มต้นและจำนวนหน้าทั้งหมดที่จะแยก
  • ตอนนี้ สร้างตัวอย่างของ TextRequest ด้วย TextOptions
  • สุดท้าย รับผลลัพธ์โดยเรียกเมธอด ParseApi.text() ด้วย TextRequest

ตัวอย่างโค้ดต่อไปนี้แสดงวิธีแยกข้อความตามหมายเลขหน้าจากเอกสาร PDF โดยใช้ REST API

// การเริ่มต้น API
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// เส้นทางไฟล์อินพุต
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.pdf";

// กำหนดตัวเลือกข้อความ
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.startPageNumber = 0;
options.countPagesToExtract = 1;

// สร้างคำขอข้อความ
let request = new groupdocs_parser_cloud.TextRequest(options);

// แยกข้อความ
let result = await parseApi.text(request);

// แสดงผล
let pages = result.pages;
pages.forEach(page => console.log("Page No: " + page.pageIndex + 1 + " - " + page.text));
รับข้อความตามหมายเลขหน้าจากเอกสาร PDF โดยใช้ Node.js

รับข้อความตามหมายเลขหน้าจากเอกสาร PDF โดยใช้ Node.js

แยกข้อความจากเอกสารที่แนบมาด้วย PDF โดยใช้ Node.js

คุณสามารถแยกข้อความจากเอกสารภายในคอนเทนเนอร์ ซึ่งมีให้ในรูปแบบไฟล์แนบในไฟล์ PDF โดยทางโปรแกรม โดยทำตามขั้นตอนด้านล่าง

  • สร้างอินสแตนซ์ของ ParseApi
  • สร้างอินสแตนซ์ของ FileInfo
  • จากนั้นกำหนดเส้นทางไปยังไฟล์ PDF
  • หรือระบุรหัสผ่านของไฟล์
  • ตอนนี้ สร้างอินสแตนซ์ของ ContainerItemInfo
  • จากนั้น ตั้งค่าเส้นทางสัมพัทธ์สำหรับไฟล์ที่แนบมา
  • สร้างตัวอย่างของ TextOptions
  • จากนั้นกำหนด FileInfo และ ContainerItemInfo ให้กับ TextOptions
  • ตอนนี้ สร้างตัวอย่างของ TextRequest ด้วย TextOptions
  • สุดท้าย รับผลลัพธ์โดยเรียกเมธอด ParseApi.text() ด้วย TextRequest

ตัวอย่างโค้ดต่อไปนี้แสดงวิธีแยกข้อความจากเอกสารภายในเอกสาร PDF โดยใช้ REST API

// การเริ่มต้น API
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// ไฟล์อินพุต
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "PDF_with_Attachments.pdf";
fileInfo.password = "password";

// รายการคอนเทนเนอร์อินพุต
let containerInfo = new groupdocs_parser_cloud.ContainerItemInfo();
containerInfo.relativePath = "template-document.pdf";

// กำหนดตัวเลือกข้อความ
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.containerItemInfo = containerInfo;

// สร้างคำขอข้อความ
let request = new groupdocs_parser_cloud.TextRequest(options);

// แยกข้อความ
let result = await parseApi.text(request);
console.log(result.text);
แยกข้อความจากเอกสารที่แนบมาด้วย PDF โดยใช้ Node.js

แยกข้อความจากเอกสารที่แนบมาด้วย PDF โดยใช้ Node.js

ลองออนไลน์

โปรดลองใช้เครื่องมือแยกวิเคราะห์ PDF ออนไลน์ฟรีต่อไปนี้ ซึ่งพัฒนาโดยใช้ API ข้างต้น https://products.groupdocs.app/parser/pdf

บทสรุป

ในบทความนี้ คุณได้เรียนรู้วิธีแยกวิเคราะห์เอกสาร PDF บนคลาวด์ นอกจากนี้ คุณได้เห็นวิธีแยกข้อความตามหมายเลขหน้าและจากรายการคอนเทนเนอร์ของไฟล์ PDF โดยใช้ REST API ใน Node.js บทความนี้ยังอธิบายวิธีการอัปโหลดไฟล์ PDF ไปยังระบบคลาวด์โดยทางโปรแกรม นอกจากนี้ คุณสามารถเรียนรู้เพิ่มเติมเกี่ยวกับ GroupDocs.Parser Cloud API โดยใช้ เอกสารประกอบ เรายังมีส่วน API Reference ที่ช่วยให้คุณแสดงภาพและโต้ตอบกับ API ของเราได้โดยตรงผ่านเบราว์เซอร์ ในกรณีที่มีความคลุมเครือ โปรดติดต่อเราได้ที่ ฟอรัม

ดูสิ่งนี้ด้วย