แยกวิเคราะห์เอกสาร Word โดยใช้ REST API ใน Node.js

คุณอาจต้องแยกข้อความหรือรูปภาพออกจากเอกสาร Word ของคุณเพื่อวัตถุประสงค์ต่างๆ คุณสามารถแยกวิเคราะห์เอกสาร Word และอ่านข้อความโดยทางโปรแกรมในแอปพลิเคชัน Node.js ของคุณได้อย่างง่ายดาย ในฐานะนักพัฒนา Node.js คุณสามารถแยกข้อความและรูปภาพทั้งหมดจากไฟล์ DOCX โดยทางโปรแกรมบนคลาวด์ บทความนี้จะมุ่งเน้นไปที่วิธีการแยกวิเคราะห์เอกสาร Word โดยใช้ REST API ใน Node.js

หัวข้อต่อไปนี้จะครอบคลุมในบทความนี้:

Document Parser REST API และ Node.js SDK

สำหรับการแยกวิเคราะห์เอกสาร DOCX ฉันจะใช้ API ของ Node.js SDK ของ GroupDocs.Parser Cloud ช่วยให้คุณสามารถแยกวิเคราะห์ข้อมูลจากเอกสารมากกว่า 50 ประเภท นอกจากนี้ยังรองรับการแยกวิเคราะห์คอนเทนเนอร์ เช่น ไฟล์ ZIP, ไฟล์ข้อมูลเมล OST/PST, eBook, มาร์กอัป และพอร์ตโฟลิโอ PDF ในแอปพลิเคชัน Node.js ของคุณ คุณสามารถแยกข้อความ รูปภาพ และแยกวิเคราะห์ข้อมูลตามเทมเพลตโดยใช้ SDK นอกจากนี้ยังมี .NET, Java, PHP, Ruby และ Python SDK เป็น สมาชิกตระกูลโปรแกรมแยกวิเคราะห์เอกสาร สำหรับ Cloud API

คุณสามารถติดตั้ง GroupDocs.Parser Cloud ลงในแอปพลิเคชัน Node.js โดยใช้คำสั่งต่อไปนี้ในคอนโซล:

npm install groupdocs-parser-cloud 

โปรดรับรหัสไคลเอนต์และข้อมูลลับของคุณจาก แดชบอร์ด ก่อนทำตามขั้นตอนดังกล่าว เมื่อคุณมี ID และรหัสลับของคุณแล้ว ให้เพิ่มรหัสตามที่แสดงด้านล่าง:

global.clientId = "112f0f38-9dae-42d5-b4fc-cc84ae644972";
global.clientSecret = "16ad3fe0bdc39c910f57d2fd48a5d618";
global.myStorage = "";

const configuration = new groupdocs_parser_cloud.Configuration(clientId, clientSecret);
configuration.apiBaseUrl = "https://api.groupdocs.cloud";

แยกวิเคราะห์เอกสาร Word และแยกรูปภาพโดยใช้ REST API ใน Node.js

คุณสามารถแยกวิเคราะห์เอกสาร Word ของคุณและแยกรูปภาพโดยทางโปรแกรมโดยทำตามขั้นตอนด้านล่าง:

อัปโหลดเอกสาร

ขั้นแรก อัปโหลดเอกสาร Word (DOCX) ไปยัง Cloud โดยใช้ตัวอย่างโค้ดที่ระบุด้านล่าง:

// เริ่มต้น API
let fileApi = groupdocs_parser_cloud.FileApi.fromConfig(configuration);
let resourcesFolder = 'C:\\Files\\sample.docx';

// อ่านไฟล์
fs.readFile(resourcesFolder, (err, fileStream) => {
  // สร้างคำขออัปโหลดไฟล์
  let request = new groupdocs_parser_cloud.UploadFileRequest("sample.docx", fileStream, myStorage);
  // อัพโหลดไฟล์
  fileApi.uploadFile(request);
});

ด้วยเหตุนี้ ไฟล์ DOCX ที่อัปโหลดจะอยู่ใน ส่วนไฟล์ ของแดชบอร์ดของคุณบนระบบคลาวด์

แยกรูปภาพออกจากเอกสาร Word โดยใช้ Node.js

คุณสามารถแยกรูปภาพทั้งหมดออกจากเอกสาร Word ได้โดยทำตามขั้นตอนด้านล่าง

  • สร้างอินสแตนซ์ของ ParseApi
  • สร้างอินสแตนซ์ของ FileInfo
  • กำหนดเส้นทางไปยังไฟล์ DOCX
  • สร้างอินสแตนซ์ของ ImageOptions
  • กำหนด FileInfo ให้กับ ImageOptions
  • สร้างคำขอรูปภาพ
  • รับผลลัพธ์โดยเรียกเมธอด ParseApi.images()

ตัวอย่างโค้ดต่อไปนี้แสดงวิธีแยกรูปภาพจากไฟล์ DOCX โดยใช้ REST API

// การเริ่มต้น API
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// ข้อมูลไฟล์ตัวอย่าง
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.docx";

// กำหนดตัวเลือกภาพ
let options = new groupdocs_parser_cloud.ImagesOptions();
options.fileInfo = fileInfo;

// สร้างคำขอภาพ
let request = new groupdocs_parser_cloud.ImagesRequest(options);

// รับภาพ
let result = await parseApi.images(request);

// แสดงเส้นทางการดาวน์โหลดภาพ
let images = result.images;
images.forEach(image => {
  console.log("Image path in storage: " + image.path);
  console.log("Download url: " + image.downloadUrl);
  console.log("Image format: " + image.fileFormat + ". Page index: " + image.pageIndex);
});
แยกรูปภาพออกจากเอกสาร Word โดยใช้ Node.js

แยกรูปภาพออกจากเอกสาร Word โดยใช้ Node.js

ดาวน์โหลดภาพที่แยกออกมา

ตัวอย่างโค้ดด้านบนจะบันทึกภาพที่แยกไว้บนคลาวด์ คุณสามารถดาวน์โหลดรูปภาพเหล่านี้ได้โดยใช้ตัวอย่างโค้ดด้านล่าง:

// เริ่มต้น API
var fileApi = groupdocs_parser_cloud.FileApi.fromConfig(configuration);

// สร้างคำขอดาวน์โหลดไฟล์
let request = new groupdocs_parser_cloud.DownloadFileRequest("parser/images/sample_docx/image_0.png", myStorage);

// ดาวน์โหลดไฟล์
let response = await fileApi.downloadFile(request);

// บันทึกไฟล์รูปภาพในไดเร็กทอรีการทำงาน
fs.writeFile("C:\\Files\\images\\image_0.png", response, "binary", function (err) { });
console.log(response);

แยกข้อความจากเอกสาร Word โดยใช้ Node.js

คุณสามารถแยกข้อความทั้งหมดออกจากเอกสาร Word ได้โดยทำตามขั้นตอนด้านล่าง

  • สร้างอินสแตนซ์ของ ParseApi
  • สร้างอินสแตนซ์ของ FileInfo
  • กำหนดเส้นทางไปยังไฟล์ DOCX
  • สร้างตัวอย่างของ TextOptions
  • กำหนด FileInfo ให้กับ TextOptions
  • กำหนดหมายเลขหน้าเริ่มต้น
  • กำหนด FormattedTextOptions
  • สร้าง TextRequest
  • รับผลลัพธ์โดยเรียกเมธอด ParseApi.text()

ตัวอย่างโค้ดต่อไปนี้แสดงวิธีแยกข้อความจากไฟล์ DOCX โดยใช้ REST API

// การเริ่มต้น API
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// ข้อมูลไฟล์ตัวอย่าง
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.docx";

// กำหนดตัวเลือกข้อความ
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.startPageNumber = 0;
options.countPagesToExtract = 1;
options.formattedTextOptions = new groupdocs_parser_cloud.FormattedTextOptions({
  mode: "Html"  // extract text in HTML
});

// สร้างคำขอข้อความ
let request = new groupdocs_parser_cloud.TextRequest(options);

// รับข้อความ
let result = await parseApi.text(request);

// แสดงข้อความที่แยกออกมา
let pages = result.pages;
pages.forEach(page => console.log(page.text));
แยกข้อความจากเอกสาร Word โดยใช้ Node.js

แยกข้อความจากเอกสาร Word โดยใช้ Node.js

ลองออนไลน์

โปรดลองใช้เครื่องมือแยกวิเคราะห์ DOCX ออนไลน์ฟรีต่อไปนี้ ซึ่งพัฒนาโดยใช้ API ข้างต้น https://products.groupdocs.app/parser/docx

บทสรุป

ในบทความนี้ คุณได้เรียนรู้วิธีแยกวิเคราะห์เอกสาร Word บนคลาวด์ คุณได้เรียนรู้วิธีแยกรูปภาพและข้อความจากไฟล์ DOCX โดยใช้ REST API ใน Node.js บทความนี้ยังอธิบายวิธีการอัปโหลดไฟล์ DOCX ทางโปรแกรมบนคลาวด์และดาวน์โหลดไฟล์รูปภาพจากคลาวด์ คุณสามารถเรียนรู้เพิ่มเติมเกี่ยวกับ GroupDocs.Parser Cloud API โดยใช้ เอกสารประกอบ เรายังมีส่วน API Reference ที่ช่วยให้คุณแสดงภาพและโต้ตอบกับ API ของเราได้โดยตรงผ่านเบราว์เซอร์ ในกรณีที่มีความคลุมเครือ โปรดติดต่อเราได้ที่ ฟอรัม

ดูสิ่งนี้ด้วย