Витягти текст з документа Word за допомогою API Node.js - Витягач тексту

Якщо вам потрібно витягти простий або структурований текст з документів Microsoft Word для автоматизації, індексування або аналізу, GroupDocs.Parser Cloud SDK для Node.js пропонує надійне RESTful рішення. З лише кількома рядками коду ви можете витягнути вміст з .doc і .docx файлів без установки Microsoft Word або використання будь-яких серверних інструментів.

API для вилучення тексту з документів Word

GroupDocs.Parser Cloud SDK for Node.js є обгорткою для REST API, яка спрощує процес витягування:

  • Text (full document or selective pages).
  • Таблиці та структуровані дані.
  • Метадані та вбудовані поля.
  • Attachments and images.

Це підтримує різні формати, включаючи PDF, Word, Excel, PowerPoint, MSG, ZIP та інші.

Передумови

  1. Створіть обліковий запис на GroupDocs.Cloud Dashboard.
  2. Отримайте свій Client ID і Client Secret.
  3. Встановіть SDK:
npm install groupdocs-parser-cloud

Ви можете розглянути можливість відвідати наступну статтю, щоб дізнатися більше про, як отримати ваш Client ID та Client Secret для аутентифікації.

API витягування тексту з Word документа

Будь ласка, дотримуйтесь наведених нижче кроків для отримання інформації про те, як витягти текст з документа Word за допомогою SDK Node.js.

Крок 1: Ініціалізувати конфігурацію:

const { ParserApi, Configuration, ImagesRequest, FileInfo, ImagesOptions } = require("groupdocs-parser-cloud");

const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);

Крок 2: Налаштування інформації про файл та параметрів тексту: Ініціалізуйте об’єкт класу TextRequest і передайте екземпляр класу TextOptions.

const fileInfo = new FileInfo();
// path to your Word file
fileInfo.filePath = "sample.docx";

const options = new TextOptions();
options.fileInfo = fileInfo;

const request = new TextRequest(options);

Крок 3: Витягнути текст з файлу Word: Викликайте метод text, і він поверне звичайний текстовий вміст з документа Word.

parserApi.text(request).then(response => {
    console.log("Extracted text content:");
    console.log(response.text);
}).catch(err => {
    console.error("Error extracting text:", err);
});
// Для більшої кількості прикладів, будь ласка, відвідайте https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-node
const { Configuration, ParserApi, TextOptions, TextRequest, FileInfo } = require("groupdocs-parser-cloud");

const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);

const fileInfo = new FileInfo();
// path of word document
fileInfo.filePath = "sample.docx";

const options = new TextOptions();
options.fileInfo = fileInfo;

const request = new TextRequest(options);

parserApi.text(request).then(response => {
    console.log("Extracted text content:");
    console.log(response.text);
}).catch(err => {
    console.error("Error extracting text:", err);
});

Ви можете побачити вихідний код вищенаведеного прикладу коду на зображенні нижче:

extract word document text

Extract Text from Word via cURL

Якщо ви віддаєте перевагу операціям через командний рядок або хочете інтегрувати в сценарій? Ви можете витягти текст з документа Word за допомогою cURL та GroupDocs.Parser REST API.

Крок 1 – Згенерувати токен доступу:

curl -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"

Крок 2 – Витягти текст за допомогою API виклику:

curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H  "accept: application/json" \
-H  "authorization: Bearer {ACCESS_TOKEN}" \
-H  "Content-Type: application/json" \
-d 
    "{  
        \"FileInfo\": 
        {
            \"FilePath\": \"sample.docx\",
            \"StorageName\": \"internal\"
        },
        \"StartPageNumber\": 0,
        \"CountPagesToExtract\": 1
    }"
  • Замініть на той, що ви згенерували.

Переваги використання cURL з API GroupDocs.Parser

  • ✅ Немає установки SDK.
  • ✅ Крос-платформна автоматизація.
  • ✅ Ідеально підходить для оболонкових сценаріїв та CI пайплайнів.
  • ✅ Ефективний і легкий.

Online Word Text Extractor

Використовуйте наш Безкоштовний онлайн-екстрактор тексту з документів, який працює на базі GroupDocs.Parser Cloud, якщо ви віддаєте перевагу варіанту без коду.

Онлайн витягувач тексту з документів Word

Висновок

З GroupDocs.Parser Cloud SDK для Node.js ви можете легко витягувати текст з документів Word (.docx або .doc) для автоматизації, індексації або розвідки даних. SDK та REST API пропонують гнучкі та масштабовані варіанти, незалежно від того, чи надаєте перевагу Node.js або прямим cURL командам.

📚 Додаткові ресурси

Часто задавані питання – FAQs

  1. Чи можу я також витягнути текст з таблиць DOCX?
  • Так. GroupDocs.Parser може витягувати структуровані дані, включаючи клітинки таблиць та дані макета.
  1. Чи потрібен Microsoft Word?
  • Ні. API працює в хмарі і не залежить від Microsoft Office.
  1. Яка модель ціноутворення?
  • Ми пропонуємо єдину модель оплати за принципом “плати, скільки користуєшся”. Для отримання додаткової інформації, будь ласка, відвідайте pricing guide.
  1. Чи можу я отримати безкоштовний пробний період?
  • Так. Після підписки на безкоштовний пробний акаунт, ви можете зробити 150 API викликів на місяць безкоштовно. Будь ласка, відвідайте pricing guide для отримання додаткової інформації.

Рекомендовані статті