Якщо ви коли-небудь намагалися вручну скопіювати дані з PDF, ви знаєте, як це може бути виснажливо — особливо для великих або кількох документів. З нашим .NET Cloud SDK ви можете автоматизувати цей процес і програмно витягувати текст з PDF, використовуючи всього кілька рядків коду C#.

В цьому навчальному посібнику для початківців ви дізнаєтеся, як витягувати текст із PDF-документів у C# .NET, незалежно від того, чи хочете ви прочитати весь текст, витягти за певними діапазонами сторінок або навіть проаналізувати текст з вбудованих файлів всередині PDF.

PDF Parser API

GroupDocs.Parser Cloud SDK для .NET є чудовим API, який пропонує можливості програмного управління PDF-файлами онлайн. Він не лише пропонує можливості створення або конвертації PDF, але ви можете легко витягувати елементи PDF-файлів, такі як текст, зображення, вкладення, закладки тощо. У цій статті ми зосередимося на витяганні тексту з PDF-файлу за допомогою .NET Cloud SDK.

🔧 Передумови

Перед тим, як ми почнемо процес маніпуляції з PDF, нам потрібно впевнитися, що встановлені наступні компоненти:

  • A GroupDocs Cloud account – sign up to get your Client ID and Secret .
  • .NET 6.0 або вище встановлено.
  • Visual Studio або будь-який IDE, який підтримує .NET-розробку.

Встановлення

Встановіть SDK безпосередньо з NuGet Package Manager:

Install-Package GroupDocs.Parser-Cloud

Витягнути текст з PDF за допомогою C#

Будь ласка, дотримуйтесь наведених нижче кроків, щоб програмно отримати текст з PDF файлу:

var configuration = new Configuration("YourClientId", "YourClientSecret");
var parseApi = new ParseApi(configuration);

Ініціалізуйте екземпляр ParseApi, передавши об’єкт Configuration як аргумент.

var fileApi = new FileApi(configuration);

using (var fileStream = File.OpenRead("sample.pdf"))
{
    var uploadRequest = new UploadFileRequest("sample.pdf", fileStream);
    fileApi.UploadFile(uploadRequest);
}

Прочитайте вхідний PDF файл з локального диска та завантажте його в хмарне сховище, викликавши метод UploadFile(...) класу UploadFileRequest.

// Для отримання додаткових прикладів, будь ласка, відвідайте https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-dotnet

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "sample.pdf" }
};

var request = new TextRequest(options);
var response = parseApi.Text(request);

Console.WriteLine("Extracted Text:\n");
Console.WriteLine(response.Text);
  • TextOptions: Означає, з якого файлу потрібно витягнути текст.
  • TextRequest: Надсилає запит до хмари.
  • parseApi.Text(): Повертає витягнений текстовий вміст.

Витягти текст з діапазону сторінок за допомогою C#

Якщо вам потрібен лише текст з певних сторінок (наприклад, з сторінок 2 по 4), ви можете вказати діапазон сторінок ось так:

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "sample.pdf" },
    StartPageNumber = 2,
    CountPagesToExtract = 3
};

var request = new TextRequest(options);
var response = parseApi.Text(request);

Console.WriteLine("Text extracted from pages 2 to 4:");
Console.WriteLine(response.Text);

Extract Text from Attached Documents

Деякі PDF-файли містять вкладення, такі як Word, Excel або інший PDF-файл. SDK дозволяє вам отримувати текст навіть з цих вбудованих документів:

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "sample.pdf" },
    ContainerItemInfo = new ContainerItemInfo
    {
        RelativePath = "attachment.docx",
        StartPageNumber = 1,
        CountPagesToExtract = 2
    }
};

var request = new TextRequest(options);
var response = parseApi.Text(request);

Console.WriteLine("Extracted text from the attached document:");
Console.WriteLine(response.Text);

Спробуйте онлайн

Не хочете ще кодувати? Спробуйте безкоштовний online PDF text extractor. Він працює на основі REST API, що дозволяє вам миттєво витягувати текст з будь-якого PDF-документа.

порівняти файли excel онлайн

Висновок

У цьому посібнику ви дізналися, як:

  • Витягти текст з PDF-файлів за допомогою C# .NET.
  • Завантажте та розпізнайте документи в хмарі.
  • Отримати текст за діапазоном сторінок або з прикріплених файлів.

Наш Cloud API спрощує розробникам автоматизацію вилучення тексту з PDF без необхідності мати справу з низькорівневою логікою парсингу PDF.

Корисні посилання

Дивіться також