Если вы когда-либо пытались вручную скопировать данные из PDF, вы знаете, насколько это утомительно — особенно для больших или нескольких документов. С нашим .NET Cloud SDK вы можете автоматизировать этот процесс и извлекать текст из PDF-файлов программным образом, используя всего лишь несколько строк кода на C#.

В этом обучающем руководстве для начинающих вы научитесь извлекать текст из PDF-документов на C# .NET, независимо от того, хотите ли вы прочитать весь текст, извлечь текст по определенным диапазонам страниц или даже разобрать текст из встроенных файлов внутри PDF.

PDF Parser API

GroupDocs.Parser Cloud SDK for .NET — это потрясающий API, который предлагает возможности программного манипулирования PDF-файлами онлайн. Он не только предлагает возможности создания или конвертации PDF, но вы также можете легко извлекать элементы PDF-файлов, такие как текст, изображения, вложения, закладки и т. д. В этой статье мы сосредотачиваемся на извлечении текста из PDF-файла с использованием .NET Cloud SDK.

🔧 Предварительные требования

Прежде чем мы начнем процесс манипуляции с PDF, необходимо убедиться, что установлены следующие компоненты:

  • Учетная запись GroupDocs Cloud – зарегистрируйтесь, чтобы получить ваш Client ID and Secret.
  • .NET 6.0 или более новая версия установлена.
  • Visual Studio или любой IDE, который поддерживает разработку .NET.

Установка

Установите SDK напрямую из диспетчера пакетов NuGet:

Install-Package GroupDocs.Parser-Cloud

Извлечение текста из PDF с использованием C#

Пожалуйста, выполните шаги, приведенные ниже, чтобы программно получить текст из PDF-файла:

var configuration = new Configuration("YourClientId", "YourClientSecret");
var parseApi = new ParseApi(configuration);

Инициализируйте экземпляр ParseApi, передав объект Configuration в качестве аргумента.

var fileApi = new FileApi(configuration);

using (var fileStream = File.OpenRead("sample.pdf"))
{
    var uploadRequest = new UploadFileRequest("sample.pdf", fileStream);
    fileApi.UploadFile(uploadRequest);
}

Считать входной PDF файл с локального диска и загрузить в облачное хранилище, вызвав метод UploadFile(...) класса UploadFileRequest.

// Для получения дополнительных примеров, пожалуйста, посетите https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-dotnet

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "sample.pdf" }
};

var request = new TextRequest(options);
var response = parseApi.Text(request);

Console.WriteLine("Extracted Text:\n");
Console.WriteLine(response.Text);
  • TextOptions: Определяет, из какого файла извлекать текст.
  • TextRequest: Отправляет запрос в облако.
  • parseApi.Text(): Возвращает извлеченное текстовое содержимое.

Извлечение текста из диапазона страниц с использованием C#

Если вам нужен текст только с определенных страниц (например, страниц 2 по 4), вы можете указать диапазон страниц следующим образом:

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "sample.pdf" },
    StartPageNumber = 2,
    CountPagesToExtract = 3
};

var request = new TextRequest(options);
var response = parseApi.Text(request);

Console.WriteLine("Text extracted from pages 2 to 4:");
Console.WriteLine(response.Text);

Извлечь текст из приложенных документов

Некоторые PDF-файлы содержат вложения, такие как Word, Excel или другой PDF внутри. SDK позволяет извлекать текст даже из этих вложенных документов:

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "sample.pdf" },
    ContainerItemInfo = new ContainerItemInfo
    {
        RelativePath = "attachment.docx",
        StartPageNumber = 1,
        CountPagesToExtract = 2
    }
};

var request = new TextRequest(options);
var response = parseApi.Text(request);

Console.WriteLine("Extracted text from the attached document:");
Console.WriteLine(response.Text);

Попробуйте онлайн

Не хотите пока кодировать? Попробуйте бесплатный online PDF text extractor . Он работает на основе REST API, позволяя вам мгновенно извлекать текст из любого PDF-документа.

сравнить файлы excel онлайн

Заключение

В этом руководстве вы узнали, как:

  • Извлечение текста из PDF файлов с использованием C# .NET.
  • Загрузите и проанализируйте документы в облаке.
  • Получите текст по диапазону страниц или из прикрепленных файлов.

Наш Cloud API упрощает разработчикам автоматизацию извлечения текста из PDF без необходимости разбираться в низкоуровневой логике парсинга PDF.

Полезные ссылки

См. также