Если вы когда-либо пытались вручную скопировать данные из PDF, вы знаете, насколько это утомительно — особенно для больших или нескольких документов. С нашим .NET Cloud SDK вы можете автоматизировать этот процесс и извлекать текст из PDF-файлов программным образом, используя всего лишь несколько строк кода на C#.
В этом обучающем руководстве для начинающих вы научитесь извлекать текст из PDF-документов на C# .NET, независимо от того, хотите ли вы прочитать весь текст, извлечь текст по определенным диапазонам страниц или даже разобрать текст из встроенных файлов внутри PDF.
- PDF Parser API
- Извлечение текста из PDF с использованием C#
- Извлечение текста из диапазона страниц с использованием C#
- Извлечь текст из приложенных документов
PDF Parser API
GroupDocs.Parser Cloud SDK for .NET — это потрясающий API, который предлагает возможности программного манипулирования PDF-файлами онлайн. Он не только предлагает возможности создания или конвертации PDF, но вы также можете легко извлекать элементы PDF-файлов, такие как текст, изображения, вложения, закладки и т. д. В этой статье мы сосредотачиваемся на извлечении текста из PDF-файла с использованием .NET Cloud SDK.
🔧 Предварительные требования
Прежде чем мы начнем процесс манипуляции с PDF, необходимо убедиться, что установлены следующие компоненты:
- Учетная запись GroupDocs Cloud – зарегистрируйтесь, чтобы получить ваш Client ID and Secret.
- .NET 6.0 или более новая версия установлена.
- Visual Studio или любой IDE, который поддерживает разработку .NET.
Установка
Установите SDK напрямую из диспетчера пакетов NuGet:
Install-Package GroupDocs.Parser-Cloud
Извлечение текста из PDF с использованием C#
Пожалуйста, выполните шаги, приведенные ниже, чтобы программно получить текст из PDF-файла:
var configuration = new Configuration("YourClientId", "YourClientSecret");
var parseApi = new ParseApi(configuration);
Инициализируйте экземпляр ParseApi
, передав объект Configuration в качестве аргумента.
var fileApi = new FileApi(configuration);
using (var fileStream = File.OpenRead("sample.pdf"))
{
var uploadRequest = new UploadFileRequest("sample.pdf", fileStream);
fileApi.UploadFile(uploadRequest);
}
Считать входной PDF файл с локального диска и загрузить в облачное хранилище, вызвав метод UploadFile(...)
класса UploadFileRequest.
// Для получения дополнительных примеров, пожалуйста, посетите https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-dotnet
var options = new TextOptions
{
FileInfo = new FileInfo { FilePath = "sample.pdf" }
};
var request = new TextRequest(options);
var response = parseApi.Text(request);
Console.WriteLine("Extracted Text:\n");
Console.WriteLine(response.Text);
- TextOptions: Определяет, из какого файла извлекать текст.
- TextRequest: Отправляет запрос в облако.
- parseApi.Text(): Возвращает извлеченное текстовое содержимое.
Извлечение текста из диапазона страниц с использованием C#
Если вам нужен текст только с определенных страниц (например, страниц 2 по 4), вы можете указать диапазон страниц следующим образом:
var options = new TextOptions
{
FileInfo = new FileInfo { FilePath = "sample.pdf" },
StartPageNumber = 2,
CountPagesToExtract = 3
};
var request = new TextRequest(options);
var response = parseApi.Text(request);
Console.WriteLine("Text extracted from pages 2 to 4:");
Console.WriteLine(response.Text);
Извлечь текст из приложенных документов
Некоторые PDF-файлы содержат вложения, такие как Word, Excel или другой PDF внутри. SDK позволяет извлекать текст даже из этих вложенных документов:
var options = new TextOptions
{
FileInfo = new FileInfo { FilePath = "sample.pdf" },
ContainerItemInfo = new ContainerItemInfo
{
RelativePath = "attachment.docx",
StartPageNumber = 1,
CountPagesToExtract = 2
}
};
var request = new TextRequest(options);
var response = parseApi.Text(request);
Console.WriteLine("Extracted text from the attached document:");
Console.WriteLine(response.Text);
Попробуйте онлайн
Не хотите пока кодировать? Попробуйте бесплатный online PDF text extractor . Он работает на основе REST API, позволяя вам мгновенно извлекать текст из любого PDF-документа.

Заключение
В этом руководстве вы узнали, как:
- Извлечение текста из PDF файлов с использованием C# .NET.
- Загрузите и проанализируйте документы в облаке.
- Получите текст по диапазону страниц или из прикрепленных файлов.
Наш Cloud API упрощает разработчикам автоматизацию извлечения текста из PDF без необходимости разбираться в низкоуровневой логике парсинга PDF.