Якщо ви коли-небудь намагалися вручну скопіювати дані з PDF, ви знаєте, як це може бути виснажливо — особливо для великих або кількох документів. З нашим .NET Cloud SDK ви можете автоматизувати цей процес і програмно витягувати текст з PDF, використовуючи всього кілька рядків коду C#.
В цьому навчальному посібнику для початківців ви дізнаєтеся, як витягувати текст із PDF-документів у C# .NET, незалежно від того, чи хочете ви прочитати весь текст, витягти за певними діапазонами сторінок або навіть проаналізувати текст з вбудованих файлів всередині PDF.
- PDF Parser API
- Витягнення тексту з PDF за допомогою C#
- Витягти текст із діапазону сторінок за допомогою C#
- Витягти текст з прикріплених документів
PDF Parser API
GroupDocs.Parser Cloud SDK для .NET є чудовим API, який пропонує можливості програмного управління PDF-файлами онлайн. Він не лише пропонує можливості створення або конвертації PDF, але ви можете легко витягувати елементи PDF-файлів, такі як текст, зображення, вкладення, закладки тощо. У цій статті ми зосередимося на витяганні тексту з PDF-файлу за допомогою .NET Cloud SDK.
🔧 Передумови
Перед тим, як ми почнемо процес маніпуляції з PDF, нам потрібно впевнитися, що встановлені наступні компоненти:
- A GroupDocs Cloud account – sign up to get your Client ID and Secret .
- .NET 6.0 або вище встановлено.
- Visual Studio або будь-який IDE, який підтримує .NET-розробку.
Встановлення
Встановіть SDK безпосередньо з NuGet Package Manager:
Install-Package GroupDocs.Parser-Cloud
Витягнути текст з PDF за допомогою C#
Будь ласка, дотримуйтесь наведених нижче кроків, щоб програмно отримати текст з PDF файлу:
var configuration = new Configuration("YourClientId", "YourClientSecret");
var parseApi = new ParseApi(configuration);
Ініціалізуйте екземпляр ParseApi
, передавши об’єкт Configuration як аргумент.
var fileApi = new FileApi(configuration);
using (var fileStream = File.OpenRead("sample.pdf"))
{
var uploadRequest = new UploadFileRequest("sample.pdf", fileStream);
fileApi.UploadFile(uploadRequest);
}
Прочитайте вхідний PDF файл з локального диска та завантажте його в хмарне сховище, викликавши метод UploadFile(...)
класу UploadFileRequest.
// Для отримання додаткових прикладів, будь ласка, відвідайте https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-dotnet
var options = new TextOptions
{
FileInfo = new FileInfo { FilePath = "sample.pdf" }
};
var request = new TextRequest(options);
var response = parseApi.Text(request);
Console.WriteLine("Extracted Text:\n");
Console.WriteLine(response.Text);
- TextOptions: Означає, з якого файлу потрібно витягнути текст.
- TextRequest: Надсилає запит до хмари.
- parseApi.Text(): Повертає витягнений текстовий вміст.
Витягти текст з діапазону сторінок за допомогою C#
Якщо вам потрібен лише текст з певних сторінок (наприклад, з сторінок 2 по 4), ви можете вказати діапазон сторінок ось так:
var options = new TextOptions
{
FileInfo = new FileInfo { FilePath = "sample.pdf" },
StartPageNumber = 2,
CountPagesToExtract = 3
};
var request = new TextRequest(options);
var response = parseApi.Text(request);
Console.WriteLine("Text extracted from pages 2 to 4:");
Console.WriteLine(response.Text);
Extract Text from Attached Documents
Деякі PDF-файли містять вкладення, такі як Word, Excel або інший PDF-файл. SDK дозволяє вам отримувати текст навіть з цих вбудованих документів:
var options = new TextOptions
{
FileInfo = new FileInfo { FilePath = "sample.pdf" },
ContainerItemInfo = new ContainerItemInfo
{
RelativePath = "attachment.docx",
StartPageNumber = 1,
CountPagesToExtract = 2
}
};
var request = new TextRequest(options);
var response = parseApi.Text(request);
Console.WriteLine("Extracted text from the attached document:");
Console.WriteLine(response.Text);
Спробуйте онлайн
Не хочете ще кодувати? Спробуйте безкоштовний online PDF text extractor. Він працює на основі REST API, що дозволяє вам миттєво витягувати текст з будь-якого PDF-документа.

Висновок
У цьому посібнику ви дізналися, як:
- Витягти текст з PDF-файлів за допомогою C# .NET.
- Завантажте та розпізнайте документи в хмарі.
- Отримати текст за діапазоном сторінок або з прикріплених файлів.
Наш Cloud API спрощує розробникам автоматизацію вилучення тексту з PDF без необхідності мати справу з низькорівневою логікою парсингу PDF.