If you`ve ever tried to manually copy data from a PDF, you know how tedious it can be—especially for large or multiple documents. With our .NET Cloud SDK, you can automate this process and extract text from PDFs programmatically using just a few lines of C# code.
W tym przyjaznym dla początkujących samouczku nauczysz się, jak wyodrębnić tekst z dokumentów PDF w C# .NET, niezależnie od tego, czy chcesz odczytać cały tekst, wyodrębnić według określonych zakresów stron, czy nawet sparsować tekst z osadzonych plików wewnątrz PDF.
- PDF Parser API
- Wyodrębnij tekst z pliku PDF za pomocą C#
- Wyodrębnij tekst z zakresu stron za pomocą C#
- Wyodrębnij tekst z załączonych dokumentów
PDF Parser API
GroupDocs.Parser Cloud SDK for .NET to niesamowite API, które oferuje możliwości programowego manipulowania plikami PDF online. Oferuje nie tylko możliwości tworzenia lub konwersji PDF, ale także łatwe wyodrębnianie elementów pliku PDF, takich jak tekst, obraz, załączniki, zakładki itp. W tym artykule skupiamy się na wyodrębnianiu tekstu z pliku PDF za pomocą .NET Cloud SDK.
🔧 Wymagania wstępne
Zanim rozpoczniemy proces manipulacji PDF, musimy upewnić się, że następujące komponenty są zainstalowane:
- Konto GroupDocs Cloud – zarejestruj się, aby uzyskać swój Client ID and Secret.
- .NET 6.0 lub wyższy zainstalowany.
- Visual Studio lub dowolne IDE, które obsługuje rozwój w .NET.
Instalacja
Zainstaluj SDK bezpośrednio z Menedżera Pakietów NuGet:
Install-Package GroupDocs.Parser-Cloud
Wyodrębnij tekst PDF za pomocą C#
Proszę postępować zgodnie z poniższymi krokami, aby programowo uzyskać tekst z pliku PDF:
var configuration = new Configuration("YourClientId", "YourClientSecret");
var parseApi = new ParseApi(configuration);
Zainicjalizuj instancję ParseApi
, przekazując obiekt Configuration jako argument.
var fileApi = new FileApi(configuration);
using (var fileStream = File.OpenRead("sample.pdf"))
{
var uploadRequest = new UploadFileRequest("sample.pdf", fileStream);
fileApi.UploadFile(uploadRequest);
}
Przeczytaj plik PDF z lokalnego dysku i prześlij go do chmury, wywołując metodę UploadFile(...)
klasy UploadFileRequest.
// Dla większej ilości przykładów, odwiedź proszę https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-dotnet
var options = new TextOptions
{
FileInfo = new FileInfo { FilePath = "sample.pdf" }
};
var request = new TextRequest(options);
var response = parseApi.Text(request);
Console.WriteLine("Extracted Text:\n");
Console.WriteLine(response.Text);
- TextOptions: Określa, z którego pliku wydobyć tekst.
- TextRequest: Wysyła żądanie do chmury.
- parseApi.Text(): Zwraca wyodrębnioną treść tekstową.
Wyodrębnij tekst z zakresu stron za pomocą C#
If you only need text from specific pages (for example, pages 2 to 4), you can specify the page range like this:
var options = new TextOptions
{
FileInfo = new FileInfo { FilePath = "sample.pdf" },
StartPageNumber = 2,
CountPagesToExtract = 3
};
var request = new TextRequest(options);
var response = parseApi.Text(request);
Console.WriteLine("Text extracted from pages 2 to 4:");
Console.WriteLine(response.Text);
Wyodrębnij tekst z dołączonych dokumentów
Niektóre pliki PDF zawierają załączniki, takie jak Word, Excel lub inny plik PDF wewnątrz. SDK pozwala na ekstrakcję tekstu nawet z tych osadzonych dokumentów:
var options = new TextOptions
{
FileInfo = new FileInfo { FilePath = "sample.pdf" },
ContainerItemInfo = new ContainerItemInfo
{
RelativePath = "attachment.docx",
StartPageNumber = 1,
CountPagesToExtract = 2
}
};
var request = new TextRequest(options);
var response = parseApi.Text(request);
Console.WriteLine("Extracted text from the attached document:");
Console.WriteLine(response.Text);
Spróbuj online
Nie chcesz jeszcze kodować? Wypróbuj darmowy online PDF text extractor. Jest zasilany przez REST API, co pozwala na natychmiastowe wyodrębnienie tekstu z dowolnego dokumentu PDF.

Wnioski
W tym przewodniku nauczyłeś się, jak:
- Wyodrębnij tekst z plików PDF używając C# .NET.
- Prześlij i analizuj dokumenty w chmurze.
- Pobierz tekst według zakresu stron lub z załączonych plików.
Nasze API w chmurze ułatwia programistom automatyzację ekstrakcji tekstu z plików PDF bez konieczności zajmowania się niskopoziomową logiką analizy PDF.