Text aus PDF Dateien mit C# .NET REST API extrahieren

Wenn Sie jemals versucht haben, Daten manuell aus einem PDF zu kopieren, wissen Sie, wie mühsam das sein kann – insbesondere bei großen oder mehreren Dokumenten. Mit unserem .NET Cloud SDK können Sie diesen Prozess automatisieren und text aus PDFs programmatisch extrahieren, indem Sie nur wenige Zeilen C#-Code verwenden.

In diesem einsteigerfreundlichen Tutorial erfahren Sie, wie Sie Text aus PDF Dokumenten in C# .NET extrahieren, egal ob Sie gesamten Text lesen, Text aus bestimmten Seitenbereichen extrahieren oder sogar Text aus eingebetteten Dateien innerhalb eines PDFs analysieren möchten.

PDF Parser API
Extrahieren Sie PDF-Text mit C#
Text aus einem Seitenbereich mit C# extrahieren
Extract Text from Attached Documents

PDF Parser API

GroupDocs.Parser Cloud SDK für .NET ist eine erstaunliche API, die die Möglichkeit bietet, PDF Dateien programmgesteuert online zu manipulieren. Es bietet nicht nur die PDF-Erstellungs oder Konvertierungsfunktionen, sondern Sie können auch ganz einfach PDF-Dateileselemente wie Text, Bilder, Anhänge, Lesezeichen usw. extrahieren. In diesem Artikel konzentrieren wir uns auf die Textextraktion aus PDF Dateien mit dem .NET Cloud SDK.

🔧 Voraussetzungen

Bevor wir mit dem PDF-Manipulationsprozess beginnen, müssen wir sicherstellen, dass die folgenden Komponenten installiert sind:

Ein GroupDocs Cloud-Konto – melden Sie sich an, um Ihre Client ID and Secret zu erhalten.
.NET 6.0 oder höher installiert.
Visual Studio oder eine beliebige IDE, die .NET-Entwicklung unterstützt.

Installation

Installieren Sie das SDK direkt über den NuGet-Paket-Manager:

Install-Package GroupDocs.Parser-Cloud

Extrahieren von PDF-Text mit C#

Bitte folgen Sie den unten angegebenen Schritten, um programmgesteuert Text aus einer PDF-Datei zu extrahieren:

var configuration = new Configuration("YourClientId", "YourClientSecret");
var parseApi = new ParseApi(configuration);

Initialisieren Sie eine Instanz von ParseApi, indem Sie das Konfigurationsobjekt als Argument übergeben.

var fileApi = new FileApi(configuration);

using (var fileStream = File.OpenRead("sample.pdf"))
{
    var uploadRequest = new UploadFileRequest("sample.pdf", fileStream);
    fileApi.UploadFile(uploadRequest);
}

Read the input PDF-Datei von der lokalen Festplatte und lade sie in den Cloud-Speicher hoch, indem du die Methode UploadFile(...) der UploadFileRequest Klasse aufrufst.

// Für weitere Beispiele besuchen Sie bitte https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-dotnet

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "sample.pdf" }
};

var request = new TextRequest(options);
var response = parseApi.Text(request);

Console.WriteLine("Extracted Text:\n");
Console.WriteLine(response.Text);

TextOptions: Definiert, aus welcher Datei der Text extrahiert werden soll.
TextRequest: Sendet die Anfrage an die Cloud.
parseApi.Text(): Gibt den extrahierten Textinhalt zurück.

Text aus Seitenbereich mit C# extrahieren

Wenn Sie nur Text von bestimmten Seiten benötigen (zum Beispiel Seiten 2 bis 4), können Sie den Seitenbereich wie folgt angeben:

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "sample.pdf" },
    StartPageNumber = 2,
    CountPagesToExtract = 3
};

var request = new TextRequest(options);
var response = parseApi.Text(request);

Console.WriteLine("Text extracted from pages 2 to 4:");
Console.WriteLine(response.Text);

Extract Text from Attached Documents

Einige PDFs enthalten Anhänge wie Word, Excel oder ein anderes PDF. Das SDK ermöglicht es Ihnen, Text sogar aus diesen eingebetteten Dokumenten zu extrahieren:

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "sample.pdf" },
    ContainerItemInfo = new ContainerItemInfo
    {
        RelativePath = "attachment.docx",
        StartPageNumber = 1,
        CountPagesToExtract = 2
    }
};

var request = new TextRequest(options);
var response = parseApi.Text(request);

Console.WriteLine("Extracted text from the attached document:");
Console.WriteLine(response.Text);

Versuchen Sie Online

Don`t want to code yet? Try the free online PDF text extractor . Its powered by REST API, enabling you to instantly extract text from any PDF document.

Fazit

In diesem Leitfaden haben Sie gelernt, wie man:

Extrahieren Sie Text aus PDF Dateien mit C# .NET.
Laden Sie Dokumente in der Cloud hoch und analysieren Sie sie.
Text nach Seitenbereich oder aus angehängten Dateien abrufen.

Unsere Cloud-API ermöglicht es Entwicklern, die Textextraktion aus PDFs zu automatisieren, ohne sich mit der niedrigen PDF-Parsing-Logik befassen zu müssen.

Text aus PDF mit C# .NET extrahieren

PDF Parser API

🔧 Voraussetzungen

Extrahieren von PDF-Text mit C#

Text aus Seitenbereich mit C# extrahieren

Extract Text from Attached Documents

Versuchen Sie Online

Fazit

Nützliche Links

Siehe auch

PDF Parser API#

🔧 Voraussetzungen#

Extrahieren von PDF-Text mit C##

Text aus Seitenbereich mit C# extrahieren#

Extract Text from Attached Documents#

Versuchen Sie Online#

Fazit#

Nützliche Links#

Siehe auch#

PDF Parser API

🔧 Voraussetzungen

Extrahieren von PDF-Text mit C#

Text aus Seitenbereich mit C# extrahieren

Extract Text from Attached Documents

Versuchen Sie Online

Fazit

Nützliche Links

Siehe auch