Estrai testo da file PDF utilizzando C# .NET REST API

Se hai mai provato a copiare manualmente dati da un PDF, sai quanto può essere noioso—soprattutto per documenti grandi o multipli. Con il nostro .NET Cloud SDK, puoi automatizzare questo processo ed estrarre testo dai PDF programmaticamente usando solo poche righe di codice C#.

In questo tutorial adatto ai principianti, imparerai come estrarre testo da documenti PDF in C# .NET, sia che tu voglia leggere tutto il testo, estrarre per intervalli di pagina specifici, o persino analizzare il testo da file incorporati all’interno di un PDF.

PDF Parser API
Estrai Testo PDF utilizzando C#
Estrai testo da un intervallo di pagine utilizzando C#
Estrai testo dai documenti allegati

PDF Parser API

GroupDocs.Parser Cloud SDK for .NET è un’incredibile API che offre la possibilità di manipolare i file PDF online in modo programmatico. Non solo offre capacità di creazione o conversione PDF, ma puoi anche estrarre facilmente elementi del file PDF come Testo, Immagini, Allegati, Segnalibri, ecc. In questo articolo, siamo concentrati sull’estrazione del testo da un file PDF utilizzando .NET Cloud SDK.

🔧 Prerequisites

Prima di iniziare il processo di manipolazione dei PDF, dobbiamo assicurarci che i seguenti componenti siano installati:

Un account GroupDocs Cloud – iscriviti per ottenere il tuo Client ID e Secret.
.NET 6.0 o superiore installato.
Visual Studio o qualsiasi IDE che supporta lo sviluppo .NET.

Installazione

Installa l’SDK direttamente dal NuGet Package Manager:

Install-Package GroupDocs.Parser-Cloud

Estrai testo PDF utilizzando C#

Per favore segui i passaggi indicati di seguito per ottenere programmaticamente il testo da un file PDF:

var configuration = new Configuration("YourClientId", "YourClientSecret");
var parseApi = new ParseApi(configuration);

Inizializza un’istanza di ParseApi passando un oggetto Configuration come argomento.

var fileApi = new FileApi(configuration);

using (var fileStream = File.OpenRead("sample.pdf"))
{
    var uploadRequest = new UploadFileRequest("sample.pdf", fileStream);
    fileApi.UploadFile(uploadRequest);
}

Leggi il file PDF di input dal disco locale e caricalo nel cloud storage chiamando il metodo UploadFile(...) della classe UploadFileRequest.

// Per ulteriori esempi, si prega di visitare https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-dotnet

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "sample.pdf" }
};

var request = new TextRequest(options);
var response = parseApi.Text(request);

Console.WriteLine("Extracted Text:\n");
Console.WriteLine(response.Text);

TextOptions: Definisce da quale file estrarre il testo.
TextRequest: Invia la richiesta al cloud.
parseApi.Text(): Restituisce il contenuto testuale estratto.

Estrai testo da un intervallo di pagine usando C#

Se hai bisogno solo di testo da pagine specifiche (ad esempio, pagine 2 a 4), puoi specificare l’intervallo di pagine in questo modo:

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "sample.pdf" },
    StartPageNumber = 2,
    CountPagesToExtract = 3
};

var request = new TextRequest(options);
var response = parseApi.Text(request);

Console.WriteLine("Text extracted from pages 2 to 4:");
Console.WriteLine(response.Text);

Estrai testo dai documenti allegati

Alcuni PDF contengono allegati come Word, Excel o un altro PDF al loro interno. L’SDK consente di estrarre testo anche da questi documenti incorporati:

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "sample.pdf" },
    ContainerItemInfo = new ContainerItemInfo
    {
        RelativePath = "attachment.docx",
        StartPageNumber = 1,
        CountPagesToExtract = 2
    }
};

var request = new TextRequest(options);
var response = parseApi.Text(request);

Console.WriteLine("Extracted text from the attached document:");
Console.WriteLine(response.Text);

Prova Online

Non vuoi ancora programmare? Prova il gratuito estrattore di testo PDF online . È alimentato da REST API, che ti consente di estrarre istantaneamente testo da qualsiasi documento PDF.

Conclusione

In questa guida, hai imparato come:

Estrai testo da file PDF utilizzando C# .NET.
Carica e analizza documenti nel cloud.
Recupera il testo per intervallo di pagine o da file allegati.

La nostra API Cloud facilita agli sviluppatori l’automazione dell’estrazione del testo PDF senza dover affrontare la logica di parsing PDF di basso livello.

Estrai testo da PDF con C# .NET

PDF Parser API

🔧 Prerequisites

Estrai testo PDF utilizzando C#

Estrai testo da un intervallo di pagine usando C#

Estrai testo dai documenti allegati

Prova Online

Conclusione

Collegamenti Utili

Vedi anche

PDF Parser API#

🔧 Prerequisites#

Estrai testo PDF utilizzando C##

Estrai testo da un intervallo di pagine usando C##

Estrai testo dai documenti allegati#

Prova Online#

Conclusione#

Collegamenti Utili#

Vedi anche#

PDF Parser API

🔧 Prerequisites

Estrai testo PDF utilizzando C#

Estrai testo da un intervallo di pagine usando C#

Estrai testo dai documenti allegati

Prova Online

Conclusione

Collegamenti Utili

Vedi anche