Se você já tentou copiar dados manualmente de um PDF, sabe o quão tedioso isso pode ser—especialmente para documentos grandes ou múltiplos. Com nosso SDK de Cloud .NET, você pode automatizar esse processo e extrair texto de PDFs programaticamente usando apenas algumas linhas de código C#.

Neste tutorial amigável para iniciantes, você aprenderá como extrair texto de documentos PDF em C# .NET, seja para ler todo o texto, extrair por intervalos de páginas específicos ou até mesmo analisar texto de arquivos incorporados dentro de um PDF.

PDF Parser API

GroupDocs.Parser Cloud SDK for .NET é uma API incrível que oferece as capacidades de manipular arquivos PDF programaticamente online. Não só oferece as capacidades de criação ou conversão de PDF, mas você pode facilmente extrair elementos do arquivo PDF, como Texto, Imagem, Anexos, Marcadores, etc. Neste artigo, estamos focados na extração de texto de arquivos PDF usando o SDK Cloud .NET.

🔧 Pré-requisitos

Antes de começarmos o processo de manipulação de PDF, precisamos garantir que os seguintes componentes estejam instalados:

  • Uma conta do GroupDocs Cloud – inscreva-se para obter seu Client ID and Secret.
  • .NET 6.0 ou superior instalado.
  • Visual Studio ou qualquer IDE que suporte o desenvolvimento .NET.

Instalação

Instale o SDK diretamente do NuGet Package Manager:

Install-Package GroupDocs.Parser-Cloud

Extrair Texto de PDF usando C#

Por favor, siga os passos abaixo para obter programaticamente texto de um arquivo PDF:

var configuration = new Configuration("YourClientId", "YourClientSecret");
var parseApi = new ParseApi(configuration);

Inicialize uma instância de ParseApi passando um objeto de Configuração como argumento.

var fileApi = new FileApi(configuration);

using (var fileStream = File.OpenRead("sample.pdf"))
{
    var uploadRequest = new UploadFileRequest("sample.pdf", fileStream);
    fileApi.UploadFile(uploadRequest);
}

Leia o arquivo PDF de entrada do disco local e faça o upload para o armazenamento em nuvem chamando o método UploadFile(...) da classe UploadFileRequest.

// Para mais exemplos, por favor visite https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-dotnet

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "sample.pdf" }
};

var request = new TextRequest(options);
var response = parseApi.Text(request);

Console.WriteLine("Extracted Text:\n");
Console.WriteLine(response.Text);
  • TextOptions: Define qual arquivo extrair texto.
  • TextRequest: Envia a solicitação para a nuvem.
  • parseApi.Text(): Retorna o conteúdo de texto extraído.

Extrair Texto de um Intervalo de Páginas usando C#

Se você precisar apenas de texto de páginas específicas (por exemplo, páginas 2 a 4), pode especificar a faixa de páginas assim:

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "sample.pdf" },
    StartPageNumber = 2,
    CountPagesToExtract = 3
};

var request = new TextRequest(options);
var response = parseApi.Text(request);

Console.WriteLine("Text extracted from pages 2 to 4:");
Console.WriteLine(response.Text);

Extrair texto de documentos anexados

Alguns PDFs contêm anexos como Word, Excel ou outro PDF dentro. O SDK permite que você extraia texto mesmo desses documentos incorporados:

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "sample.pdf" },
    ContainerItemInfo = new ContainerItemInfo
    {
        RelativePath = "attachment.docx",
        StartPageNumber = 1,
        CountPagesToExtract = 2
    }
};

var request = new TextRequest(options);
var response = parseApi.Text(request);

Console.WriteLine("Extracted text from the attached document:");
Console.WriteLine(response.Text);

Tente Online

Não quer codificar ainda? Experimente o extrator de texto de PDF online gratuito. Ele é alimentado por API REST, permitindo que você extraia instantaneamente texto de qualquer documento PDF.

comparar arquivos excel online

Conclusão

Neste guia, você aprendeu como:

  • Extrair texto de arquivos PDF usando C# .NET.
  • Carregue e analise documentos na nuvem.
  • Recupere texto por faixa de páginas ou de arquivos anexados.

Nossa API de Cloud facilita para os desenvolvedores automatizarem a extração de texto de PDF sem lidar com a lógica de análise de PDF de baixo nível.

Veja Também