Se você já tentou copiar dados manualmente de um PDF, sabe o quão tedioso isso pode ser—especialmente para documentos grandes ou múltiplos. Com nosso SDK de Cloud .NET, você pode automatizar esse processo e extrair texto de PDFs programaticamente usando apenas algumas linhas de código C#.
Neste tutorial amigável para iniciantes, você aprenderá como extrair texto de documentos PDF em C# .NET, seja para ler todo o texto, extrair por intervalos de páginas específicos ou até mesmo analisar texto de arquivos incorporados dentro de um PDF.
- PDF Parser API
- Extrair texto de PDF usando C#
- Extrair Texto de Faixa de Páginas usando C#
- Extrair texto dos documentos anexados
PDF Parser API
GroupDocs.Parser Cloud SDK for .NET é uma API incrível que oferece as capacidades de manipular arquivos PDF programaticamente online. Não só oferece as capacidades de criação ou conversão de PDF, mas você pode facilmente extrair elementos do arquivo PDF, como Texto, Imagem, Anexos, Marcadores, etc. Neste artigo, estamos focados na extração de texto de arquivos PDF usando o SDK Cloud .NET.
🔧 Pré-requisitos
Antes de começarmos o processo de manipulação de PDF, precisamos garantir que os seguintes componentes estejam instalados:
- Uma conta do GroupDocs Cloud – inscreva-se para obter seu Client ID and Secret.
- .NET 6.0 ou superior instalado.
- Visual Studio ou qualquer IDE que suporte o desenvolvimento .NET.
Instalação
Instale o SDK diretamente do NuGet Package Manager:
Install-Package GroupDocs.Parser-Cloud
Extrair Texto de PDF usando C#
Por favor, siga os passos abaixo para obter programaticamente texto de um arquivo PDF:
var configuration = new Configuration("YourClientId", "YourClientSecret");
var parseApi = new ParseApi(configuration);
Inicialize uma instância de ParseApi
passando um objeto de Configuração como argumento.
var fileApi = new FileApi(configuration);
using (var fileStream = File.OpenRead("sample.pdf"))
{
var uploadRequest = new UploadFileRequest("sample.pdf", fileStream);
fileApi.UploadFile(uploadRequest);
}
Leia o arquivo PDF de entrada do disco local e faça o upload para o armazenamento em nuvem chamando o método UploadFile(...)
da classe UploadFileRequest.
// Para mais exemplos, por favor visite https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-dotnet
var options = new TextOptions
{
FileInfo = new FileInfo { FilePath = "sample.pdf" }
};
var request = new TextRequest(options);
var response = parseApi.Text(request);
Console.WriteLine("Extracted Text:\n");
Console.WriteLine(response.Text);
- TextOptions: Define qual arquivo extrair texto.
- TextRequest: Envia a solicitação para a nuvem.
- parseApi.Text(): Retorna o conteúdo de texto extraído.
Extrair Texto de um Intervalo de Páginas usando C#
Se você precisar apenas de texto de páginas específicas (por exemplo, páginas 2 a 4), pode especificar a faixa de páginas assim:
var options = new TextOptions
{
FileInfo = new FileInfo { FilePath = "sample.pdf" },
StartPageNumber = 2,
CountPagesToExtract = 3
};
var request = new TextRequest(options);
var response = parseApi.Text(request);
Console.WriteLine("Text extracted from pages 2 to 4:");
Console.WriteLine(response.Text);
Extrair texto de documentos anexados
Alguns PDFs contêm anexos como Word, Excel ou outro PDF dentro. O SDK permite que você extraia texto mesmo desses documentos incorporados:
var options = new TextOptions
{
FileInfo = new FileInfo { FilePath = "sample.pdf" },
ContainerItemInfo = new ContainerItemInfo
{
RelativePath = "attachment.docx",
StartPageNumber = 1,
CountPagesToExtract = 2
}
};
var request = new TextRequest(options);
var response = parseApi.Text(request);
Console.WriteLine("Extracted text from the attached document:");
Console.WriteLine(response.Text);
Tente Online
Não quer codificar ainda? Experimente o extrator de texto de PDF online gratuito. Ele é alimentado por API REST, permitindo que você extraia instantaneamente texto de qualquer documento PDF.

Conclusão
Neste guia, você aprendeu como:
- Extrair texto de arquivos PDF usando C# .NET.
- Carregue e analise documentos na nuvem.
- Recupere texto por faixa de páginas ou de arquivos anexados.
Nossa API de Cloud facilita para os desenvolvedores automatizarem a extração de texto de PDF sem lidar com a lógica de análise de PDF de baixo nível.