Si alguna vez has intentado copiar datos manualmente de un PDF, sabes lo tedioso que puede ser, especialmente para documentos grandes o múltiples. Con nuestro SDK de .NET Cloud, puedes automatizar este proceso y extraer texto de PDFs programáticamente usando solo unas pocas líneas de código en C#.

En este tutorial amigable para principiantes, aprenderás a extraer texto de documentos PDF en C# .NET, ya sea que quieras leer todo el texto, extraer por rangos de páginas específicos o incluso analizar texto de archivos incrustados dentro de un PDF.

API de análisis de PDF

GroupDocs.Parser Cloud SDK for .NET es una API increíble que ofrece las capacidades para manipular programáticamente archivos PDF en línea. No solo ofrece capacidades de creación o conversión de PDF, sino que también puedes extraer fácilmente elementos de archivos PDF como Texto, Imagen, Adjuntos, Marcadores, etc. En este artículo, nos enfocamos en la extracción de texto de un archivo PDF utilizando .NET Cloud SDK.

🔧 Requisitos previos

Antes de comenzar con el proceso de manipulación de PDF, necesitamos asegurarnos de que los siguientes componentes estén instalados:

  • Una cuenta de GroupDocs Cloud: regístrese para obtener su Client ID and Secret.
  • .NET 6.0 o superior instalado.
  • Visual Studio o cualquier IDE que soporte el desarrollo en .NET.

Instalación

Instalar el SDK directamente desde el Administrador de paquetes NuGet:

Install-Package GroupDocs.Parser-Cloud

Extraer texto de PDF usando C#

Por favor, siga los pasos que se indican a continuación para obtener textualmente de forma programática un archivo PDF:

var configuration = new Configuration("YourClientId", "YourClientSecret");
var parseApi = new ParseApi(configuration);

Inicializa una instancia de ParseApi pasando el objeto Configuration como argumento.

var fileApi = new FileApi(configuration);

using (var fileStream = File.OpenRead("sample.pdf"))
{
    var uploadRequest = new UploadFileRequest("sample.pdf", fileStream);
    fileApi.UploadFile(uploadRequest);
}

Leer el archivo PDF de la unidad local y subirlo al almacenamiento en la nube llamando al método UploadFile(...) de la clase UploadFileRequest.

// Para más ejemplos, por favor visita https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-dotnet

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "sample.pdf" }
};

var request = new TextRequest(options);
var response = parseApi.Text(request);

Console.WriteLine("Extracted Text:\n");
Console.WriteLine(response.Text);
  • TextOptions: Define de qué archivo extraer texto.
  • TextRequest: Envía la solicitud a la nube.
  • parseApi.Text(): Devuelve el contenido de texto extraído.

Extraer texto de un rango de páginas usando C#

Si solo necesitas texto de páginas específicas (por ejemplo, páginas 2 a 4), puedes especificar el rango de páginas así:

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "sample.pdf" },
    StartPageNumber = 2,
    CountPagesToExtract = 3
};

var request = new TextRequest(options);
var response = parseApi.Text(request);

Console.WriteLine("Text extracted from pages 2 to 4:");
Console.WriteLine(response.Text);

Extract Text from Attached Documents

Algunos PDFs contienen adjuntos como Word, Excel o otro PDF dentro. El SDK te permite extraer texto incluso de esos documentos incrustados:

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "sample.pdf" },
    ContainerItemInfo = new ContainerItemInfo
    {
        RelativePath = "attachment.docx",
        StartPageNumber = 1,
        CountPagesToExtract = 2
    }
};

var request = new TextRequest(options);
var response = parseApi.Text(request);

Console.WriteLine("Extracted text from the attached document:");
Console.WriteLine(response.Text);

Intenta en línea

¿No quieres codificar aún? Prueba el gratis online PDF text extractor. Está potenciado por REST API, lo que te permite extraer texto de cualquier documento PDF al instante.

comparar archivos de excel en línea

Conclusión

En esta guía, aprendiste cómo:

  • Extraer texto de archivos PDF utilizando C# .NET.
  • Sube y analiza documentos en la nube.
  • Recuperar texto por rango de páginas o de archivos adjuntos.

Nuestra API en la nube facilita la automatización de la extracción de texto de PDF para los desarrolladores, sin necesidad de lidiar con la lógica de análisis de PDF de bajo nivel.

Enlaces útiles

Ver También