¿Por qué extraer texto de HTML?

Los archivos HTML contienen marcado, estilos, scripts y otros metadatos. Extraer texto limpio es esencial para:

  • Migración de contenido
  • Data scraping
  • Indexación y búsqueda de texto completo
  • Preparando datos de entrenamiento para modelos de IA/ML
  • Flujos de trabajo de análisis de documentos
  • Procesando correos electrónicos basados en HTML

Nuestro SDK en la nube de .NET te ayuda a automatizar todo este proceso utilizando una API simple y potente.


API de Extracción de Texto HTML

El SDK de GroupDocs.Parser Cloud para .NET permite la extracción de:

  • Visible text from HTML
  • Contenido estructurado (títulos, párrafos, listas)
  • UTF‑8 encoded content
  • Text from HTML email bodies
  • Texto limpio sin scripts, estilos ni marcado

Además de las capacidades de la API mencionadas anteriormente, también ofrece otras funcionalidades como:

  • Elimina todas las etiquetas HTML
  • Extracts readable plain text
  • Soporta archivos HTML grandes
  • Proporciona segmentación de bloques de texto
  • Funciona con almacenamiento en la nube

Instalar a través de NuGet

dotnet add package GroupDocs.Parser-Cloud --version 25.7.0

También necesitas crear una cuenta en GroupDocs Cloud dashboard para que puedas obtener el ID de Cliente y el Secreto de Cliente (son necesarios para usar la API).


Convertir HTML a TXT usando C#

Aquí hay un ejemplo completo que muestra cómo extraer texto de un archivo HTML usando el SDK.

Paso 1 — Inicializar la API:

var config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
var parserApi = new ParserApi(config);
var fileApi = new FileApi(config);

Paso 2 — Establecer entrada HTML:

var fileInfo = new FileInfo { FilePath = "input.html" };
var options = new TextOptions { FileInfo = fileInfo };
var request = new TextRequest(options);

Paso 3 — Extraer texto:

var response = parserApi.Text(request);
Console.WriteLine(response.Text);

Paso 4 — Guardar salida:

File.WriteAllText("html-output.txt", response.Text);
ar configuration = new GroupDocs.Parser.Cloud.Sdk.Client.Configuration("XXXXX-XXXXXXX","XXXXXXXXXXX");
configuration.ApiBaseUrl = "https://api.groupdocs.cloud";
var parseApi = new ParseApi(configuration);
var fileApi = new FileApi(configuration);

// Load input HTML file from local drive
using (var fileStream = System.IO.File.OpenRead("sample.html"))
{
    // subir HTML al almacenamiento en la nube
    var uploadRequest = new Requests.UploadFileRequest("input.html", fileStream);
    fileApi.UploadFile(uploadRequest);
}

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "input.html" }
};

var request = new TextRequest(options);
// extract text from HTML
var response = parseApi.Text(request);

// print the extract content in console
Console.WriteLine("Extracted Text:\n");
Console.WriteLine(response.Text); 

// Opcionalmente, puede considerar escribir el contenido en un archivo de texto.
File.WriteAllText("html-output.txt", response.Text);

Extraer texto de HTML a través de cURL

Alternativamente, si prefieres usar operaciones de línea de comandos para extraer texto de un archivo HTML, entonces también puedes usar GroupDocs.Parser Cloud con comandos cURL.

1. Generar Token de Acceso:

El requisito previo en este enfoque es generar un token de acceso JWT utilizando las credenciales del cliente. Por favor, ejecute el siguiente comando para generar un token JWT.

curl -v -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"

2. Extraer texto HTML:

curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H  "accept: application/json" \
-H  "authorization: Bearer {JWT_TOKEN}" \
-H  "Content-Type: application/json" \
-d "{  \"FileInfo\": {    \"FilePath\": \"sample.html\",    \"StorageName\": \"internal\"  }}"

Prueba el extractor de texto HTML en línea gratuito

Experimenta las capacidades de la API REST de .NET sin escribir una sola línea de código. Prueba nuestra aplicación gratuita en línea HTML Parser y extrae texto HTML en línea.

extract html text

Conclusión

En este artículo, aprendiste cómo extraer texto de HTML utilizando el GroupDocs.Parser Cloud SDK para .NET. La API permite:

  • Extracción de texto limpio
  • Eliminación de HTML y scripts
  • Extracción estructurada segmentada
  • Integración con aplicaciones C#
  • Flujos de trabajo automatizados para grandes conjuntos de datos HTML

Es una solución ideal para analizar y procesar HTML en aplicaciones de grado empresarial.


Artículos Relacionados


Preguntas Frecuentemente Realizadas (FAQs)

  1. ¿La API elimina todas las etiquetas automáticamente? Yes, only readable text is returned.

  2. ¿Puede analizar páginas HTML muy grandes? Sí, el servicio está optimizado para entradas grandes.

  3. ¿Puedo extraer texto por secciones? Sí, la extracción estructurada devuelve elementos a nivel de bloque.

  4. ¿Soporta correos electrónicos HTML? Absolutamente: extraer el contenido del cuerpo directamente.

  5. ¿Consigo una prueba gratuita? Sí, se dispone de 150 llamadas API gratuitas por mes.