Por que extrair texto do HTML?

Arquivos HTML contêm marcação, estilos, scripts e outros metadados. Extrair texto limpo é essencial para:

  • Migração de conteúdo
  • Data scraping
  • Indexação e pesquisa de texto completo
  • Preparando dados de treinamento para modelos de IA/ML
  • Fluxos de trabalho de análise de documentos
  • Processando e-mails baseados em HTML

Nosso SDK de nuvem .NET ajuda você a automatizar todo esse processo usando uma API simples e poderosa.


API de Extração de Texto HTML

O SDK GroupDocs.Parser Cloud para .NET permite a extração de:

  • Texto visível do HTML
  • Conteúdo estruturado (títulos, parágrafos, listas)
  • UTF‑8 encoded content
  • Text from HTML email bodies
  • Texto limpo sem scripts, estilos e marcações

Além das capacidades da API mencionadas acima, também oferece outros recursos, como:

  • Remove todos os tags HTML
  • Extracts readable plain text
  • Suporta arquivos HTML grandes
  • Provides text block segmentation
  • Funciona com armazenamento em nuvem

Instalar via NuGet

dotnet add package GroupDocs.Parser-Cloud --version 25.7.0

Você também precisa criar uma conta no GroupDocs Cloud dashboard para que possa obter o Client ID e o Client Secret (eles são necessários para usar a API).


Converter HTML para TXT usando C#

Aqui está um exemplo completo mostrando como extrair texto de um arquivo HTML usando o SDK.

Passo 1 — Inicializar a API:

var config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
var parserApi = new ParserApi(config);
var fileApi = new FileApi(config);

Passo 2 — Definir Entrada HTML:

var fileInfo = new FileInfo { FilePath = "input.html" };
var options = new TextOptions { FileInfo = fileInfo };
var request = new TextRequest(options);

Passo 3 — Extrair Texto:

var response = parserApi.Text(request);
Console.WriteLine(response.Text);

Passo 4 — Salvar Saída:

File.WriteAllText("html-output.txt", response.Text);
ar configuration = new GroupDocs.Parser.Cloud.Sdk.Client.Configuration("XXXXX-XXXXXXX","XXXXXXXXXXX");
configuration.ApiBaseUrl = "https://api.groupdocs.cloud";
var parseApi = new ParseApi(configuration);
var fileApi = new FileApi(configuration);

// Carregar arquivo HTML de entrada do disco local
using (var fileStream = System.IO.File.OpenRead("sample.html"))
{
    // fazer upload de HTML para o armazenamento em nuvem
    var uploadRequest = new Requests.UploadFileRequest("input.html", fileStream);
    fileApi.UploadFile(uploadRequest);
}

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "input.html" }
};

var request = new TextRequest(options);
// extract text from HTML
var response = parseApi.Text(request);

// print the extract content in console
Console.WriteLine("Extracted Text:\n");
Console.WriteLine(response.Text); 

// Optionally, you may consider writing the content to text file
File.WriteAllText("html-output.txt", response.Text);

Extrair Texto de HTML via cURL

Alternativamente, se você prefere usar operações de linha de comando para extrair texto de um arquivo HTML, então você também pode usar GroupDocs.Parser Cloud com comandos cURL.

1. Gerar Token de Acesso:

O pré-requisito nesta abordagem é gerar um token de acesso JWT usando as credenciais do cliente. Por favor, execute o seguinte comando para gerar um token JWT.

curl -v -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"

2. Extrair Texto HTML:

curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H  "accept: application/json" \
-H  "authorization: Bearer {JWT_TOKEN}" \
-H  "Content-Type: application/json" \
-d "{  \"FileInfo\": {    \"FilePath\": \"sample.html\",    \"StorageName\": \"internal\"  }}"

Tente o Extrator de Texto HTML Online Grátis

Experimente as capacidades da API REST .NET sem escrever uma única linha de código. Experimente nosso aplicativo online gratuito HTML Parser e extraia texto HTML online.

extract html text

Conclusão

Neste artigo, você aprendeu como extrair texto do HTML usando o GroupDocs.Parser Cloud SDK para .NET. A API permite:

  • Extração de texto limpa
  • Remoção de marcação HTML e scripts
  • Extração estruturada segmentada
  • Integração com aplicações C#
  • Fluxos de trabalho automatizados para grandes conjuntos de dados HTML

É uma solução ideal para analisar e processar HTML em aplicações de nível empresarial.


Artigos Relacionados


Perguntas Frequentes (FAQs)

  1. A API remove todas as tags automaticamente? Sim, apenas o texto legível é retornado.

  2. Ele consegue analisar páginas HTML muito grandes? Sim, o serviço é otimizado para grandes entradas.

  3. Posso extrair texto por seção? Sim, a extração estruturada retorna elementos de nível de bloco.

  4. Suporta e-mails em HTML? Absolutely — extract body content directly.

  5. Eu tenho um teste gratuito? Sim, 150 chamadas de API gratuitas por mês estão disponíveis.