HTML에서 텍스트를 추출하는 이유는 무엇인가요?

HTML 파일은 마크업, 스타일, 스크립트 및 기타 메타데이터를 포함합니다. 깨끗한 텍스트를 추출하는 것은 다음과 같이 필수적입니다:

  • 내용 마이그레이션
  • 데이터 스크래핑
  • 색인 생성 및 전체 텍스트 검색
  • AI/ML 모델을 위한 훈련 데이터 준비
  • 문서 분석 작업 흐름
  • HTML 기반 이메일 처리

우리의 .NET 클라우드 SDK는 간단하고 강력한 API를 사용하여 이 entire process를 자동화하는 데 도움을 줍니다.


HTML Text Extraction API

The GroupDocs.Parser Cloud SDK for .NET는 다음의 추출을 가능하게 합니다:

  • Visible text from HTML
  • 구조화된 콘텐츠 (제목, 문단, 리스트)
  • UTF‑8 인코딩된 콘텐츠
  • Text from HTML email bodies
  • 스크립트, 스타일 및 마크업이 없는 깨끗한 텍스트

위에서 언급한 API의 기능 외에도 다음과 같은 다른 기능을 제공합니다:

  • 모든 HTML 태그를 제거합니다.
  • Extracts readable plain text
  • 대형 HTML 파일을 지원합니다.
  • 텍스트 블록 세그멘테이션 제공합니다.
  • 클라우드 저장소와 함께 작동합니다.

NuGet을 통해 설치하십시오.

dotnet add package GroupDocs.Parser-Cloud --version 25.7.0

You also need to create an account over GroupDocs Cloud dashboard so that you can obtain Client ID & Client Secret(필요한 정보입니다 API를 사용하기 위해).


HTML을 TXT로 변환하기 C#

다음은 SDK를 사용하여 HTML 파일에서 텍스트를 추출하는 방법을 보여주는 완벽한 예제입니다.

단계 1 — API 초기화:

var config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
var parserApi = new ParserApi(config);
var fileApi = new FileApi(config);

Step 2 — HTML 입력 설정:

var fileInfo = new FileInfo { FilePath = "input.html" };
var options = new TextOptions { FileInfo = fileInfo };
var request = new TextRequest(options);

Step 3 — Extract Text:

var response = parserApi.Text(request);
Console.WriteLine(response.Text);

4단계 — 출력 저장:

File.WriteAllText("html-output.txt", response.Text);
ar configuration = new GroupDocs.Parser.Cloud.Sdk.Client.Configuration("XXXXX-XXXXXXX","XXXXXXXXXXX");
configuration.ApiBaseUrl = "https://api.groupdocs.cloud";
var parseApi = new ParseApi(configuration);
var fileApi = new FileApi(configuration);

// 로컬 드라이브에서 입력 HTML 파일을 로드합니다.
using (var fileStream = System.IO.File.OpenRead("sample.html"))
{
    // 클라우드 저장소에 HTML 업로드
    var uploadRequest = new Requests.UploadFileRequest("input.html", fileStream);
    fileApi.UploadFile(uploadRequest);
}

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "input.html" }
};

var request = new TextRequest(options);
// extract text from HTML
var response = parseApi.Text(request);

// print the extract content in console
Console.WriteLine("Extracted Text:\n");
Console.WriteLine(response.Text); 

// 선택적으로, 내용을 텍스트 파일에 작성하는 것을 고려할 수 있습니다.
File.WriteAllText("html-output.txt", response.Text);

HTML에서 cURL을 통해 텍스트 추출하기

대신 HTML 파일에서 텍스트를 추출하는 데 명령줄 작업을 사용하는 것을 선호하는 경우, cURL 명령과 함께 GroupDocs.Parser Cloud를 사용할 수도 있습니다.

1. 액세스 토큰 생성:

이 접근 방식의 전제 조건은 클라이언트 자격 증명을 사용하여 JWT 액세스 토큰을 생성하는 것입니다. JWT 토큰을 생성하려면 다음 명령을 실행하십시오.

curl -v -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"

2. HTML 텍스트 추출:

curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H  "accept: application/json" \
-H  "authorization: Bearer {JWT_TOKEN}" \
-H  "Content-Type: application/json" \
-d "{  \"FileInfo\": {    \"FilePath\": \"sample.html\",    \"StorageName\": \"internal\"  }}"

무료 온라인 HTML 텍스트 추출기 사용하기

한 줄의 코드도 작성하지 않고 .NET REST API의 기능을 경험해 보세요. 무료 온라인 HTML Parser 앱을 사용하여 온라인에서 HTML 텍스트를 추출해 보세요.

extract html text

결론

이 기사에서는 GroupDocs.Parser for .NET Cloud SDK를 사용하여 HTML에서 텍스트를 추출하는 방법을 배웠습니다. API는 다음을 가능하게 합니다:

  • Clean text extraction
  • HTML 마크업 및 스크립트 제거
  • 세분화된 구조적 추출
  • C# 애플리케이션과의 통합
  • 대규모 HTML 데이터 세트를 위한 자동화된 워크플로우

이것은 엔터프라이즈급 애플리케이션에서 HTML을 파싱하고 처리하는 데 이상적인 솔루션입니다.


관련 기사


자주 묻는 질문 (FAQs)

  1. API가 모든 태그를 자동으로 제거하나요? Yes, only readable text is returned.

  2. 매우 큰 HTML 페이지를 구문 분석할 수 있습니까? 네, 이 서비스는 대량 입력에 최적화되어 있습니다.

  3. 텍스트를 섹션별로 추출할 수 있나요? 네, 구조화된 추출은 블록 수준 요소를 반환합니다.

  4. HTML 이메일을 지원하나요? 절대적으로 — 본문 내용을 직접 추출합니다.

  5. 무료 체험을 받을 수 있나요? 네, 매달 150회의 무료 API 호출이 제공됩니다.