- HTML에서 텍스트를 추출하는 이유는 무엇인가요?
- HTML 텍스트 추출 API
- Convert HTML to TXT using C#
- HTML에서 cURL을 통해 텍스트 추출하기
- 무료 온라인 HTML 텍스트 추출기를 사용해보세요.
HTML에서 텍스트를 추출하는 이유는 무엇인가요?
HTML 파일은 마크업, 스타일, 스크립트 및 기타 메타데이터를 포함합니다. 깨끗한 텍스트를 추출하는 것은 다음과 같이 필수적입니다:
- 내용 마이그레이션
- 데이터 스크래핑
- 색인 생성 및 전체 텍스트 검색
- AI/ML 모델을 위한 훈련 데이터 준비
- 문서 분석 작업 흐름
- HTML 기반 이메일 처리
우리의 .NET 클라우드 SDK는 간단하고 강력한 API를 사용하여 이 entire process를 자동화하는 데 도움을 줍니다.
HTML Text Extraction API
The GroupDocs.Parser Cloud SDK for .NET는 다음의 추출을 가능하게 합니다:
- Visible text from HTML
- 구조화된 콘텐츠 (제목, 문단, 리스트)
- UTF‑8 인코딩된 콘텐츠
- Text from HTML email bodies
- 스크립트, 스타일 및 마크업이 없는 깨끗한 텍스트
위에서 언급한 API의 기능 외에도 다음과 같은 다른 기능을 제공합니다:
- 모든 HTML 태그를 제거합니다.
- Extracts readable plain text
- 대형 HTML 파일을 지원합니다.
- 텍스트 블록 세그멘테이션 제공합니다.
- 클라우드 저장소와 함께 작동합니다.
NuGet을 통해 설치하십시오.
dotnet add package GroupDocs.Parser-Cloud --version 25.7.0
You also need to create an account over GroupDocs Cloud dashboard so that you can obtain Client ID & Client Secret(필요한 정보입니다 API를 사용하기 위해).
HTML을 TXT로 변환하기 C#
다음은 SDK를 사용하여 HTML 파일에서 텍스트를 추출하는 방법을 보여주는 완벽한 예제입니다.
단계 1 — API 초기화:
var config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
var parserApi = new ParserApi(config);
var fileApi = new FileApi(config);
Step 2 — HTML 입력 설정:
var fileInfo = new FileInfo { FilePath = "input.html" };
var options = new TextOptions { FileInfo = fileInfo };
var request = new TextRequest(options);
Step 3 — Extract Text:
var response = parserApi.Text(request);
Console.WriteLine(response.Text);
4단계 — 출력 저장:
File.WriteAllText("html-output.txt", response.Text);
ar configuration = new GroupDocs.Parser.Cloud.Sdk.Client.Configuration("XXXXX-XXXXXXX","XXXXXXXXXXX");
configuration.ApiBaseUrl = "https://api.groupdocs.cloud";
var parseApi = new ParseApi(configuration);
var fileApi = new FileApi(configuration);
// 로컬 드라이브에서 입력 HTML 파일을 로드합니다.
using (var fileStream = System.IO.File.OpenRead("sample.html"))
{
// 클라우드 저장소에 HTML 업로드
var uploadRequest = new Requests.UploadFileRequest("input.html", fileStream);
fileApi.UploadFile(uploadRequest);
}
var options = new TextOptions
{
FileInfo = new FileInfo { FilePath = "input.html" }
};
var request = new TextRequest(options);
// extract text from HTML
var response = parseApi.Text(request);
// print the extract content in console
Console.WriteLine("Extracted Text:\n");
Console.WriteLine(response.Text);
// 선택적으로, 내용을 텍스트 파일에 작성하는 것을 고려할 수 있습니다.
File.WriteAllText("html-output.txt", response.Text);
HTML에서 cURL을 통해 텍스트 추출하기
대신 HTML 파일에서 텍스트를 추출하는 데 명령줄 작업을 사용하는 것을 선호하는 경우, cURL 명령과 함께 GroupDocs.Parser Cloud를 사용할 수도 있습니다.
1. 액세스 토큰 생성:
이 접근 방식의 전제 조건은 클라이언트 자격 증명을 사용하여 JWT 액세스 토큰을 생성하는 것입니다. JWT 토큰을 생성하려면 다음 명령을 실행하십시오.
curl -v -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"
2. HTML 텍스트 추출:
curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H "accept: application/json" \
-H "authorization: Bearer {JWT_TOKEN}" \
-H "Content-Type: application/json" \
-d "{ \"FileInfo\": { \"FilePath\": \"sample.html\", \"StorageName\": \"internal\" }}"
무료 온라인 HTML 텍스트 추출기 사용하기
한 줄의 코드도 작성하지 않고 .NET REST API의 기능을 경험해 보세요. 무료 온라인 HTML Parser 앱을 사용하여 온라인에서 HTML 텍스트를 추출해 보세요.

결론
이 기사에서는 GroupDocs.Parser for .NET Cloud SDK를 사용하여 HTML에서 텍스트를 추출하는 방법을 배웠습니다. API는 다음을 가능하게 합니다:
- Clean text extraction
- HTML 마크업 및 스크립트 제거
- 세분화된 구조적 추출
- C# 애플리케이션과의 통합
- 대규모 HTML 데이터 세트를 위한 자동화된 워크플로우
이것은 엔터프라이즈급 애플리케이션에서 HTML을 파싱하고 처리하는 데 이상적인 솔루션입니다.
관련 기사
자주 묻는 질문 (FAQs)
API가 모든 태그를 자동으로 제거하나요? Yes, only readable text is returned.
매우 큰 HTML 페이지를 구문 분석할 수 있습니까? 네, 이 서비스는 대량 입력에 최적화되어 있습니다.
텍스트를 섹션별로 추출할 수 있나요? 네, 구조화된 추출은 블록 수준 요소를 반환합니다.
HTML 이메일을 지원하나요? 절대적으로 — 본문 내용을 직접 추출합니다.
무료 체험을 받을 수 있나요? 네, 매달 150회의 무료 API 호출이 제공됩니다.
