PDF 파일에서 텍스트 추출하기 C# .NET REST API를 사용하여

If you`ve ever tried to manually copy data from a PDF, you know how tedious it can be—especially for large or multiple documents. With our .NET Cloud SDK, you can automate this process and extract text from PDFs programmatically using just a few lines of C# code.

이 초보자 친화적인 튜토리얼에서는 C# .NET에서 PDF 문서에서 텍스트를 추출하는 방법을 배우게 됩니다. 모든 텍스트를 읽거나 특정 페이지 범위로 추출하거나 PDF 내부의 임베디드 파일에서 텍스트를 구문 분석하는 방법을 원하든 관계없이 말입니다.

PDF 파서 API
C#로 PDF 텍스트 추출
페이지 범위에서 텍스트 추출하기 C# 사용하기
첨부된 문서에서 텍스트 추출하기

PDF 파서 API

GroupDocs.Parser Cloud SDK for .NET는 PDF 파일을 온라인으로 프로그래밍 방식으로 조작할 수 있는 놀라운 API입니다. PDF 생성 또는 변환 기능을 제공할 뿐만 아니라, 텍스트, 이미지, 첨부 파일, 북마크 등과 같은 PDF 파일 요소를 쉽게 추출할 수 있습니다. 이 기사에서는 .NET Cloud SDK를 사용하여 PDF 파일에서 텍스트를 추출하는 데 집중합니다.

🔧 전제 조건

PDF 조작 프로세스를 시작하기 전에 다음 구성 요소가 설치되어 있는지 확인해야 합니다:

A GroupDocs Cloud account – sign up to get your Client ID and Secret.
.NET 6.0 이상이 설치되어 있습니다.
비주얼 스튜디오 또는 .NET 개발을 지원하는 모든 IDE.

설치

SDK를 NuGet 패키지 관리자에서 직접 설치하세요:

Install-Package GroupDocs.Parser-Cloud

C#를 사용하여 PDF 텍스트 추출하기

PDF 파일에서 텍스트를 프로그램적으로 얻기 위한 아래 단계를 따르세요:

var configuration = new Configuration("YourClientId", "YourClientSecret");
var parseApi = new ParseApi(configuration);

ParseApi의 인스턴스를 초기화하려면 Configuration 객체를 인수로 전달하십시오.

var fileApi = new FileApi(configuration);

using (var fileStream = File.OpenRead("sample.pdf"))
{
    var uploadRequest = new UploadFileRequest("sample.pdf", fileStream);
    fileApi.UploadFile(uploadRequest);
}

로컬 드라이브에서 입력 PDF 파일을 읽고 UploadFile(...) 메서드를 호출하여 클라우드 스토리지에 업로드합니다.

// 더 많은 예제를 보려면 https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-dotnet 를 방문해 주세요.

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "sample.pdf" }
};

var request = new TextRequest(options);
var response = parseApi.Text(request);

Console.WriteLine("Extracted Text:\n");
Console.WriteLine(response.Text);

TextOptions: 텍스트를 추출할 파일을 정의합니다.
TextRequest: 클라우드에 요청을 보냅니다.
parseApi.Text(): 추출된 텍스트 내용을 반환합니다.

페이지 범위에서 텍스트 추출 C# 사용하기

특정 페이지(예: 페이지 2에서 4)에서만 텍스트가 필요하면 다음과 같이 페이지 범위를 지정할 수 있습니다:

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "sample.pdf" },
    StartPageNumber = 2,
    CountPagesToExtract = 3
};

var request = new TextRequest(options);
var response = parseApi.Text(request);

Console.WriteLine("Text extracted from pages 2 to 4:");
Console.WriteLine(response.Text);

첨부된 문서에서 텍스트 추출

일부 PDF에는 내부에 Word, Excel 또는 다른 PDF와 같은 첨부 파일이 포함되어 있습니다. SDK를 사용하면 이러한 임베디드 문서에서조차 텍스트를 추출할 수 있습니다:

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "sample.pdf" },
    ContainerItemInfo = new ContainerItemInfo
    {
        RelativePath = "attachment.docx",
        StartPageNumber = 1,
        CountPagesToExtract = 2
    }
};

var request = new TextRequest(options);
var response = parseApi.Text(request);

Console.WriteLine("Extracted text from the attached document:");
Console.WriteLine(response.Text);

온라인으로 시도해 보세요

코딩을 아직 원하지 않나요? 무료 online PDF text extractor를 시도해보세요. REST API로 구동되어 어떤 PDF 문서에서든 즉시 텍스트를 추출할 수 있습니다.

결론

이 가이드에서는 다음을 배우게 됩니다:

PDF 파일에서 텍스트를 C# .NET을 사용하여 추출하십시오.
클라우드에 문서를 업로드하고 파싱하세요.
페이지 범위 또는 첨부된 파일에서 텍스트를 검색하세요.

우리의 Cloud API는 개발자들이 낮은 수준의 PDF 파싱 논리와 상관없이 PDF 텍스트 추출을 자동화할 수 있도록 쉽게 만들어 줍니다.

PDF에서 텍스트 추출하기 C# .NET 사용

PDF 파서 API

🔧 전제 조건

C#를 사용하여 PDF 텍스트 추출하기

페이지 범위에서 텍스트 추출 C# 사용하기

첨부된 문서에서 텍스트 추출

온라인으로 시도해 보세요

결론

유용한 링크

See Also

PDF 파서 API#

🔧 전제 조건#

C#를 사용하여 PDF 텍스트 추출하기#

페이지 범위에서 텍스트 추출 C# 사용하기#

첨부된 문서에서 텍스트 추출#

온라인으로 시도해 보세요#

결론#

유용한 링크#

See Also#

PDF 파서 API

🔧 전제 조건

C#를 사용하여 PDF 텍스트 추출하기

페이지 범위에서 텍스트 추출 C# 사용하기

첨부된 문서에서 텍스트 추출

온라인으로 시도해 보세요

결론

유용한 링크

See Also