If you`ve ever tried to manually copy data from a PDF, you know how tedious it can be—especially for large or multiple documents. With our .NET Cloud SDK, you can automate this process and extract text from PDFs programmatically using just a few lines of C# code.

이 초보자 친화적인 튜토리얼에서는 C# .NET에서 PDF 문서에서 텍스트를 추출하는 방법을 배우게 됩니다. 모든 텍스트를 읽거나 특정 페이지 범위로 추출하거나 PDF 내부의 임베디드 파일에서 텍스트를 구문 분석하는 방법을 원하든 관계없이 말입니다.

PDF 파서 API

GroupDocs.Parser Cloud SDK for .NET는 PDF 파일을 온라인으로 프로그래밍 방식으로 조작할 수 있는 놀라운 API입니다. PDF 생성 또는 변환 기능을 제공할 뿐만 아니라, 텍스트, 이미지, 첨부 파일, 북마크 등과 같은 PDF 파일 요소를 쉽게 추출할 수 있습니다. 이 기사에서는 .NET Cloud SDK를 사용하여 PDF 파일에서 텍스트를 추출하는 데 집중합니다.

🔧 전제 조건

PDF 조작 프로세스를 시작하기 전에 다음 구성 요소가 설치되어 있는지 확인해야 합니다:

  • A GroupDocs Cloud account – sign up to get your Client ID and Secret.
  • .NET 6.0 이상이 설치되어 있습니다.
  • 비주얼 스튜디오 또는 .NET 개발을 지원하는 모든 IDE.

설치

SDK를 NuGet 패키지 관리자에서 직접 설치하세요:

Install-Package GroupDocs.Parser-Cloud

C#를 사용하여 PDF 텍스트 추출하기

PDF 파일에서 텍스트를 프로그램적으로 얻기 위한 아래 단계를 따르세요:

var configuration = new Configuration("YourClientId", "YourClientSecret");
var parseApi = new ParseApi(configuration);

ParseApi의 인스턴스를 초기화하려면 Configuration 객체를 인수로 전달하십시오.

var fileApi = new FileApi(configuration);

using (var fileStream = File.OpenRead("sample.pdf"))
{
    var uploadRequest = new UploadFileRequest("sample.pdf", fileStream);
    fileApi.UploadFile(uploadRequest);
}

로컬 드라이브에서 입력 PDF 파일을 읽고 UploadFile(...) 메서드를 호출하여 클라우드 스토리지에 업로드합니다.

// 더 많은 예제를 보려면 https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-dotnet 를 방문해 주세요.

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "sample.pdf" }
};

var request = new TextRequest(options);
var response = parseApi.Text(request);

Console.WriteLine("Extracted Text:\n");
Console.WriteLine(response.Text);
  • TextOptions: 텍스트를 추출할 파일을 정의합니다.
  • TextRequest: 클라우드에 요청을 보냅니다.
  • parseApi.Text(): 추출된 텍스트 내용을 반환합니다.

페이지 범위에서 텍스트 추출 C# 사용하기

특정 페이지(예: 페이지 2에서 4)에서만 텍스트가 필요하면 다음과 같이 페이지 범위를 지정할 수 있습니다:

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "sample.pdf" },
    StartPageNumber = 2,
    CountPagesToExtract = 3
};

var request = new TextRequest(options);
var response = parseApi.Text(request);

Console.WriteLine("Text extracted from pages 2 to 4:");
Console.WriteLine(response.Text);

첨부된 문서에서 텍스트 추출

일부 PDF에는 내부에 Word, Excel 또는 다른 PDF와 같은 첨부 파일이 포함되어 있습니다. SDK를 사용하면 이러한 임베디드 문서에서조차 텍스트를 추출할 수 있습니다:

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "sample.pdf" },
    ContainerItemInfo = new ContainerItemInfo
    {
        RelativePath = "attachment.docx",
        StartPageNumber = 1,
        CountPagesToExtract = 2
    }
};

var request = new TextRequest(options);
var response = parseApi.Text(request);

Console.WriteLine("Extracted text from the attached document:");
Console.WriteLine(response.Text);

온라인으로 시도해 보세요

코딩을 아직 원하지 않나요? 무료 online PDF text extractor를 시도해보세요. REST API로 구동되어 어떤 PDF 문서에서든 즉시 텍스트를 추출할 수 있습니다.

온라인에서 Excel 파일 비교

결론

이 가이드에서는 다음을 배우게 됩니다:

  • PDF 파일에서 텍스트를 C# .NET을 사용하여 추출하십시오.
  • 클라우드에 문서를 업로드하고 파싱하세요.
  • 페이지 범위 또는 첨부된 파일에서 텍스트를 검색하세요.

우리의 Cloud API는 개발자들이 낮은 수준의 PDF 파싱 논리와 상관없이 PDF 텍스트 추출을 자동화할 수 있도록 쉽게 만들어 줍니다.

유용한 링크

See Also