Python을 사용하여 PDF에서 텍스트 추출

Python 애플리케이션에서 PDF 문서의 텍스트를 읽고 추출해야 할 수 있습니다. 따라서 Python 개발자는 클라우드에서 프로그래밍 방식으로 PDF 문서에서 모든 텍스트를 쉽게 추출할 수 있습니다. 이 기사에서는 Python에서 REST API를 사용하여 PDF 문서에서 텍스트를 추출하는 방법을 설명합니다.

이 문서에서는 다음 항목을 다룹니다.

문서 파서 REST API 및 Python SDK

PDF 문서에서 텍스트를 추출하기 위해 GroupDocs.Parser Cloud의 Python SDK API를 사용합니다. Python이 pdf에서 텍스트를 가져오고 모든 인기 있는 문서 유형에서 데이터를 구문 분석할 수 있습니다. SDK를 사용하여 템플릿으로 텍스트, 이미지, 파싱 데이터를 추출할 수 있습니다. 또한 Cloud API용 문서 파서 제품군 구성원으로 .NET, Java, PHP, Ruby 및 Node.js SDK를 제공합니다.

콘솔에서 다음 명령을 사용하여 pip(python용 패키지 설치 프로그램)를 사용하여 Python 프로젝트에 GroupDocs.Parser Cloud를 설치할 수 있습니다.

pip install groupdocs_parser_cloud

단계와 사용 가능한 코드 예제를 시작하기 전에 대시보드에서 클라이언트 ID와 클라이언트 암호를 얻으십시오. 클라이언트 ID와 시크릿이 있으면 아래와 같이 코드를 추가합니다.

client_id = "112f0f38-9dae-42d5-b4fc-cc84ae644972"
client_secret = "16ad3fe0bdc39c910f57d2fd48a5d618"

configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""

Python에서 REST API를 사용하여 PDF에서 텍스트 추출

아래에 언급된 간단한 단계에 따라 PDF 문서에서 텍스트를 추출할 수 있습니다.

문서 업로드

우선, 아래 제공된 코드 예제를 사용하여 PDF Python에서 텍스트를 가져오도록 PDF 문서를 업로드합니다.

# API 초기화
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""

request = groupdocs_parser_cloud.UploadFileRequest("sample.pdf", "C:\\Files\\sample.pdf", my_storage)
response = file_api.upload_file(request)

결과적으로 업로드된 PDF 파일(sample.pdf)은 클라우드 대시보드의 파일 섹션에서 사용할 수 있습니다. 이제 PDF에서 콘텐츠를 추출할 준비가 되었습니다.

Python을 사용하여 PDF 문서에서 텍스트 추출

아래 언급된 단계에 따라 Python을 사용하여 프로그래밍 방식으로 PDF에서 텍스트를 쉽게 추출할 수 있습니다.

  • ParseApi 인스턴스 생성
  • TextOptions 정의
  • PDF 파일 경로 설정
  • TextRequest 만들기
  • ParseApi.text() 메서드를 호출하여 결과 얻기

다음 코드 샘플은 REST API를 사용하여 PDF 문서에서 모든 텍스트를 추출하는 방법을 보여줍니다.

# API 초기화
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# 텍스트 옵션 정의
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

print("Text: " + result.text)
전체 문서에서 텍스트 추출

전체 문서에서 텍스트 추출

Python을 사용하여 PDF 문서에서 페이지 번호로 텍스트 읽기

아래 언급된 단계에 따라 프로그래밍 방식으로 PDF 파일의 특정 페이지에서 텍스트를 쉽게 추출할 수 있습니다.

  • ParseApi 인스턴스 생성
  • TextOptions 정의
  • PDF 파일의 경로를 제공하십시오
  • 시작 페이지 번호 설정
  • 추출할 페이지 수 설정
  • TextRequest 만들기
  • ParseApi.text() 메서드를 호출하여 결과 얻기

다음 코드 샘플은 REST API를 사용하여 페이지 번호 범위별로 Python의 pdf에서 단어를 추출하는 방법을 보여줍니다.

# API 초기화
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# 텍스트 옵션 정의
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
options.start_page_number = 1
options.count_pages_to_extract = 2

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

for page in result.pages:
    print("PageIndex: " + str(page.page_index) + ". Text: " + page.text)
페이지 번호 범위로 pdf 파일에서 텍스트 추출

페이지 번호 범위로 텍스트 추출

Python을 사용하여 PDF가 첨부된 문서에서 텍스트 가져오기

아래 언급된 단계에 따라 프로그래밍 방식으로 PDF 파일의 첨부 파일로 사용할 수 있는 컨테이너 내부의 문서에서 텍스트를 추출할 수 있습니다.

  • ParseApi 인스턴스 생성
  • TextOptions 정의
  • PDF 파일 경로 설정
  • ContainerItemInfo 정의
  • 내부 문서의 상대 경로 제공
  • 시작 페이지 번호 설정
  • 추출할 페이지 수 설정
  • TextRequest 만들기
  • ParseApi.text() 메서드를 호출하여 결과 얻기

다음 코드 샘플은 REST API를 사용하여 PDF 문서 내의 문서에서 텍스트를 추출하는 방법을 보여줍니다.

# API 초기화
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# 텍스트 옵션 정의
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "PDF_with_attachements.pdf"
options.file_info.password = "password"
container_info = groupdocs_parser_cloud.ContainerItemInfo()
container_info.relative_path = "template-document.pdf"
options.container_item_info = container_info
options.start_page_number = 2
options.count_pages_to_extract = 1

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

print("Text: " + result.pages[0].text)
컨테이너 내부의 문서에서 텍스트 추출

컨테이너 내부의 문서에서 텍스트 추출

온라인 시도

온라인에서 무료로 PDF에서 텍스트를 추출하는 방법은 무엇입니까? 다음 무료 온라인 PDF 구문 분석 도구를 사용하여 pdf에서 무료로 텍스트를 추출하십시오. 이 pdf 텍스트 추출기는 위의 API를 사용하여 개발되었습니다. https://products.groupdocs.app/parser/pdf

결론

이 기사에서는 클라우드의 PDF 문서에서 텍스트를 추출하는 방법을 배웠습니다. 이 기사에서는 프로그래밍 방식으로 클라우드에 PDF 파일을 업로드하고 온라인으로 PDF 텍스트 추출기를 업로드하는 방법도 설명했습니다. 또한 첨부된 문서에서 PDF에서 페이지 번호로 텍스트만 추출하는 방법과 PDF에서 파이썬 텍스트 추출하는 방법도 배웠습니다.

문서를 사용하여 GroupDocs.Parser Cloud API에 대해 자세히 알아볼 수 있습니다. 또한 브라우저를 통해 직접 API를 시각화하고 상호 작용할 수 있는 API 참조 섹션을 제공합니다. pdf 텍스트 추출 및 pdf python에서 텍스트 추출에 대해 모호한 점이 있는 경우 포럼에서 언제든지 문의해 주세요.

또한보십시오