Python PDF 문서에서 텍스트 추출

PDF(Portable Document Format)는 문서를 표시하고 교환하는 데 사용되는 가장 중요하고 널리 사용되는 파일 형식 중 하나입니다. Python 개발자로서 PDF 문서에서 텍스트를 추출하고 텍스트 분석을 위해 Python을 사용하여 다른 형식으로 내보내려는 많은 시나리오가 있습니다. 이 게시물에서는 Python용 GroupDocs.Conversion Cloud SDK를 사용하여 PDF 문서에서 텍스트를 정확하게 추출하는 방법을 보여줍니다.

GroupDocs.Conversion Cloud는 타사 애플리케이션에 의존하지 않고 문서 및 이미지 변환을 위한 플랫폼 독립적인 REST API 솔루션입니다. 50개 이상의 문서 유형을 한 형식에서 다른 형식으로 변환합니다. Python을 포함한 모든 인기 있는 프로그래밍 언어에 대한 SDK를 제공하므로 개발자는 기본 REST API 호출에 대해 걱정하지 않고 애플리케이션에서 직접 API를 사용할 수 있습니다.

코드를 시작하겠습니다.

GroupDocs.Conversion 클라우드 패키지 설치

먼저 다음 명령을 사용하여 pypi에서 groupdocs-conversion-cloud 패키지를 설치합니다.

>pip 설치 groupdocs-conversion-cloud

Python PDF 텍스트 추출 예제

다음 단계에 따라 PDF 문서에서 텍스트를 추출합니다.

  • groupdocs.cloud에 무료 가입 to get your AppSID and AppKey
  • Python 모듈을 만들고 그 안에 다음 코드를 복사하여 붙여넣습니다. 기본 옵션을 사용하여 PDF 문서의 텍스트를 추출했습니다. 텍스트 형식의 변환 옵션을 사용하여 특정 페이지의 텍스트도 추출할 수 있습니다.
# 가져오기 모듈
import groupdocs_conversion_cloud

# https://dashboard.groupdocs.cloud에서 app_sid 및 app_key를 가져옵니다(무료 등록 필요).
app_sid = "xxxxx-xxxx-xxxx-xxxx-xxxxxxxx"
app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

# API 인스턴스 생성
convert_api = groupdocs_conversion_cloud.ConvertApi.from_keys(app_sid, app_key)
file_api = groupdocs_conversion_cloud.FileApi.from_keys(app_sid, app_key)

try:

        #upload soruce file to storage
        filename = '02_pages.pdf'
        remote_name = '02_pages.pdf'
        output_name= 'sample.txt'
        strformat='txt'

        request_upload = groupdocs_conversion_cloud.UploadFileRequest(remote_name,filename)
        response_upload = file_api.upload_file(request_upload)
        #Extract Text from PDF document
        settings = groupdocs_conversion_cloud.ConvertSettings()
        settings.file_path =remote_name
        settings.format = strformat
        settings.output_path = output_name
                
        request = groupdocs_conversion_cloud.ConvertDocumentRequest(settings)
        response = convert_api.convert_document(request)

        print("Document converted successfully: " + str(response))
except groupdocs_conversion_cloud.ApiException as e:
        print("Exception when calling get_supported_conversion_types: {0}".format(e.message))
  • 좋아하는 IDE에서 코드를 실행하면 다음과 같은 결과가 표시됩니다. 작업 완료!
Document converted successfully: [{'name': 'sample.txt',
 'path': 'sample.txt',
 'size': 791,
 'url': 'https://api.groupdocs.cloud/v2.0/conversion/storage/file/sample.txt'}]

GroupDocs.Conversion Cloud API에 대한 의견을 지원 포럼에 자유롭게 의견을 남겨주세요. 또는 제안 사항이 있거나 REST API에 있을 것으로 예상되는 특정 기능이 필요한 경우 알려주십시오.