무료 온라인 DOCX 파서는 DOCX 또는 DOC에서 텍스트, 이미지 및 그림을 추출하도록 설계되었습니다.

Python에서 REST API를 사용하여 Word 문서 구문 분석

다양한 경우에 Word 문서를 구문 분석하고 이미지나 텍스트를 추출해야 할 수 있습니다. Word 문서에서 이미지와 텍스트를 추출하면 텍스트를 분석하고 재사용하거나 다른 문서에 결합하는 데 도움이 될 수 있습니다. DOC 또는 DOCX 파일을 쉽게 구문 분석하고 클라우드에서 프로그래밍 방식으로 모든 이미지/텍스트를 추출할 수 있습니다. 이 기사에서는 Python에서 REST API를 사용하여 Word 문서를 구문 분석하는 방법을 배웁니다.

이 문서에서는 다음 항목을 다룹니다.

Word 문서 파서 REST API 및 Python SDK

Word 문서를 구문 분석하기 위해 GroupDocs.Parser Cloud의 Python SDK API를 사용합니다. 문서를 구문 분석하려면 콘솔에서 다음 명령을 사용하여 설치하십시오.

pip install groupdocs_parser_cloud

언급된 단계를 따르기 전에 대시보드에서 클라이언트 ID와 암호를 가져오십시오. ID와 시크릿이 있으면 아래와 같이 코드를 추가합니다.

client_id = "da0c487d-c1c0-45ae-b7bf-43eaf53c5ad5"
client_secret = "479db2b01dcb93a3d4d20efb16dea971"

configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""

Python에서 REST API를 사용하여 Word 문서 구문 분석 및 이미지 추출

아래 단계에 따라 프로그래밍 방식으로 Word 문서를 구문 분석하고 이미지를 추출할 수 있습니다.

문서 업로드

먼저 아래 제공된 코드 예제를 사용하여 Word 문서(DOCX)를 클라우드에 업로드합니다.

# API 인스턴스 생성
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)

# 업로드 파일 요청 생성
request = groupdocs_parser_cloud.UploadFileRequest("sample.docx", "C:\\Files\\parser\\sample.docx", my_storage)

# 파일 업로드
response = file_api.upload_file(request)

결과적으로 업로드된 DOCX 파일은 클라우드 대시보드의 파일 섹션에서 사용할 수 있습니다.

Python을 사용하여 Word 문서에서 이미지 추출

아래 단계에 따라 프로그래밍 방식으로 Word 문서에서 모든 이미지를 쉽게 추출할 수 있습니다.

  • 먼저 ParseApi의 인스턴스를 만듭니다.
  • 다음으로 FileInfo의 인스턴스를 만듭니다.
  • 그런 다음 입력 DOCX 파일의 경로를 설정합니다.
  • 다음으로 ImageOptions의 인스턴스를 만듭니다.
  • 그런 다음 ImageOptions에 FileInfo를 할당합니다.
  • 그런 다음 ImageOptions를 인수로 사용하여 ImagesRequest를 생성합니다.
  • 마지막으로 ImageRequest로 ParseApi.images() 메서드를 호출하여 이미지를 추출합니다.

다음 코드 샘플은 Python에서 문서 구문 분석 REST API를 사용하여 DOCX 파일에서 이미지를 추출하는 방법을 보여줍니다.

# API 초기화
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# 이미지 옵션 정의
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.docx"

# 이미지 요청 생성
request = groupdocs_parser_cloud.ImagesRequest(options)

# 이미지 가져오기
result = parseApi.images(request)
Python parse word docx를 사용하여 Word DOCX 구문 분석 및 이미지 추출

Python에서 Word Parser Online REST API를 사용하여 Word 문서를 구문 분석하고 이미지를 추출합니다.

추출된 이미지 다운로드

위의 코드 샘플은 추출된 이미지를 워드 파일 파서로 클라우드에 저장합니다. 아래 제공된 코드 예제를 사용하여 이러한 이미지를 다운로드할 수 있습니다.

# API 초기화
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
folder_api = groupdocs_parser_cloud.FolderApi.from_config(configuration)

# 파일 목록 가져오기
request = groupdocs_parser_cloud.GetFilesListRequest("parser/images/sample_docx/", my_storage);
response = folder_api.get_files_list(request)

# 이미지를 하나씩 다운로드
for data in response.value:
    # 다운로드 파일 요청 생성
    request = groupdocs_parser_cloud.DownloadFileRequest(data.path, my_storage)
    # 파일 다운로드
    response = file_api.download_file(request)
    # 다운로드한 파일을 작업 디렉토리로 이동
    shutil.move(response, "C:\\Files\\parser\\")

Python에서 REST API를 사용하여 Word 문서에서 텍스트 추출

아래 단계에 따라 프로그래밍 방식으로 Word 문서에서 모든 텍스트를 쉽게 추출할 수 있습니다.

  • 먼저 ParseApi의 인스턴스를 만듭니다.
  • 다음으로 FileInfo의 인스턴스를 만듭니다.
  • 그런 다음 입력 DOCX 파일의 경로를 설정합니다.
  • 다음으로 TextOptions의 인스턴스를 만듭니다.
  • 그런 다음 TextOptions에 FileInfo를 할당합니다.
  • 그런 다음 TextOptions를 인수로 사용하여 TextRequest를 생성합니다.
  • 마지막으로 TextRequest로 ParseApi.text() 메서드를 호출하여 결과를 얻습니다.

다음 코드 예제는 docx 파서 REST API를 사용하여 DOCX 파일에서 텍스트를 추출하는 방법을 보여줍니다.

# API 초기화
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# 텍스트 옵션 정의
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.docx"

# 문자 요청 만들기
request = groupdocs_parser_cloud.TextRequest(options)

# 텍스트 가져오기
result = parseApi.text(request)
print("Text: " + result.text)
Python에서 REST API를 사용하여 Word 문서 DOCX에서 텍스트 추출

Python에서 REST API를 사용하여 Word 문서에서 텍스트를 추출합니다.

온라인 시도

문서 분석 소프트웨어를 온라인에서 무료로 사용하는 방법은 무엇입니까? 위의 구문 분석 단어 문서 Python API를 사용하여 개발된 다음 무료 온라인 DOCX 구문 분석 도구를 사용해 보십시오. https://products.groupdocs.app/parser/docx

결론

이번 글에서는 클라우드에서 워드 파서를 이용하여 워드 문서를 파싱하는 방법에 대해 알아보았습니다. 또한 parse docx Python을 사용하여 DOCX 파일에서 이미지와 텍스트를 추출하는 방법도 살펴보았습니다. 이 기사에서는 프로그래밍 방식으로 DOCX 파일을 클라우드에 업로드하고 클라우드에서 추출된 이미지를 다운로드하는 방법도 설명했습니다. 또한 문서를 사용하여 GroupDocs.Parser Cloud API에 대해 자세히 알아볼 수 있습니다. 또한 브라우저를 통해 직접 API를 시각화하고 상호 작용할 수 있는 API 참조 섹션을 제공합니다. 문서 파싱 및 파싱 파일에 대해 모호한 점이 있는 경우 포럼에서 언제든지 문의해 주십시오.

또한보십시오