다양한 경우에 Word 문서를 구문 분석하고 이미지나 텍스트를 추출해야 할 수 있습니다. Word 문서에서 이미지와 텍스트를 추출하면 텍스트를 분석하고 재사용하거나 다른 문서에 결합하는 데 도움이 될 수 있습니다. DOC 또는 DOCX 파일을 쉽게 구문 분석하고 클라우드에서 프로그래밍 방식으로 모든 이미지/텍스트를 추출할 수 있습니다. 이 기사에서는 Python에서 REST API를 사용하여 Word 문서를 구문 분석하는 방법을 배웁니다.
이 문서에서는 다음 항목을 다룹니다.
- Word 문서 파서 REST API 및 Python SDK
- Python에서 REST API를 사용하여 Word 문서 구문 분석 및 이미지 추출
- Python에서 REST API를 사용하여 Word 문서에서 텍스트 추출
Word 문서 파서 REST API 및 Python SDK
Word 문서를 구문 분석하기 위해 GroupDocs.Parser Cloud의 Python SDK API를 사용합니다. 문서를 구문 분석하려면 콘솔에서 다음 명령을 사용하여 설치하십시오.
pip install groupdocs_parser_cloud
언급된 단계를 따르기 전에 대시보드에서 클라이언트 ID와 암호를 가져오십시오. ID와 시크릿이 있으면 아래와 같이 코드를 추가합니다.
client_id = "da0c487d-c1c0-45ae-b7bf-43eaf53c5ad5"
client_secret = "479db2b01dcb93a3d4d20efb16dea971"
configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""
Python에서 REST API를 사용하여 Word 문서 구문 분석 및 이미지 추출
아래 단계에 따라 프로그래밍 방식으로 Word 문서를 구문 분석하고 이미지를 추출할 수 있습니다.
- 업로드 클라우드에 DOCX 파일 업로드
- Python을 사용하여 Word 문서에서 이미지 추출
- 다운로드 추출된 이미지
문서 업로드
먼저 아래 제공된 코드 예제를 사용하여 Word 문서(DOCX)를 클라우드에 업로드합니다.
# API 인스턴스 생성
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
# 업로드 파일 요청 생성
request = groupdocs_parser_cloud.UploadFileRequest("sample.docx", "C:\\Files\\parser\\sample.docx", my_storage)
# 파일 업로드
response = file_api.upload_file(request)
결과적으로 업로드된 DOCX 파일은 클라우드 대시보드의 파일 섹션에서 사용할 수 있습니다.
Python을 사용하여 Word 문서에서 이미지 추출
아래 단계에 따라 프로그래밍 방식으로 Word 문서에서 모든 이미지를 쉽게 추출할 수 있습니다.
- 먼저 ParseApi의 인스턴스를 만듭니다.
- 다음으로 FileInfo의 인스턴스를 만듭니다.
- 그런 다음 입력 DOCX 파일의 경로를 설정합니다.
- 다음으로 ImageOptions의 인스턴스를 만듭니다.
- 그런 다음 ImageOptions에 FileInfo를 할당합니다.
- 그런 다음 ImageOptions를 인수로 사용하여 ImagesRequest를 생성합니다.
- 마지막으로 ImageRequest로 ParseApi.images() 메서드를 호출하여 이미지를 추출합니다.
다음 코드 샘플은 Python에서 문서 구문 분석 REST API를 사용하여 DOCX 파일에서 이미지를 추출하는 방법을 보여줍니다.
# API 초기화
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# 이미지 옵션 정의
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.docx"
# 이미지 요청 생성
request = groupdocs_parser_cloud.ImagesRequest(options)
# 이미지 가져오기
result = parseApi.images(request)
추출된 이미지 다운로드
위의 코드 샘플은 추출된 이미지를 워드 파일 파서로 클라우드에 저장합니다. 아래 제공된 코드 예제를 사용하여 이러한 이미지를 다운로드할 수 있습니다.
# API 초기화
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
folder_api = groupdocs_parser_cloud.FolderApi.from_config(configuration)
# 파일 목록 가져오기
request = groupdocs_parser_cloud.GetFilesListRequest("parser/images/sample_docx/", my_storage);
response = folder_api.get_files_list(request)
# 이미지를 하나씩 다운로드
for data in response.value:
# 다운로드 파일 요청 생성
request = groupdocs_parser_cloud.DownloadFileRequest(data.path, my_storage)
# 파일 다운로드
response = file_api.download_file(request)
# 다운로드한 파일을 작업 디렉토리로 이동
shutil.move(response, "C:\\Files\\parser\\")
Python에서 REST API를 사용하여 Word 문서에서 텍스트 추출
아래 단계에 따라 프로그래밍 방식으로 Word 문서에서 모든 텍스트를 쉽게 추출할 수 있습니다.
- 먼저 ParseApi의 인스턴스를 만듭니다.
- 다음으로 FileInfo의 인스턴스를 만듭니다.
- 그런 다음 입력 DOCX 파일의 경로를 설정합니다.
- 다음으로 TextOptions의 인스턴스를 만듭니다.
- 그런 다음 TextOptions에 FileInfo를 할당합니다.
- 그런 다음 TextOptions를 인수로 사용하여 TextRequest를 생성합니다.
- 마지막으로 TextRequest로 ParseApi.text() 메서드를 호출하여 결과를 얻습니다.
다음 코드 예제는 docx 파서 REST API를 사용하여 DOCX 파일에서 텍스트를 추출하는 방법을 보여줍니다.
# API 초기화
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# 텍스트 옵션 정의
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.docx"
# 문자 요청 만들기
request = groupdocs_parser_cloud.TextRequest(options)
# 텍스트 가져오기
result = parseApi.text(request)
print("Text: " + result.text)
온라인 시도
문서 분석 소프트웨어를 온라인에서 무료로 사용하는 방법은 무엇입니까? 위의 구문 분석 단어 문서 Python API를 사용하여 개발된 다음 무료 온라인 DOCX 구문 분석 도구를 사용해 보십시오. https://products.groupdocs.app/parser/docx
결론
이번 글에서는 클라우드에서 워드 파서를 이용하여 워드 문서를 파싱하는 방법에 대해 알아보았습니다. 또한 parse docx Python을 사용하여 DOCX 파일에서 이미지와 텍스트를 추출하는 방법도 살펴보았습니다. 이 기사에서는 프로그래밍 방식으로 DOCX 파일을 클라우드에 업로드하고 클라우드에서 추출된 이미지를 다운로드하는 방법도 설명했습니다. 또한 문서를 사용하여 GroupDocs.Parser Cloud API에 대해 자세히 알아볼 수 있습니다. 또한 브라우저를 통해 직접 API를 시각화하고 상호 작용할 수 있는 API 참조 섹션을 제공합니다. 문서 파싱 및 파싱 파일에 대해 모호한 점이 있는 경우 포럼에서 언제든지 문의해 주십시오.