Em vários casos, podemos precisar analisar documentos do Word e extrair imagens ou texto. A extração de imagens e texto de documentos do Word pode ser útil para analisar o texto, reutilizá-los ou combiná-los em outros documentos. Podemos facilmente analisar arquivos DOC ou DOCX e extrair todas as imagens/texto programaticamente na nuvem. Neste artigo, aprenderemos como analisar documentos do Word usando uma API REST em Python.
Os seguintes tópicos serão abordados neste artigo:
- API REST do analisador de documentos do Word e SDK do Python
- Analisar documentos do Word e extrair imagens usando a API REST em Python
- Extraia texto de documentos do Word usando a API REST em Python
API REST do analisador de documentos do Word e SDK do Python
Para analisar documentos do Word, usaremos a API Python SDK of GroupDocs.Parser Cloud. Instale-o usando o seguinte comando no console para analisar um documento:
pip install groupdocs_parser_cloud
Por favor, obtenha seu ID e Segredo do cliente no painel antes de seguir as etapas mencionadas. Depois de ter seu ID e segredo, adicione o código conforme mostrado abaixo:
client_id = "da0c487d-c1c0-45ae-b7bf-43eaf53c5ad5"
client_secret = "479db2b01dcb93a3d4d20efb16dea971"
configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""
Analisar documentos do Word e extrair imagens usando a API REST em Python
Podemos analisar documentos do Word e extrair imagens programaticamente seguindo as etapas abaixo:
- Carregar o arquivo DOCX para a nuvem
- Extrair imagens de documentos do Word usando Python
- Baixe as imagens extraídas
Carregue o Documento
Em primeiro lugar, faremos o upload do documento do Word (DOCX) para a nuvem usando o exemplo de código abaixo:
# Criar instância da API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
# Criar solicitação de upload de arquivo
request = groupdocs_parser_cloud.UploadFileRequest("sample.docx", "C:\\Files\\parser\\sample.docx", my_storage)
# Subir arquivo
response = file_api.upload_file(request)
Como resultado, o arquivo DOCX carregado estará disponível na seção de arquivos do painel na nuvem.
Extrair imagens de documentos do Word usando Python
Podemos extrair facilmente todas as imagens de documentos do Word programaticamente seguindo as etapas abaixo.
- Em primeiro lugar, crie uma instância do ParseApi.
- Em seguida, crie uma instância do FileInfo.
- Em seguida, defina o caminho para o arquivo DOCX de entrada.
- Em seguida, crie uma instância do ImageOptions.
- Em seguida, atribua FileInfo a ImageOptions.
- Depois disso, crie ImagesRequest com ImageOptions como argumento.
- Por fim, extraia as imagens chamando o método ParseApi.images() com ImageRequest.
O exemplo de código a seguir mostra como extrair imagens de um arquivo DOCX usando a API REST de análise de documento em Python.
# inicialização da API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# Definir opções de imagem
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.docx"
# Criar solicitação de imagens
request = groupdocs_parser_cloud.ImagesRequest(options)
# Obter imagens
result = parseApi.images(request)
Baixar imagens extraídas
O exemplo de código acima salvará as imagens extraídas com o analisador de arquivo de palavras na nuvem. Podemos baixar essas imagens usando o exemplo de código abaixo:
# inicializações de API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
folder_api = groupdocs_parser_cloud.FolderApi.from_config(configuration)
# Obter lista de arquivos
request = groupdocs_parser_cloud.GetFilesListRequest("parser/images/sample_docx/", my_storage);
response = folder_api.get_files_list(request)
# Baixe as imagens uma a uma
for data in response.value:
# Criar solicitação de arquivo de download
request = groupdocs_parser_cloud.DownloadFileRequest(data.path, my_storage)
# ⇬ Fazer download do arquivo
response = file_api.download_file(request)
# Mova o arquivo baixado para o seu diretório de trabalho
shutil.move(response, "C:\\Files\\parser\\")
Extraia texto de documentos do Word usando a API REST em Python
Podemos extrair facilmente todo o texto de documentos do Word programaticamente seguindo as etapas abaixo.
- Em primeiro lugar, crie uma instância do ParseApi.
- Em seguida, crie uma instância do FileInfo.
- Em seguida, defina o caminho para o arquivo DOCX de entrada.
- Em seguida, crie uma instância do TextOptions.
- Em seguida, atribua FileInfo a TextOptions.
- Depois disso, crie TextRequest com TextOptions como argumento.
- Finalmente, obtenha resultados chamando o método ParseApi.text() com TextRequest.
O exemplo de código a seguir mostra como extrair texto de um arquivo DOCX usando a API REST do analisador docx.
# inicialização da API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# Definir opções de texto
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.docx"
# Criar solicitação de texto
request = groupdocs_parser_cloud.TextRequest(options)
# Obter texto
result = parseApi.text(request)
print("Text: " + result.text)
Experimente on-line
Como usar o software de análise de documentos online grátis? Experimente a seguinte ferramenta de análise DOCX on-line gratuita, que é desenvolvida usando a API python de documento de palavra acima. https://products.groupdocs.app/parser/docx
Conclusão
Neste artigo, aprendemos como analisar documentos do Word usando o analisador de palavras na nuvem. Também vimos como extrair imagens e texto de arquivos DOCX usando parse docx Python. Este artigo também explicou como carregar programaticamente um arquivo DOCX para a nuvem e baixar as imagens extraídas da nuvem. Além disso, você pode aprender mais sobre GroupDocs.Parser Cloud API usando a documentação. Também fornecemos uma seção Referência de API que permite visualizar e interagir com nossas APIs diretamente pelo navegador. Em caso de ambiguidade sobre a análise de documentos e arquivos, sinta-se à vontade para nos contatar no fórum.