Extrair texto de PDF usando Python

Pode ser necessário ler e extrair texto de documentos PDF em seus aplicativos Python. Portanto, como desenvolvedor Python, você pode facilmente extrair todo o texto de documentos PDF de forma programática na nuvem. Este artigo explicará como extrair texto de documentos PDF usando uma API REST em Python.

Os seguintes tópicos serão abordados neste artigo:

API REST do analisador de documentos e SDK do Python

Para extrair texto de um documento PDF, usarei a API Python SDK of GroupDocs.Parser Cloud. Ele permite que o python obtenha texto de pdf e analise dados de todos os tipos de documentos populares. Você pode extrair texto, imagens e analisar dados por um modelo usando o SDK. Ele também fornece SDKs .NET, Java, PHP, Ruby e Node.js como seus membros da família de analisadores de documentos para a Cloud API.

Você pode instalar o GroupDocs.Parser Cloud em seu projeto Python com pip (package installer for python) usando o seguinte comando no console:

pip install groupdocs_parser_cloud

Obtenha seu ID de cliente e Segredo do cliente no painel antes de começar a seguir as etapas e os exemplos de código disponíveis. Depois de ter seu ID de cliente e segredo, adicione o código conforme mostrado abaixo:

client_id = "112f0f38-9dae-42d5-b4fc-cc84ae644972"
client_secret = "16ad3fe0bdc39c910f57d2fd48a5d618"

configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""

Extrair texto de PDF usando uma API REST em Python

Você pode extrair texto de documentos PDF seguindo as etapas simples mencionadas abaixo:

Carregue o Documento

Em primeiro lugar, carregue o documento PDF para obter o texto do pdf python usando o exemplo de código abaixo:

# inicialização da API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""

request = groupdocs_parser_cloud.UploadFileRequest("sample.pdf", "C:\\Files\\sample.pdf", my_storage)
response = file_api.upload_file(request)

Como resultado, o arquivo PDF carregado (sample.pdf) estará disponível na seção de arquivos do seu painel na nuvem. Agora você está pronto para extrair o conteúdo do pdf.

Extrair texto de documentos PDF usando Python

Você pode facilmente extrair texto de pdf com python programaticamente seguindo as etapas mencionadas abaixo.

  • Crie uma instância do ParseApi
  • Definir opções de texto
  • Definir caminho para o arquivo PDF
  • Criar TextRequest
  • Obtenha resultados chamando o método ParseApi.text()

O exemplo de código a seguir mostra como extrair todo o texto do documento PDF usando uma API REST.

# inicialização da API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# definir opções de texto
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

print("Text: " + result.text)
Extrair texto de todo o documento

Extrair texto de todo o documento

Ler texto por números de página de documentos PDF usando Python

Você pode facilmente extrair o texto de páginas específicas de um arquivo PDF programaticamente seguindo as etapas mencionadas abaixo.

  • Crie uma instância do ParseApi
  • Definir opções de texto
  • Forneça o caminho para o arquivo PDF
  • Definir o número da página inicial
  • definir a contagem de páginas para extrair
  • Criar TextRequest
  • Obtenha resultados chamando o método ParseApi.text()

O exemplo de código a seguir mostra como extrair palavras de pdf em Python por intervalo de números de página usando uma API REST.

# inicialização da API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# definir opções de texto
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
options.start_page_number = 1
options.count_pages_to_extract = 2

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

for page in result.pages:
    print("PageIndex: " + str(page.page_index) + ". Text: " + page.text)
Extraia o texto do arquivo pdf por um intervalo de número de página

Extrair texto por um intervalo de número de página

Obter texto do documento anexado com PDF usando Python

Você pode extrair o texto de um documento dentro de um contêiner, disponível como anexo em um arquivo PDF programaticamente seguindo as etapas mencionadas abaixo.

  • Crie uma instância do ParseApi
  • Definir opções de texto
  • Definir caminho para o arquivo PDF
  • Definir ContainerItemInfo
  • Forneça o caminho relativo do documento interno
  • Definir o número da página inicial
  • definir a contagem de páginas para extrair
  • Criar TextRequest
  • Obtenha resultados chamando o método ParseApi.text()

O exemplo de código a seguir mostra como extrair o texto de um documento dentro de um documento PDF usando uma API REST.

# inicialização da API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# definir opções de texto
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "PDF_with_attachements.pdf"
options.file_info.password = "password"
container_info = groupdocs_parser_cloud.ContainerItemInfo()
container_info.relative_path = "template-document.pdf"
options.container_item_info = container_info
options.start_page_number = 2
options.count_pages_to_extract = 1

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

print("Text: " + result.pages[0].text)
Extrair texto de um documento dentro de um contêiner

Extrair texto de um documento dentro de um contêiner

Experimente on-line

Como extrair texto de pdf online grátis? Experimente a seguinte ferramenta de análise de PDF on-line gratuita para extrair texto de PDF gratuitamente. Este extrator de texto pdf é desenvolvido usando a API acima. https://products.groupdocs.app/parser/pdf

Conclusão

Neste artigo, você aprendeu como extrair texto de documentos PDF na nuvem. Este artigo também explicou como carregar programaticamente um arquivo PDF na nuvem e um extrator de texto PDF online. Além disso, também aprendemos a extrair apenas texto de pdf por número de página e extração de texto python de pdf de documento anexado.

Você pode aprender mais sobre GroupDocs.Parser Cloud API usando a documentação. Também fornecemos uma seção Referência de API que permite visualizar e interagir com nossas APIs diretamente pelo navegador. Em caso de ambiguidade sobre a extração de texto pdf e extrair texto do pdf python, sinta-se à vontade para nos contatar no fórum.

Veja também