PDF es uno de los formatos de archivo más comúnmente utilizados en la actualidad que brinda soporte multiplataforma. Pero es difícil vincular a una página específica en un documento PDF y los archivos PDF no se comparten fácilmente en las redes sociales. Puede mantener la apariencia de un documento PDF en el formato HTML que se puede manipular rápidamente. En este artículo, aprenderemos cómo convertir archivos PDF a HTML en Python.
En este artículo se tratarán los siguientes temas:
- Python PDF to HTML Converter API – Instalación
- Cómo convertir PDF a HTML en línea en Python usando REST API
- Convierta el rango de páginas de un archivo PDF a un archivo HTML en Python
- Convertir páginas específicas de formato PDF a HTML en Python
API de conversión de PDF a HTML de Python: instalación
Para convertir un archivo PDF a páginas web HTML, usaremos la API Python SDK de GroupDocs.Conversion Cloud. Es una biblioteca de Python de conversión de documentos e imágenes independiente de la plataforma y rica en características. Proporciona una conversión rápida de imágenes y documentos de cualquier formato de archivo compatible a cualquier formato en alta calidad.
Puede instalar e integrar la biblioteca Python de conversión de PDF a HTML en sus aplicaciones Python usando el siguiente comando en la consola:
pip install groupdocs_conversion_cloud
Por favor, obtenga su ID de cliente y secreto del tablero antes de seguir los pasos mencionados. Una vez que tenga su ID y secreto, agregue el código en su aplicación python:
# Cargue la biblioteca Python para la conversión de PDF a HTML en la aplicación python
import groupdocs_conversion_cloud
# Obtenga client_id y client_secret de https://dashboard.groupdocs.cloud después del registro gratuito.
client_id = "xxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx"
client_secret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"
# Consigue diferentes configuraciones
configuration = groupdocs_conversion_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
your_storage = "groupdocs-storage-name"
Ahora, demostremos cómo convertir el formato pdf a html paso a paso usando la API REST en Python.
Cómo convertir PDF a HTML en línea en Python usando REST API
Podemos convertir un archivo pdf a formato html mediante programación siguiendo los sencillos pasos que se detallan a continuación:
- En primer lugar, cree una instancia de ConvertApi
- Luego, cree una instancia de configuración de conversión usando ConvertSettings
- A continuación, proporcione el nombre de almacenamiento de archivos
- Establezca la ruta del archivo PDF de entrada y el formato de salida como “html”
- A continuación, cree una instancia de PdfLoadOptions.
- Proporcione la contraseña del archivo PDF
- Luego, configure la ruta de salida y las opciones de carga
- Después de eso, cree ConvertDocumentRequest con ConvertSettings como argumento
- Finalmente, convierta pdf a html llamando a convert\document() con ConvertDocumentRequest
El siguiente ejemplo de código muestra cómo cambiar el formato pdf a html en Python:
# Cómo Python convertir PDF a HTML en línea
try:
# Crear una instancia de la API
convert_api = groupdocs_conversion_cloud.ConvertApi.from_keys(client_id, client_secret)
# Definir la configuración de conversión
settings = groupdocs_conversion_cloud.ConvertSettings()
settings.storage_name = your_storage
settings.file_path = "python-testing/sample-pdf-file.pdf"
settings.format = "html"
loadOptions = groupdocs_conversion_cloud.PdfLoadOptions()
loadOptions.password = "password"
settings.load_options = loadOptions
settings.output_path = "python-testing"
# Crear solicitud de documento de conversión
request = groupdocs_conversion_cloud.ConvertDocumentRequest(settings)
# Convertir archivo .pdf a página web HTML
result = convert_api.convert_document(request)
print("pdf File converted to html successfully: " + result[0].path)
except groupdocs_conversion_cloud.ApiException as e:
print("Exception when calling convert_document: {0}".format(e.message))
Finalmente, el ejemplo de código anterior guardará el archivo HTML en la nube. Esta es la mejor manera de convertir un documento pdf a html.
Convierta el rango de páginas de un archivo PDF a un archivo HTML en Python
Podemos convertir el rango de páginas de un documento PDF a HTML siguiendo los pasos que se detallan a continuación:
- Primero, crea una instancia de ConvertApi
- Luego, cree una instancia de configuración de conversión usando ConvertSettings
- A continuación, proporcione el nombre de su almacenamiento en la nube
- Establezca la ruta del archivo PDF de entrada y el formato de salida como “html”
- A continuación, cree una instancia de HtmlConvertOptions
- Establecer las opciones desde\página y páginas\recuento
- Luego, configure la ruta de salida y convertOptions
- Ahora, cree ConvertDocumentRequest con ConvertSettings como argumento
- Finalmente, convierta el código pdf a html en línea llamando al método convert\document() con ConvertDocumentRequest
El siguiente ejemplo de código muestra cómo convertir un rango de páginas de un documento PDF a un archivo HTML usando Python:
# Cómo convertir un rango de páginas de PDF a HTML en Python
# Crear una instancia de API
convert_api = groupdocs_conversion_cloud.ConvertApi.from_keys(client_id, client_secret)
# Preparar la configuración de conversión html
settings = groupdocs_conversion_cloud.ConvertSettings()
settings.storage_name = your_storage
settings.file_path = "python-testing/sample-pdf-file.pdf"
settings.format = "html"
# Opciones de conversión de PDF: número de página de inicio y páginas totales para convertir
convertOptions = groupdocs_conversion_cloud.HtmlConvertOptions()
convertOptions.from_page = 1
convertOptions.pages_count = 1
settings.convert_options = convertOptions
settings.output_path = "python-testing"
# Crear solicitud de documento de conversión
request = groupdocs_conversion_cloud.ConvertDocumentRequest(settings)
# Convertir páginas de PDF a archivo HTML
result = convert_api.convert_document(request)
print("Converted range of pages from PDF to HTML web page: " + result[0].path)
Finalmente, el ejemplo de código anterior guardará el documento después de convertirlo de pdf a html en línea en la nube.
Convierta páginas específicas de formato PDF a HTML en Python
Podemos convertir páginas específicas de un documento PDF a HTML utilizando el mejor convertidor de pdf a html en línea con imágenes siguiendo los pasos que se detallan a continuación:
- Primero, crea una instancia de ConvertApi
- Luego, cree una instancia de configuración de conversión usando ConvertSettings
- A continuación, proporcione el nombre de su almacenamiento en la nube
- Establezca la ruta del archivo PDF de entrada y el formato de salida como “html”
- A continuación, cree una instancia de HtmlConvertOptions
- Agregue el número de página para convertir en formato de matriz
- Luego, configure la ruta de salida y convertOptions
- Ahora, cree ConvertDocumentRequest con ConvertSettings como argumento
- Finalmente, convierta pdf a código html en línea llamando al método convert\document() con ConvertDocumentRequest
El siguiente ejemplo de código muestra cómo exportar ciertas páginas de un documento PDF a un archivo HTML usando Python:
# Cómo convertir páginas específicas de un archivo PDF a formato de página web HTML en Python
# Crear una instancia de API
convert_api = groupdocs_conversion_cloud.ConvertApi.from_keys(client_id, client_secret)
# Definir la configuración de conversión
settings = groupdocs_conversion_cloud.ConvertSettings()
settings.storage_name = your_storage
settings.file_path = "python-testing/sample-pdf-file.pdf"
settings.format = "html"
# Opciones de conversión de PDF: números de página para convertir
convertOptions = groupdocs_conversion_cloud.HtmlConvertOptions()
convertOptions.pages = [1, 3, 5]
settings.convert_options = convertOptions
settings.output_path = "python-testing"
# Crear solicitud de documento de conversión
request = groupdocs_conversion_cloud.ConvertDocumentRequest(settings)
# Convertir archivo PDF a archivo HTML
result = convert_api.convert_document(request)
print("Successfully converted PDF file to HTML document: " + result[0].path)
Finalmente, el ejemplo de código anterior convertirá pdf a html con imágenes en la nube. Hay un convertidor de código pdf a html en línea como se explica a continuación.
Conversor de PDF a HTML en línea gratis
¿Cuál es el mejor conversor de PDF a HTML? Groupdocs.Conversion ofrece el mejor conversor de pdf a html en línea gratuito para convertir PDF a formato HTML. Ha sido desarrollado utilizando la API Groupdocs.Conversion online pdf to html.
Conclusión
En este artículo, has aprendido:
- cómo convertir pdf a html sin perder formato en Python;
- cómo convertir un archivo pdf a html por rango usando Python;
- convertir páginas PDF específicas a formato HTML en Python;
- convertidor de pdf a html en línea gratuito;
Además, puede obtener más información sobre la API de conversión de formato de archivo GroupDocs.Conversion utilizando la documentación.
Hacer una pregunta
Puede hacer sus consultas sobre cómo convertir un archivo pdf a formato html, a través de nuestro Foro de soporte gratuito