PDF a HTM

Desarrolle un convertidor de PDF a HTML con C# .NET.

La capacidad de convertir documentos PDF al formato HTML es esencial para diversos fines, como el desarrollo web o la gestión de contenidos. Ya sea que sea un desarrollador que busca mejorar la accesibilidad del sitio web o un creador de contenido que busca reutilizar contenido PDF para consumo en línea, dominar el proceso de conversión de PDF a HTML utilizando C# .NET puede optimizar significativamente su flujo de trabajo y mejorar la eficiencia. En este artículo, exploraremos todos los detalles de la conversión de PDF a HTML utilizando la API REST de .NET, cubriendo todo, desde conceptos esenciales hasta técnicas avanzadas.

Este artículo cubre los siguientes temas:

API REST para conversión de PDF a HTML

GroupDocs.Conversion Cloud SDK para .NET proporciona una solución sólida y versátil para convertir sin problemas documentos PDF a formato HTML. El SDK también proporciona opciones de personalización avanzadas, lo que le permite especificar configuraciones de conversión como rango de páginas, calidad de imagen y estructura del archivo de salida de acuerdo con sus requisitos específicos. Para poder utilizar el SDK el primer paso es su instalación. Entonces, busque GroupDocs.Conversion-Cloud en el administrador de paquetes NuGet y haga clic en el botón Instalar. Otra opción es ejecutar el siguiente comando en la consola del administrador de paquetes.

NuGet\Install-Package GroupDocs.Conversion-Cloud -Version 24.2.0

Una vez que la API REST se haya instalado correctamente, asegúrese de tener las credenciales de la API (es decir, ID de cliente y secreto de cliente).Puede visitar este breve tutorial para ver cómo obtener las credenciales de API.

Convertir PDF a HTML usando C# .NET

La siguiente sección explica los detalles sobre cómo podemos aprovechar las poderosas capacidades de Cloud SDK y automatizar mediante programación la tarea de conversión de PDF a HTML, utilizando C# .NET.

  1. Cree una instancia de la clase Configuración donde pasamos las credenciales del cliente como argumentos.
var configurations = new Configuration(clientId, clientSecret1);
  1. Inicialice ConvertApi donde pasamos el objeto de configuración como argumento de entrada.
var apiInstance = new ConvertApi(configurations);
  1. Cargue el archivo PDF de entrada al almacenamiento en la nube mientras pasa el nombre del documento PDF de entrada.
fileUpload.UploadFile(new UploadFileRequest("input.pdf", stream));
  1. Cree una instancia ConvertSettings donde especificamos el nombre del PDF de entrada, el formato de salida como html y el nombre del archivo HTML resultante.
var settings = new ConvertSettings{...}
  1. Llame a la API ConvertDocumentRequest para convertir PDF a formato HTML. Después de una conversión exitosa, el HTML resultante se almacena en la nube.
var response = apiInstance.ConvertDocument(new ConvertDocumentRequest(settings));
// Más ejemplos en https://github.com/groupdocs-conversion-cloud/groupdocs-conversion-cloud-dotnet
// Obtenga sus credenciales API 
string clientId = "4bdefca3-f08c-4088-9ca0-55c38f4b7f22";
string clientSecret1 = "a43c8b4365246a062688a259abe5b469";

// Cree una instancia de la clase Configuración e inicialícela con el ID del cliente y el secreto del cliente. 
var configurations = new GroupDocs.Conversion.Cloud.Sdk.Client.Configuration(clientId, clientSecret1);
// Defina el valor de ApiBaseUrl para establecer la URL base de la API de conversión de html a PDF.
configuration.ApiBaseUrl = "https://api.groupdocs.cloud";

// Inicialice una instancia de la clase ConvertApi con el objeto de la clase Configuración.
var apiInstance = new GroupDocs.Conversion.Cloud.Sdk.Api.ConvertApi(configurations);
             
// cargar el archivo HTML desde la unidad local             
using (var stream = System.IO.File.OpenRead("input.pdf"))
{
    // crear una instancia de FileApi
    var fileUpload = new FileApi(configurations);
    // cargue el archivo PDF de entrada al almacenamiento en la nube
    fileUpload.UploadFile(new UploadFileRequest("input.pdf", stream));

    // crear ConvertSettings donde definimos el PDF de entrada y el nombre del HTML resultante
    var settings = new ConvertSettings
    {
        StorageName = "internal",
        FilePath = "input.pdf",
        Format = "html",
        OutputPath = "resultant.html"
    };
    
    // Invoque el método ConvertDocument para convertir PDF a HTML mediante programación.
    var response = apiInstance.ConvertDocument(new GroupDocs.Conversion.Cloud.Sdk.Model.Requests.ConvertDocumentRequest(settings));
    if (response != null && response.Equals("OK"))
    {
        // imprimir mensaje de éxito
        Console.WriteLine("The PDF file successfully converted to HTML !");
    }
}
PDF a HTML.

Imagen: - Vista previa de conversión de PDF a HTML.

El archivo PDF de muestra utilizado en el ejemplo anterior se puede descargar desde input.pdf.

Convierta PDF a página web usando comandos cURL

La conversión de PDF a HTML usando GroupDocs.Conversion Cloud y los comandos cURL ofrece una solución conveniente y programable para automatizar las tareas de conversión de documentos. Uno de los beneficios clave de este enfoque es su simplicidad y facilidad de integración en flujos de trabajo y procesos de automatización existentes. Con sólo unos pocos comandos simples, puede iniciar y administrar el proceso de conversión sin necesidad de código complejo o bibliotecas adicionales.

El primer paso en este enfoque es obtener sus credenciales personalizadas (clave de aplicación y SID de aplicación) y generar un token de acceso JWT. Una vez que tengamos el token JWT, ejecute el siguiente comando cURL para convertir PDF a formato HTML. El siguiente comando agrega una cadena de muestra como marca de agua, pero es opcional.

curl -v "https://api.groupdocs.cloud/v2.0/conversion" \
-X POST \
-H "accept: application/json" \
-H "authorization: Bearer {accessToken}" \
-H "Content-Type: application/json" \
-d "{  \"FilePath\": \"{sourceFile}\",  \"Format\": \"html\",  \"LoadOptions\": {    \"Format\": \"pdf\"  },  \"ConvertOptions\": {    \"FromPage\": 1,    \"PagesCount\": 3,    \"Pages\": [      1,2,3    ],    \"WatermarkOptions\": {      \"Text\": \"Hello World !\",      \"FontName\": \"Arial\",      \"FontSize\": 10,      \"Bold\": true,      \"Italic\": true,      \"Color\": \"Yellow\",      \"Width\": 0,      \"Height\": 0,      \"Top\": 0,      \"Left\": 0,      \"RotationAngle\": 20,      \"Transparency\": .5,      \"Background\": true,      \"AutoAlign\": true    }  },  \"OutputPath\": \"{resultantFile}\"}" -v

Reemplace sourceFile con el nombre del archivo PDF de entrada disponible en el almacenamiento en la nube, resultantFile con el nombre del formato HTML de salida que se generará y accessToken con el token JWT generado anteriormente. Después de una conversión exitosa, el archivo resultante se almacena en la nube.

En caso de que desee guardar el HTML resultante en la unidad local, utilice el siguiente comando.

curl -v "https://api.groupdocs.cloud/v2.0/conversion" \
-X POST \
-H "accept: application/json" \
-H "authorization: Bearer {accessToken}" \
-H "Content-Type: application/json" \
-d "{  \"FilePath\": \"{sourceFile}\",  \"Format\": \"html\",  \"LoadOptions\": {    \"Format\": \"pdf\"  },  \"ConvertOptions\": {    \"FromPage\": 1,    \"PagesCount\": 3,    \"Pages\": [      1,2,3    ],    \"WatermarkOptions\": {      \"Text\": \"Hello World !\",      \"FontName\": \"Arial\",      \"FontSize\": 10,      \"Bold\": true,      \"Italic\": true,      \"Color\": \"Yellow\",      \"Width\": 0,      \"Height\": 0,      \"Top\": 0,      \"Left\": 0,      \"RotationAngle\": 20,      \"Transparency\": .5,      \"Background\": true,      \"AutoAlign\": true  }  } }" \
-o "resultant.html"

Aplicación gratuita de conversión de PDF a HTML

Puede considerar utilizar nuestro Convertidor de PDF a HTML gratuito, liviano y súper eficiente, desarrollado sobre la API GroupDocs.Conversion.

aplicación gratuita de pdf a html

Enlaces útiles

Conclusión

En conclusión, ya sea que elija utilizar GroupDocs.Conversion Cloud SDK para .NET o integrar GroupDocs.Conversion Cloud con comandos cURL, convertir PDF a HTML se convierte en un proceso fluido y eficiente. Ambos enfoques ofrecen soluciones versátiles para automatizar las tareas de conversión de documentos, lo que le permite cerrar la brecha entre los formatos PDF y HTML sin esfuerzo. En general, ya sea que prefiera la conveniencia de un SDK o la flexibilidad de los comandos cURL, ambos enfoques le permiten convertir PDF a HTML de manera eficiente y optimizar sus flujos de trabajo de procesamiento de documentos con confianza.

Artículos relacionados

Recomendamos encarecidamente visitar los siguientes enlaces para obtener más información sobre: