将 PDF 文档转换为 HTML 格式的能力对于各种目的都至关重要,例如 Web 开发或内容管理。无论您是寻求增强网站可访问性的开发人员,还是希望重新利用 PDF 内容以供在线使用的内容创建者,掌握使用 C# .NET 将 PDF 转换为 HTML 的过程都可以显著简化您的工作流程并提高效率。在本文中,我们将探讨使用 .NET REST API 将 PDF 转换为 HTML 的所有细节,涵盖从基本概念到高级技术的所有内容。
本文涵盖以下主题:
用于 PDF 到 HTML 转换的 REST API
GroupDocs.Conversion Cloud SDK for .NET 提供了一种强大而多功能的解决方案,可将 PDF 文档无缝转换为 HTML 格式。该 SDK 还提供高级自定义选项,允许您根据特定要求指定转换设置,例如页面范围、图像质量和输出文件结构。要使用 SDK,第一步是安装它。因此,在 NuGet 包管理器中搜索 GroupDocs.Conversion-Cloud 并单击“安装”按钮。另一个选项是在包管理器控制台中执行以下命令。
NuGet\Install-Package GroupDocs.Conversion-Cloud -Version 24.2.0
成功安装 REST API 后,请确保您拥有 API 凭证(即客户端 ID 和客户端密钥)。您可以访问这个简短的 教程 来了解如何获取 API 凭证。
使用 C# .NET 将 PDF 转换为 HTML
以下部分详细介绍了如何利用 Cloud SDK 的强大功能,并使用 C# .NET 以编程方式自动执行 PDF 到 HTML 的转换任务。
- 创建“配置”类的实例,我们将客户端凭据作为参数传递。
var configurations = new Configuration(clientId, clientSecret1);
- 初始化“ConvertApi”,我们将配置对象作为输入参数传递。
var apiInstance = new ConvertApi(configurations);
- 将输入的PDF文件上传到云存储,同时传递输入PDF文档的名称。
fileUpload.UploadFile(new UploadFileRequest("input.pdf", stream));
- 创建一个实例“ConvertSettings”,其中我们指定输入 PDF 的名称、输出格式为“html”以及结果 HTML 文件的名称。
var settings = new ConvertSettings{...}
- 调用ConvertDocumentRequest API将PDF转换为HTML格式,转换成功后,生成的HTML文件将保存在云存储中。
var response = apiInstance.ConvertDocument(new ConvertDocumentRequest(settings));
// 更多示例请访问 https://github.com/groupdocs-conversion-cloud/groupdocs-conversion-cloud-dotnet
// 获取您的 API 凭证
string clientId = "4bdefca3-f08c-4088-9ca0-55c38f4b7f22";
string clientSecret1 = "a43c8b4365246a062688a259abe5b469";
// 创建配置类的实例,并使用客户端 ID 和客户端密钥对其进行初始化。
var configurations = new GroupDocs.Conversion.Cloud.Sdk.Client.Configuration(clientId, clientSecret1);
// 定义 ApiBaseUrl 的值来设置 html 到 PDF 转换器 API 的基本 URL。
configuration.ApiBaseUrl = "https://api.groupdocs.cloud";
// 使用 Configuration 类的对象初始化 ConvertApi 类的实例。
var apiInstance = new GroupDocs.Conversion.Cloud.Sdk.Api.ConvertApi(configurations);
// 从本地驱动器加载 HTML 文件
using (var stream = System.IO.File.OpenRead("input.pdf"))
{
// 创建 FileApi 实例
var fileUpload = new FileApi(configurations);
// 将输入的 PDF 文件上传至云存储
fileUpload.UploadFile(new UploadFileRequest("input.pdf", stream));
// 创建 ConvertSettings,在其中定义输入 PDF 和结果 HTML 的名称
var settings = new ConvertSettings
{
StorageName = "internal",
FilePath = "input.pdf",
Format = "html",
OutputPath = "resultant.html"
};
// 调用 ConvertDocument 方法以编程方式将 PDF 转换为 HTML。
var response = apiInstance.ConvertDocument(new GroupDocs.Conversion.Cloud.Sdk.Model.Requests.ConvertDocumentRequest(settings));
if (response != null && response.Equals("OK"))
{
// 打印成功信息
Console.WriteLine("The PDF file successfully converted to HTML !");
}
}
上述示例中使用的示例 PDF 文件可以从 input.pdf 下载。
使用 cURL 命令将 PDF 转换为网页
使用 GroupDocs.Conversion Cloud 和 cURL 命令将 PDF 转换为 HTML 提供了一种方便且可编写脚本的解决方案,用于自动执行文档转换任务。这种方法的主要优点之一是简单易用,易于集成到现有工作流程和自动化管道中。只需几个简单的命令,您就可以启动和管理转换过程,而无需复杂的代码或额外的库。
此方法的第一步是获取您的个性化凭据(App Key 和 App SID)并生成 JWT 访问令牌。一旦我们获得 JWT 令牌,请执行以下 cURL 命令将 PDF 转换为 HTML 格式。以下命令将示例字符串添加为水印,但这是可选的。
curl -v "https://api.groupdocs.cloud/v2.0/conversion" \
-X POST \
-H "accept: application/json" \
-H "authorization: Bearer {accessToken}" \
-H "Content-Type: application/json" \
-d "{ \"FilePath\": \"{sourceFile}\", \"Format\": \"html\", \"LoadOptions\": { \"Format\": \"pdf\" }, \"ConvertOptions\": { \"FromPage\": 1, \"PagesCount\": 3, \"Pages\": [ 1,2,3 ], \"WatermarkOptions\": { \"Text\": \"Hello World !\", \"FontName\": \"Arial\", \"FontSize\": 10, \"Bold\": true, \"Italic\": true, \"Color\": \"Yellow\", \"Width\": 0, \"Height\": 0, \"Top\": 0, \"Left\": 0, \"RotationAngle\": 20, \"Transparency\": .5, \"Background\": true, \"AutoAlign\": true } }, \"OutputPath\": \"{resultantFile}\"}" -v
请将“sourceFile”替换为云存储中可用的输入 PDF 文件的名称,将“resultantFile”替换为要生成的输出 HTML 格式的名称,将“accessToken”替换为上面生成的 JWT 令牌。转换成功后,生成的文件将存储在云存储中。
如果您想将生成的 HTML 保存到本地驱动器,请使用以下命令。
curl -v "https://api.groupdocs.cloud/v2.0/conversion" \
-X POST \
-H "accept: application/json" \
-H "authorization: Bearer {accessToken}" \
-H "Content-Type: application/json" \
-d "{ \"FilePath\": \"{sourceFile}\", \"Format\": \"html\", \"LoadOptions\": { \"Format\": \"pdf\" }, \"ConvertOptions\": { \"FromPage\": 1, \"PagesCount\": 3, \"Pages\": [ 1,2,3 ], \"WatermarkOptions\": { \"Text\": \"Hello World !\", \"FontName\": \"Arial\", \"FontSize\": 10, \"Bold\": true, \"Italic\": true, \"Color\": \"Yellow\", \"Width\": 0, \"Height\": 0, \"Top\": 0, \"Left\": 0, \"RotationAngle\": 20, \"Transparency\": .5, \"Background\": true, \"AutoAlign\": true } } }" \
-o "resultant.html"
免费 PDF 到 HTML 转换应用程序
您可以考虑使用我们基于 GroupDocs.Conversion API 开发的免费、轻量且超高效的 PDF 转 HTML 转换器。
有用的链接
— 产品文档
-代码示例
结论
总之,无论您选择使用 GroupDocs.Conversion Cloud SDK for .NET 还是将 GroupDocs.Conversion Cloud 与 cURL 命令集成,将 PDF 转换为 HTML 都将成为无缝且高效的过程。这两种方法都提供了用于自动化文档转换任务的多功能解决方案,使您能够毫不费力地弥合 PDF 和 HTML 格式之间的差距。总的来说,无论您喜欢 SDK 的便利性还是 cURL 命令的灵活性,这两种方法都使您能够高效地将 PDF 转换为 HTML 并自信地优化文档处理工作流程。
相关文章
我们强烈建议您访问以下链接以了解更多信息: