PDF から HTM へ

C# .NET を使用して PDF から HTML へのコンバーターを開発します。

PDF ドキュメントを HTML 形式に変換する機能は、Web 開発やコンテンツ管理など、さまざまな目的に不可欠です。Web サイトのアクセシビリティを強化したい開発者でも、PDF コンテンツをオンライン利用用に再利用したいコンテンツ作成者でも、C# .NET を使用して PDF から HTML への変換プロセスを習得すると、ワークフローを大幅に合理化し、効率を向上させることができます。この記事では、.NET REST API を使用して PDF から HTML への変換の詳細をすべて説明し、基本的な概念から高度なテクニックまですべてを網羅します。

この記事では、以下のトピックについて説明します。

PDF から HTML への変換のための REST API

GroupDocs.Conversion Cloud SDK for .NET は、PDF ドキュメントを HTML 形式にシームレスに変換するための堅牢で多用途なソリューションを提供します。SDK には高度なカスタマイズ オプションも用意されており、ページ範囲、画像品質、出力ファイル構造などの変換設定を特定の要件に応じて指定できます。SDK を使用するには、まずインストールする必要があります。NuGet パッケージ マネージャーで GroupDocs.Conversion-Cloud を検索し、[インストール] ボタンをクリックします。別の方法として、パッケージ マネージャー コンソールで次のコマンドを実行します。

NuGet\Install-Package GroupDocs.Conversion-Cloud -Version 24.2.0

REST API が正常にインストールされたら、API 資格情報 (クライアント ID とクライアント シークレット) があることを確認してください。API 資格情報の取得方法については、この短い チュートリアル を参照してください。

C# .NET を使用して PDF を HTML に変換する

次のセクションでは、Cloud SDK の強力な機能を活用し、C# .NET を使用して PDF から HTML への変換タスクをプログラムで自動化する方法について詳しく説明します。

  1. クライアントの資格情報を引数として渡す Configuration クラスのインスタンスを作成します。
var configurations = new Configuration(clientId, clientSecret1);
  1. ConvertApi を初期化し、Configuration オブジェクトを入力引数として渡します。
var apiInstance = new ConvertApi(configurations);
  1. 入力 PDF ドキュメントの名前を渡しながら、入力 PDF ファイルをクラウド ストレージにアップロードします。
fileUpload.UploadFile(new UploadFileRequest("input.pdf", stream));
  1. 入力 PDF の名前、出力形式を html、結果の HTML ファイルの名前を指定して、インスタンス ConvertSettings を作成します。
var settings = new ConvertSettings{...}
  1. ConvertDocumentRequest APIを呼び出してPDFをHTML形式に変換します。変換が成功すると、結果のHTMLはクラウドストレージに保存されます。
var response = apiInstance.ConvertDocument(new ConvertDocumentRequest(settings));
// さらなる例は https://github.com/groupdocs-conversion-cloud/groupdocs-conversion-cloud-dotnet をご覧ください。
// API認証情報を取得する 
string clientId = "4bdefca3-f08c-4088-9ca0-55c38f4b7f22";
string clientSecret1 = "a43c8b4365246a062688a259abe5b469";

// Configuration クラスのインスタンスを作成し、クライアント ID とクライアント シークレットを使用して初期化します。 
var configurations = new GroupDocs.Conversion.Cloud.Sdk.Client.Configuration(clientId, clientSecret1);
// ApiBaseUrl の値を定義して、html から PDF へのコンバーター API のベース URL を設定します。
configuration.ApiBaseUrl = "https://api.groupdocs.cloud";

// Configuration クラスのオブジェクトを使用して ConvertApi クラスのインスタンスを初期化します。
var apiInstance = new GroupDocs.Conversion.Cloud.Sdk.Api.ConvertApi(configurations);
             
// ローカルドライブからHTMLファイルを読み込む             
using (var stream = System.IO.File.OpenRead("input.pdf"))
{
    // FileApiのインスタンスを作成する
    var fileUpload = new FileApi(configurations);
    // 入力PDFファイルをクラウドストレージにアップロードする
    fileUpload.UploadFile(new UploadFileRequest("input.pdf", stream));

    // 入力PDFと結果のHTMLの名前を定義するConvertSettingsを作成します。
    var settings = new ConvertSettings
    {
        StorageName = "internal",
        FilePath = "input.pdf",
        Format = "html",
        OutputPath = "resultant.html"
    };
    
    // プログラムによって PDF を HTML に変換するには、ConvertDocument メソッドを呼び出します。
    var response = apiInstance.ConvertDocument(new GroupDocs.Conversion.Cloud.Sdk.Model.Requests.ConvertDocumentRequest(settings));
    if (response != null && response.Equals("OK"))
    {
        // 成功メッセージを印刷する
        Console.WriteLine("The PDF file successfully converted to HTML !");
    }
}
PDF から HTML へ。

画像: PDF から HTML への変換プレビュー。

上記の例で使用したサンプルPDFファイルはinput.pdfからダウンロードできます。

cURL コマンドを使用して PDF を Web ページに変換する

GroupDocs.Conversion Cloud と cURL コマンドを使用して PDF を HTML に変換すると、ドキュメント変換タスクを自動化するための便利でスクリプト可能なソリューションが提供されます。このアプローチの主な利点の 1 つは、シンプルで、既存のワークフローや自動化パイプラインに簡単に統合できることです。いくつかの簡単なコマンドだけで、複雑なコードや追加のライブラリを必要とせずに、変換プロセスを開始および管理できます。

このアプローチの最初のステップは、パーソナライズされた認証情報 (アプリ キーとアプリ SID) を取得し、JWT アクセス トークンを生成することです。JWT トークンを取得したら、次の cURL コマンドを実行して PDF を HTML 形式に変換してください。次のコマンドはサンプル文字列を透かしとして追加しますが、これはオプションです。

curl -v "https://api.groupdocs.cloud/v2.0/conversion" \
-X POST \
-H "accept: application/json" \
-H "authorization: Bearer {accessToken}" \
-H "Content-Type: application/json" \
-d "{  \"FilePath\": \"{sourceFile}\",  \"Format\": \"html\",  \"LoadOptions\": {    \"Format\": \"pdf\"  },  \"ConvertOptions\": {    \"FromPage\": 1,    \"PagesCount\": 3,    \"Pages\": [      1,2,3    ],    \"WatermarkOptions\": {      \"Text\": \"Hello World !\",      \"FontName\": \"Arial\",      \"FontSize\": 10,      \"Bold\": true,      \"Italic\": true,      \"Color\": \"Yellow\",      \"Width\": 0,      \"Height\": 0,      \"Top\": 0,      \"Left\": 0,      \"RotationAngle\": 20,      \"Transparency\": .5,      \"Background\": true,      \"AutoAlign\": true    }  },  \"OutputPath\": \"{resultantFile}\"}" -v

sourceFile をクラウド ストレージで使用可能な入力 PDF ファイルの名前に、resultantFile を生成したい出力 HTML 形式の名前に、accessToken を上記で生成した JWT トークンに置き換えてください。変換が成功すると、結果のファイルはクラウド ストレージに保存されます。

結果の HTML をローカル ドライブに保存する場合は、次のコマンドを使用してください。

curl -v "https://api.groupdocs.cloud/v2.0/conversion" \
-X POST \
-H "accept: application/json" \
-H "authorization: Bearer {accessToken}" \
-H "Content-Type: application/json" \
-d "{  \"FilePath\": \"{sourceFile}\",  \"Format\": \"html\",  \"LoadOptions\": {    \"Format\": \"pdf\"  },  \"ConvertOptions\": {    \"FromPage\": 1,    \"PagesCount\": 3,    \"Pages\": [      1,2,3    ],    \"WatermarkOptions\": {      \"Text\": \"Hello World !\",      \"FontName\": \"Arial\",      \"FontSize\": 10,      \"Bold\": true,      \"Italic\": true,      \"Color\": \"Yellow\",      \"Width\": 0,      \"Height\": 0,      \"Top\": 0,      \"Left\": 0,      \"RotationAngle\": 20,      \"Transparency\": .5,      \"Background\": true,      \"AutoAlign\": true  }  } }" \
-o "resultant.html"

無料のPDFからHTMLへの変換アプリ

GroupDocs.Conversion API をベースに開発された、無料で軽量かつ超効率的な PDF to HTML Converter の使用を検討することもできます。

無料の PDF から HTML へのアプリ

便利なリンク

結論

結論として、GroupDocs.Conversion Cloud SDK for .NET を利用するか、GroupDocs.Conversion Cloud を cURL コマンドと統合するかにかかわらず、PDF から HTML への変換はシームレスで効率的なプロセスになります。どちらのアプローチも、ドキュメント変換タスクを自動化するための多目的ソリューションを提供し、PDF 形式と HTML 形式の間のギャップを簡単に埋めることができます。全体として、SDK の利便性と cURL コマンドの柔軟性のどちらを好むかにかかわらず、どちらのアプローチでも PDF から HTML への効率的な変換が可能になり、ドキュメント処理ワークフローを自信を持って最適化できます。

関連記事

詳細については、次のリンクにアクセスすることを強くお勧めします。