あなたが Python 開発者で、ドキュメントからデータを抽出したい場合、この記事では、簡単な Python の例を使用して、Word ドキュメント、スプレッドシート、プレゼンテーション、PDF ドキュメントから画像を抽出する方法を説明します。
GroupDocs.Parser Cloud API の Python SDK を使用します。ただし、現在、ドキュメント解析ファミリーのメンバーとして、.NET、Java、PHP、Ruby、および Node.js SDK も提供しています。
この API は、ワープロ文書、スプレッドシート、プレゼンテーション、電子メール、アーカイブ、マークアップ、PDF 文書などのさまざまな種類の文書から画像を抽出するとともに、テキストとメタデータの抽出もサポートしています。」 この記事では、Python で Excel スプレッドシート (XLS、XLSX) を PDF 形式に変換する方法を説明します。 Excel スプレッドシートは、請求書、元帳、在庫、アカウント、その他のレポートを管理するために広く使用されています。一方、PDF は最も一般的に使用されている形式の 1 つでもあり、移植性が高いことで有名です。これら 2 つの形式間の変換は、ユーザーやプログラマからも広く必要とされています。
Python は 1990 年代に開発され、現在も最も人気のある最高の言語の 1 つであり続けており、すべての開発者は 2020 年に学習する必要があります[1]。 Python を使用して、クラウド ストレージ上の Excel ファイルを PDF に変換してみましょう。
ドキュメントを PDF に変換するための Python SDK この記事では変換に GroupDocs.Conversion Cloud API の Python SDK を使用するため、次の手順を開始する前に ダッシュボード から APP KEY と APP SID を取得してください。手順と利用可能なコード例。
Python で Excel スプレッドシートを PDF に変換する 以下は、Python を使用して XLS、XLSX スプレッドシートを PDF に変換する簡単な手順です。
スプレッドシートをクラウドにアップロードします。 アップロードしたスプレッドシートを変換します。 変換された PDF ドキュメントをダウンロードします。 Python コードがどれほど単純であるかをよりよく理解できるように、Python コードを以下に示します。 今日は、Word および Excel ドキュメントを他の言語に翻訳できる翻訳 REST API について検討します。 GroupDocs.Translation Cloud を使用すると、あらゆる文書を英語から中国語、フランス語、ドイツ語、イタリア語、ロシア語、またはスペイン語に、またはその逆に翻訳できます。したがって、翻訳を実行できる言語ペアは次のとおりです。
英語から中国語、中国語から英語 英語からフランス語、フランス語から英語 英語からドイツ語、ドイツ語から英語 英語からイタリア語、イタリア語から英語 英語からロシア語、ロシア語から英語 英語からスペイン語、スペイン語から英語 翻訳中、API は段落、表、ヘッダーを処理します。 Word 処理ドキュメントのフッター、脚注、文末脚注、さらには画像キャプションまで。 Excel スプレッドシートの場合、セル、グラフ、テーブル、およびピボット テーブルもサポートされています。
REST APIを使用してWordまたはExcelドキュメントを翻訳する方法 この記事では、REST API を使用して Word または Excel 文書を翻訳する流れを説明します。従うべき手順は次のとおりです。
翻訳するドキュメントをアップロード [ドキュメントをさまざまな言語で翻訳する](https://blog.groupdocs.cloud/ja/translation/translate-word-excel-documents-with-rest-api/#translate-word-excel-to-other- language) 翻訳されたドキュメントをダウンロードする 翻訳する文書をアップロード ダッシュボード を使用するか、API の Swagger UI を使用して、クラウド ストレージにファイルをアップロードします。両方のオプションを使用してクラウドにアップロードする方法を説明します。
ダッシュボードを使用してファイルをアップロードする ダッシュボード を使用して、ドキュメントをクラウドに直接アップロードできます。必要なのは、サーバー上にアカウントを作成することだけです。 [ファイルをアップロード] ボタンをクリックして、アップロードするドキュメントを選択するだけです。
Swagger UI を使用してファイルをアップロードする もう 1 つのオプションは、Swagger UI を使用して、この リンク から翻訳用のドキュメントをアップロードすることです。
アップロードが成功した後のサーバーからの応答は次のとおりです。
{ "uploaded": \[ "document.docx" \], "errors": \[\] } REST API を使用して Word または Excel ドキュメントをさまざまな言語に翻訳する 単純な cURL コマンドを使用して、アップロードしたドキュメントを翻訳できます。ここでは Word 文書を英語からフランス語に翻訳しています。ファイル document. クラウド開発者向けのニュースがもう 1 つあります。 GroupDocs は、ドキュメント メタデータ操作クラウド API を開始しました。これにより、GroupDocs の ドキュメント メタデータ管理ソリューション が強化されます。このソリューションは、.NET および Java 開発者向けに オンプレミス API として、またあらゆる種類のユーザーがドキュメントのメタデータを表示および編集できる 無料のオンライン ドキュメント メタデータ エディター アプリ として、すでに .NET および Java 開発者に提供されています。
メタデータ操作クラウドAPI GroupDocs.Metadata Cloud 開発者が 50 を超えるファイル形式のメタデータを操作 (追加、削除、更新、抽出、表示) できるようにする API と SDK。
GroupDocs.Metadata を使用すると、次のようなさまざまな方法でファイルのメタデータにアクセスし、処理することができます。
可能なタグ名 プロパティ名 プロパティ値 完全に一致するフレーズ 正規表現と一致する メタデータ ツリー全体 鬼ごっこ 機能と製品についてよりよく理解するには、いつでも ドキュメント セクションの開発者ガイドにアクセスしてください。
サポートされているドキュメント形式 ワードプロセッサドキュメント、スプレッドシート、プレゼンテーション、オーディオおよびビデオファイル、画像、PDF、電子ブック、図面などのドキュメントに対して操作を実行できます。以下にリストされているのは、GroupDocs API で現在サポートされているファイル形式であり、要件を満たすことが期待されます。いつでもドキュメントにアクセスして、すべての サポートされているドキュメント形式 やあらゆる種類のガイダンスについて知ることができます。
メタデータ - SDK とサンプル GroupDocs は、クラウド用のメタデータ編集 REST API に加えて、オープンソース SDK も提供するため、要件に応じてセルフカスタマイズできます。開発者は、cURL を使用して GroupDocs. クラウド開発者にとってもう 1 つの良いニュースです。 GroupDocs は、Document Editing Cloud API を開始しました。これにより、GroupDocs の ドキュメント編集ソリューション が改善されます。このソリューションは、.NET および Java 開発者向けに オンプレミス API として、またあらゆる種類のユーザーがオンラインでドキュメントを無料で編集できるように クロスプラットフォーム オンライン アプリ としてすでに存在しています。 GroupDocs.Editor Cloud API と SDK を使用すると、開発者は、追加のアプリケーションを必要とせずに、フロントエンド WYSIWYG エディタを使用して、一般的なドキュメント形式のほとんどを編集できます。
GroupDocs.Editor Cloud は、さまざまな種類のドキュメントの編集プロセスをカスタマイズするための多くの編集オプションと出力カスタマイズを提供する REST API です。主な機能には次のようなものがあります。
フロー モードまたはページ モードでワード プロセッシング ドキュメントを編集します。 フォント抽出を管理して、同じユーザー エクスペリエンスを提供します。 大きなファイルのメモリ使用量の最適化。 複数のタブを持つスプレッドシートのサポート。 柔軟な数値と日付の変換。 URI と電子メール アドレスの認識。 機能と製品についてよりよく理解するには、いつでも ドキュメント セクションの開発者ガイドにアクセスしてください。
サポートされているドキュメントの種類 現在サポートされているドキュメント形式は次のとおりです。 GroupDocs.Editor Cloud のドキュメントにいつでもアクセスして、すべての サポートされているドキュメント形式 について知ることができます。
SDKとサンプル GroupDocs は、クラウド用のドキュメント編集 REST API に加えて、オープンソース SDK も提供しているため、要件に応じてセルフカスタマイズできます。開発者は cURL を使用して GroupDocs. クラウド開発者に朗報です! GroupDocs は Watermark Cloud API を開始しました。これにより、GroupDocs ウォーターマーク ソリューション が強化されます。これは、.NET および Java 開発者向けの オンプレミス API として、またあらゆる種類のユーザー向けの クロスプラットフォーム オンライン アプリ としてすでに存在しています。 Watermark Cloud API と SDK を使用すると、開発者は、サードパーティ ツールによって自動的に削除されにくい重要なドキュメントをウォーターマークで保護できます。
GroupDocs.Watermark Cloud は、ドキュメントを保護し、ウォーターマークを管理するためのすべての主要機能を提供する REST API です。重要な機能には次のようなものがあります。画像またはテキストの透かしを追加し、既に追加されている透かしを削除し、サポートされているすべての形式で透かしを置換または検索します。
サポートされているドキュメントの種類 現在サポートされているドキュメント形式は次のとおりです。 GroupDocs.Watermark Cloud の ドキュメント にいつでもアクセスして、サポートされているドキュメント形式のいずれかで利用できる特定の機能について完全に把握することができます。
SDKとサンプル GroupDocs は、ウォーターマーク REST API に加えて、要件に応じて自己カスタマイズできるオープンソース SDK も提供します。開発者は、リクエストの作成や応答の処理に関する低レベルの詳細を気にすることなく、関連する SDK を使用して開発をスピードアップできます。現在、サンプルとともに以下の SDK をリリースしています。これらの SDK とサンプルは GitHub でも入手可能 です。
より良いアイデアを得るために、いくつかの例を示します。その他の例については、[ドキュメント][10] ページにアクセスするか、関連する [GitHub リポジトリ][11] にアクセスしてください。
Java で Word 文書に画像透かしを追加する ここでは、[GroupDocs.Watermark Cloud SDK for Java][12] を使用して Word 文書にウォーターマークを追加する Java コード例を示します。 新規顧客向けの価格設定の簡素化 GroupDocs Cloud の料金体系を更新し、新規顧客向けに簡素化しました。以前は、一部の API 呼び出しは「課金可能」でしたが、他の API 呼び出しは課金されませんでした。 API 呼び出しによってドキュメントまたは意味のある結果が作成された場合、それは課金対象となります。 API 呼び出しによってドキュメントまたは結果が作成されなかった場合、料金は発生しません。ただし、特定の GroupDocs Cloud 製品には、一部の通話に対して料金を請求すべきかどうかについて顧客が混乱する「グレーゾーン」がいくつかありました。
この問題を解決するために、API 呼び出しの内容に関係なく、行われたすべての API 呼び出しに対して料金を請求するように価格を更新しました。同時に、新しい料金体系における各 API 呼び出しのコストは 1/3 に削減されました。
これは既存の顧客にどのような影響を与えますか? この変更の影響は顧客ごとに異なるため、既存の顧客を新しい価格設定に自動的に切り替えることはしていません。代わりに、すべての価格変更と同様に、サインアップしたときの価格に基づいて引き続き請求される既存の顧客を「祖父母」としました。
既存の顧客が新しい価格への切り替えを希望する場合は、GroupDocs Cloud アカウント内の [今すぐ購入] ページにアクセスして切り替えることができます。
新しい価格設定の詳細については、こちらをご覧ください。 https://purchase.groupdocs.cloud/pricing。 GroupDocs は、GroupDocs.Storage Cloud API 機能がさらに簡素化されたことをお知らせします。ファイルとフォルダーのストレージとその操作は、個別の GroupDocs.Storage Cloud API には依存しなくなりましたが、これらの機能はすべての GroupDocs Cloud API 内のマイクロサービスとして利用できます。正確に言うと、「GroupDocs.Storage Cloud は別の製品として 販売終了 になりました」です。
既存ユーザーは何ができるのでしょうか? GroupDocs.Storage Cloud API と次の SDK は、2020 年 12 月 31 日まで、既存の顧客向けに GitHub、NuGet などのパブリック リポジトリでのみ利用可能になります。
.NET 用 GroupDocs.Storage クラウド SDK PHP 用 GroupDocs.Storage クラウド SDK Ruby 用 GroupDocs.Storage クラウド SDK したがって、すべてのプラットフォームから完全に削除される前に、アプリケーションを最新バージョンの SDK / エンドポイントに更新することをお勧めします。
GroupDocs.Storage Cloud は、個別に 購入したり、GroupDocs.Total Cloud Product Family の一部として利用したりすることはできなくなります。ただし、テクニカル サポートでは、最新バージョンへの移行に関するご質問をお待ちしております。
新しい API をどのように操作するか? 以下のサンプルは、GroupDocs.Storage Cloud API を使用してフォルダー内のすべてのファイルとフォルダーのリストを取得する方法を示しています。
// How to get list of files and folders using GroupDocs. GroupDocs は、GroupDocs.Parser Cloud の最初のバージョンを共有するために終了します。これは、サードパーティのツールやプラグインに依存せずに、すべての一般的なビジネス ファイル形式からデータを解析して抽出する、すぐに使用できるプラットフォームに依存しない REST API ソリューションです。 REST をサポートする任意のプラットフォームまたは言語で使用できるため、開発者は大きな学習曲線を必要とせずに Web、デスクトップ、モバイル、またはクラウド アプリケーションと統合できます。
GroupDocs.Parser クラウドとは何ですか? ドキュメント管理システムを開発していて、テキスト検索またはテキスト分析の機能が必要だとします。関連するドキュメント リーダーをインストールせずに、システムが幅広い種類のドキュメントを読み取ったり分析できれば素晴らしいと思いませんか?
GroupDocs.Parser Cloud は上記の目的を達成します。 50種類以上の文書タイプをサポートする文書データ抽出REST APIです。 GroupDocs.Parser Cloud の最も価値のある機能の 1 つは、事前定義されたテンプレートを使用してドキュメントを解析することです。テンプレートを定義して、請求書、領収書、見積書、手紙などのビジネス文書からデータを抽出するのは簡単です。テキスト抽出に限定されず、サポートされている文書タイプから画像を抽出することもできます。この API は、通常のドキュメントだけでなく、ZIP アーカイブ、OST/PST メール データ ファイル、PDF ポートフォリオなどのコンテナーでも使用できます。時間を割いて、最初の公開リリースのリリース ノート にアクセスして、その機能の完全なリストを確認してください。
使い方? アプリケーションで GroupDocs.Parser Cloud 機能を使用するには、2 つの方法があります。 REST クライアント経由で使用するか、お気に入りのプログラミング言語で SDK を直接使用してください。 GroupDocs.Parser Github リポジトリの SDK の完全なリストを見つけることができます。
ここでは、事前定義されたテンプレートを使用して Word ドキュメントを解析することにより、GroupDocs.Parser Cloud の機能を示します。 REST クライアントを使用しています。 cURL コマンドラインツール。
まず最初に、続行する前に groupdocs.cloud にサインアップ して、残りの API 呼び出しを認証するためのアプリ SID とアプリ キーを取得してください。
テンプレートの作成 上で共有したように、GroupDocs. groupdocs.cloud 製品リストに新たに追加される、今後の GroupDocs.Parser Cloud API に関する洞察を共有できることを嬉しく思います。 GroupDocs.Parser Cloud は、ドキュメント解析ソリューションです。開発者は、サードパーティのプラグインやツールに依存せずに、任意のプラットフォーム上のアプリケーションにドキュメント解析機能を追加できるようになります。この REST API の主な機能は、ユーザー定義のテンプレート上のドキュメントを解析して、請求書、見積書、またはその他の種類のビジネス ドキュメントからデータを抽出することです。
今後の API でサポートされる機能の一部は次のとおりです。 REST APIは以下の機能に限定されるものではなく、今後も便利な新機能を追加していきます。
特徴
テンプレートによるドキュメントの解析
テキストの抽出
テキストのみを抽出する
抽出モード オプションを使用して書式設定されたテキストを抽出します。プレーンテキスト、HTML、マークダウン
ページ範囲を設定して特定のページからテキストを抽出する
画像の抽出
文書情報の抽出
テンプレート管理
サポートされている形式 GroupDocs.Parser Cloud API の最初のリリースでは、次のファイル形式がサポートされる予定です。
ドキュメント
Microsoft Word文書
DOT
Microsoft Wordドキュメントテンプレート
DOCX
Office オープン XML ドキュメント
DOCM
Office Open XML マクロ有効ドキュメント
DOTX
Office Open XML ドキュメント テンプレート
DOTM
Office Open XML ドキュメントのマクロ有効テンプレート
TXT
プレーンテキスト
ODT
文書テキストを開く
OTT
ドキュメントテキストテンプレートを開く
RTF
リッチテキスト形式
PDF