Word 文書 (DOC, DOCX) をテキスト形式に変換することは、データ抽出、インデックス作成、または自動化ワークフローにおいて一般的な要求です。.NET Cloud SDK の助けを借りることで、Microsoft Word に依存することなく、自然言語処理、コンテンツ分析、または大量のテキストデータの保存のために、Word 文書からテキストを簡単に抽出できます。

Word to Text Conversion API

GroupDocs.Parser Cloud SDK for .NET は、Word ドキュメントをテキスト形式に解析、抽出、および変換するための強力なツールを提供します。DOC、DOCX などの一般的なドキュメント形式をサポートしており、開発者が .NET アプリケーションでドキュメントからテキストまたは docx から txt への変換器を迅速に構築する方法を提供します。

前提条件

  • GroupDocs Cloud Dashboard にサインアップしてください。
  • クライアントIDとクライアントシークレットを取得してください。詳しくは this article をご覧ください。
  • .NET 6.0 以降と Visual Studio をインストールしてください。
  • NuGet パッケージから SDK をインストールします:
NuGet\Install-Package GroupDocs.Parser-Cloud -Version 25.7.0

DOCX を TXT に変換するには C#

ここでは、GroupDocs.Parser Cloud SDK for .NETを使用してDOCXをTXTに変換する方法やWord文書からテキストを抽出する方法を示す簡単な例を示します。

1.: API構成を初期化する

var config = new Configuration
{
    ClientId = "YOUR_CLIENT_ID",
    ClientSecret = "YOUR_CLIENT_SECRET"
};
var parserApi = new ParserApi(config);

2.: ドキュメントのテキストコンテンツを抽出するために Parse メソッドを呼び出します。 ImagesRequest オブジェクトのインスタンスを初期化し、引数として ImagesOptions クラスのインスタンスを渡します。

var response = parserApi.Parse(new ParseRequest("sample.docx"));

3.: 抽出したテキストを .txt ファイルとしてローカルに保存し、さらなる処理のために使用します。

File.WriteAllText("output.txt", response.Text);
  • 💡 特定のページや段落からテキストを抽出するには、ParseOptions パラメータでフィルターを設定することもできます。
// さらなる例については、 https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-dotnet をご覧ください。

var configuration = new Configuration("XXXXXXX-XXXXXXX-XXXXXX-55c38f4b7f22", "XXXXXXXXXXXX");
var parseApi = new ParseApi(configuration);
var fileApi = new FileApi(configuration);

// Load input Word document
using (var fileStream = OpenRead("input.docx"))
{
    // upload the input Word document to cloud storage
    var uploadRequest = new Requests.UploadFileRequest("sample.docx", fileStream);
    fileApi.UploadFile(uploadRequest);
}

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "sample.docx" }
};

var request = new TextRequest(options);
// extract text from input Word document
var response = parseApi.Text(request);

Console.WriteLine("Extracted Text:\n");
Console.WriteLine(response.Text);    

WordからテキストをcURLで抽出する

コマンドライン操作を好む場合は、cURLを使用してREST APIに直接アクセスし、DOCまたはDOCXをオンラインでテキストに変換できます。

ステップ 1: アクセストークンを取得する:

curl -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"

ステップ 2: DOCX を TXT に変換する:

curl -X POST "https://api.groupdocs.cloud/v1.0/parser/{inputFile}/text" \
  -H "accept: application/json" \
  -H "authorization: Bearer {ACCESS_TOKEN}" \
  -o "{outputFile}.txt"

{inputFile} をあなたの Word ファイル名に、{outputFile} をローカルに保存するための希望する TXT ファイル名に置き換えます。

無料のDOCXからTXTへのオンラインコンバーター

もし素早く Word to text conversion online を試したい場合は、無料の DOCX to TXT コンバーターをチェックしてください。これにより、ブラウザ内で直接、任意の Word ファイルをテキスト形式にアップロードして瞬時に変換できます—インストールやコーディングは必要ありません。

フリー画像抽出ツール

要約

私たちは、.NET Cloud SDKがWord文書からテキストを抽出し、それをTXT形式に変換するための信頼性の高いクラウドベースのソリューションを提供していることを探求しました。データ抽出、コンテンツ分析、及びとの統合を簡素化します。 エンタープライズ文書処理システム。

GroupDocs.Parser Cloudを使用する理由は何ですか?

  • DOCおよびDOCX形式をサポートしています。
  • .NETアプリケーションとの簡単な統合。
  • 100% クラウドベース — Microsoft Word は必要ありません。
  • データ処理またはストレージのためにクリーンなTXT出力を生成します。

よくある質問 (FAQs)

  1. DOCX を TXT に変換するには C# を使用できますか?
  • はい。このSDKを使用すると、Word文書からテキストを直接TXT形式で抽出して保存できます。
  1. DOCとDOCXファイルの両方をサポートしていますか?
  • はい。両方のファイル形式は、変換とテキスト抽出のために完全にサポートされています。
  1. この変換には Microsoft Word は必要ですか?
  • いいえ。変換は完全にGroupDocs Cloudプラットフォーム上で行われます。
  1. 特定のセクションやページを抽出することはできますか?
  • はい。部分的なテキスト抽出のためにページ範囲や領域を定義できます。

有用なリンク

関連記事