もしあなたが PDF から手動でデータをコピーしようとしたことがあれば、その面倒さがどれほどかを知っているでしょう—特に大規模な文書や複数の文書の場合は。私たちの .NET Cloud SDK を使用すれば、プロセスを自動化し、わずか数行の C# コードを使ってプログラム的に PDFs からテキストを抽出できます。

この初心者向けのチュートリアルでは、C# .NETを使用してPDFドキュメントからテキストを抽出する方法を学びます。すべてのテキストを読み取る場合や、特定のページ範囲で抽出する場合、さらにはPDF内の埋め込まれたファイルからテキストを解析する場合も対象です。

PDF Parser API

GroupDocs.Parser Cloud SDK for .NET は、オンラインで PDF ファイルをプログラムmatically 操作する機能を提供する素晴らしい API です。PDF の作成や変換機能を提供するだけでなく、テキスト、画像、添付ファイル、ブックマークなどの PDF ファイル要素を簡単に抽出することができます。この記事では、.NET Cloud SDK を使用して PDF ファイルからテキストを抽出することに焦点を当てています。

🔧 前提条件

PDF操作プロセスを始める前に、次のコンポーネントがインストールされていることを確認する必要があります:

  • GroupDocs Cloud アカウント - サインアップして Client ID and Secret を取得してください。
  • .NET 6.0 以上がインストールされていること。
  • Visual Studio または .NET 開発をサポートする任意の IDE。

インストール

NuGet パッケージ マネージャーから直接 SDK をインストールします:

Install-Package GroupDocs.Parser-Cloud

C#を使用してPDFテキストを抽出する

以下の手順に従って、プログラムからPDFファイルからテキストを取得してください:

var configuration = new Configuration("YourClientId", "YourClientSecret");
var parseApi = new ParseApi(configuration);

ParseApiのインスタンスを初期化するには、Configurationオブジェクトを引数として渡します。

var fileApi = new FileApi(configuration);

using (var fileStream = File.OpenRead("sample.pdf"))
{
    var uploadRequest = new UploadFileRequest("sample.pdf", fileStream);
    fileApi.UploadFile(uploadRequest);
}

ローカルドライブから入力PDFファイルを読み込み、UploadFileRequestクラスのUploadFile(...)メソッドを呼び出してクラウドストレージにアップロードします。

// より多くの例については、 https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-dotnet をご覧ください。

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "sample.pdf" }
};

var request = new TextRequest(options);
var response = parseApi.Text(request);

Console.WriteLine("Extracted Text:\n");
Console.WriteLine(response.Text);
  • TextOptions: テキストを抽出するファイルを定義します。
  • TextRequest: クラウドにリクエストを送信します。
  • parseApi.Text(): 抽出されたテキストコンテンツを返します。

C#を使用してページ範囲からテキストを抽出する

特定のページからのみテキストが必要な場合(たとえば、ページ 2 から 4 まで)、次のようにページ範囲を指定することができます:

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "sample.pdf" },
    StartPageNumber = 2,
    CountPagesToExtract = 3
};

var request = new TextRequest(options);
var response = parseApi.Text(request);

Console.WriteLine("Text extracted from pages 2 to 4:");
Console.WriteLine(response.Text);

添付されたドキュメントからテキストを抽出する

一部のPDFには、Word、Excel、または別のPDFなどの添付ファイルが含まれています。SDKを使用すると、それらの埋め込まれたドキュメントからもテキストを抽出できます:

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "sample.pdf" },
    ContainerItemInfo = new ContainerItemInfo
    {
        RelativePath = "attachment.docx",
        StartPageNumber = 1,
        CountPagesToExtract = 2
    }
};

var request = new TextRequest(options);
var response = parseApi.Text(request);

Console.WriteLine("Extracted text from the attached document:");
Console.WriteLine(response.Text);

オンラインで試す

まだコーディングしたくないですか? 無料の online PDF text extractor を試してみてください。 REST API によって powered されており、任意の PDF ドキュメントから即座にテキストを抽出できます。

オンラインで Excel ファイルを比較する

結論

このガイドでは、あなたが学んだことは次のとおりです:

  • PDFファイルからテキストを抽出するには C# .NET を使用してください。
  • クラウド上に文書をアップロードして解析します。
  • ページ範囲または添付ファイルからテキストを取得します。

私たちのクラウドAPIは、開発者が低レベルのPDF解析ロジックに対処することなく、PDFテキスト抽出を自動化するのを容易にします。

役立つリンク

See Also