PDFテキスト抽出ツール

Documentize PDFテキスト抽出ツール for .NETは、PDFドキュメントからテキストを抽出するのを簡素化します。純粋なテキスト、未加工のテキスト、またはプレーンテキストが必要な場合、このプラグインはフォーマットを保持するか、ニーズに応じて省略しながら効率的にテキストを抽出することを可能にします。

主な機能:

  • 純粋モード:元のフォーマットを保持しながらテキストを抽出します。
  • 生モード:フォーマットなしでテキストを抽出します。
  • プレーンモード:特殊文字やフォーマットなしでテキストを抽出します。
  • バッチ処理:複数のPDFから一度にテキストを抽出します。

PDFドキュメントからテキストを抽出する方法

PDFドキュメントからテキストを抽出するには、次の手順に従ってください:

  1. TextExtractorクラスのインスタンスを作成します。
  2. 抽出オプションを構成するためにTextExtractorOptionsのインスタンスを作成します。
  3. AddInputメソッドを使用して入力PDFファイルを追加します。
  4. テキストを抽出するためにProcessメソッドを実行します。
  5. 抽出されたテキストにResultContainer.ResultCollectionを使用してアクセスします。
 1using var extractor = new TextExtractor();
 2var textExtractorOptions = new TextExtractorOptions();
 3
 4// 入力PDFを追加
 5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
 6
 7// テキスト抽出を処理
 8var resultContainer = extractor.Process(textExtractorOptions);
 9
10// 抽出されたテキストを表示
11var extractedText = resultContainer.ResultCollection[0];
12Console.WriteLine(extractedText);

複数のPDFからのテキスト抽出

このプラグインを使用すると、複数のPDFから同時にテキストを抽出でき、迅速かつ効率的な処理が可能です。

 1using var extractor = new TextExtractor();
 2var textExtractorOptions = new TextExtractorOptions();
 3
 4// 複数の入力PDFを追加
 5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));
 7
 8// 抽出を処理
 9var resultContainer = extractor.Process(textExtractorOptions);
10
11// 抽出されたテキストを出力
12foreach (var result in resultContainer.ResultCollection)
13{
14    Console.WriteLine(result);
15}

テキスト抽出モード

TextExtractorプラグインは、ニーズに応じて柔軟性を提供する3つの抽出モードを提供します。

  1. 純粋モード:元のフォーマットを保持し、スペースや配置を含みます。
  2. 生モード:フォーマットなしでテキストを抽出します。生データ処理に役立ちます。
  3. プレーンモード:特殊文字や追加フォーマットなしでテキストを抽出します。
1var textExtractorOptions = new TextExtractorOptions();
2
3// 純粋モードに設定
4textExtractorOptions.Mode = ExtractionMode.Pure;
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
6
7// 処理と出力
8var resultContainer = extractor.Process(textExtractorOptions);
9Console.WriteLine(resultContainer.ResultCollection[0]);

バッチ処理の扱い方

大規模なドキュメントセットの場合、バッチ処理を活用して、複数のPDFから一度にテキストを抽出することができます。

 1using var extractor = new TextExtractor();
 2var textExtractorOptions = new TextExtractorOptions();
 3
 4// 複数の入力PDFを追加
 5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));
 7
 8// 各ファイルの出力を定義
 9var resultContainer = extractor.Process(textExtractorOptions);
10
11// 抽出されたテキストを処理
12foreach (var result in resultContainer.ResultCollection)
13{
14    Console.WriteLine(result);
15}
 日本語