PDFテキスト抽出ツール

Documentize PDFテキスト抽出ツール for .NET は、PDF文書からテキストを抽出する作業を簡素化します。純粋なテキスト、生のテキスト、またはプレーンテキストが必要な場合、このプラグインはニーズに応じてフォーマットを保持したり省略したりしながら、効率的にテキストを抽出できます。

主な機能:

  • 純粋モード: 元のフォーマットを保持しながらテキストを抽出します。
  • 生モード: フォーマットなしでテキストを抽出します。
  • プレーンモード: 特殊文字やフォーマットなしでテキストを抽出します。
  • バッチ処理: 一度に複数のPDFからテキストを抽出します。

PDF文書からテキストを抽出する方法

PDF文書からテキストを抽出するには、以下の手順に従います:

  1. TextExtractorクラスのインスタンスを作成します。
  2. 抽出オプションを設定するためにTextExtractorOptionsのインスタンスを作成します。
  3. AddInputメソッドを使用して入力PDFファイルを追加します。
  4. Processメソッドを実行してテキストを抽出します。
  5. ResultContainer.ResultCollectionを使用して抽出されたテキストにアクセスします。
 1using var extractor = new TextExtractor();
 2var textExtractorOptions = new TextExtractorOptions();
 3
 4// 入力PDFを追加
 5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
 6
 7// テキスト抽出を処理
 8var resultContainer = extractor.Process(textExtractorOptions);
 9
10// 抽出されたテキストを表示
11var extractedText = resultContainer.ResultCollection[0];
12Console.WriteLine(extractedText);

複数のPDFからテキストを抽出する

このプラグインは、複数のPDFから同時にテキストを抽出できるようにし、迅速で効率的な処理を確保します。

 1using var extractor = new TextExtractor();
 2var textExtractorOptions = new TextExtractorOptions();
 3
 4// 複数の入力PDFを追加
 5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));
 7
 8// 抽出を処理
 9var resultContainer = extractor.Process(textExtractorOptions);
10
11// 抽出されたテキストを出力
12foreach (var result in resultContainer.ResultCollection)
13{
14    Console.WriteLine(result);
15}

テキスト抽出モード

TextExtractorプラグインは、ニーズに応じた柔軟性を提供する3つの抽出モードを提供します。

  1. 純粋モード: 空白や整列を含む元のフォーマットを保持します。
  2. 生モード: フォーマットなしでテキストを抽出し、生データ処理に役立ちます。
  3. プレーンモード: 特殊文字や追加のフォーマットなしでテキストを抽出します。
1var textExtractorOptions = new TextExtractorOptions();
2
3// 純粋モードに設定
4textExtractorOptions.Mode = ExtractionMode.Pure;
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
6
7// 処理して出力
8var resultContainer = extractor.Process(textExtractorOptions);
9Console.WriteLine(resultContainer.ResultCollection[0]);

バッチ処理の取り扱い方法

大規模な文書セットでは、バッチ処理を活用することで、複数のPDFから一度にテキストを抽出できます。

 1using var extractor = new TextExtractor();
 2var textExtractorOptions = new TextExtractorOptions();
 3
 4// 複数の入力PDFを追加
 5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));
 7
 8// 各ファイルの出力を定義
 9var resultContainer = extractor.Process(textExtractorOptions);
10
11// 抽出されたテキストを処理
12foreach (var result in resultContainer.ResultCollection)
13{
14    Console.WriteLine(result);
15}
 日本語