PDFテキスト抽出ツール
Documentize PDFテキスト抽出ツール for .NET は、PDF文書からテキストを抽出する作業を簡素化します。純粋なテキスト、生のテキスト、またはプレーンテキストが必要な場合、このプラグインはニーズに応じてフォーマットを保持したり省略したりしながら、効率的にテキストを抽出できます。
主な機能:
- 純粋モード: 元のフォーマットを保持しながらテキストを抽出します。
- 生モード: フォーマットなしでテキストを抽出します。
- プレーンモード: 特殊文字やフォーマットなしでテキストを抽出します。
- バッチ処理: 一度に複数のPDFからテキストを抽出します。
PDF文書からテキストを抽出する方法
PDF文書からテキストを抽出するには、以下の手順に従います:
TextExtractor
クラスのインスタンスを作成します。- 抽出オプションを設定するために
TextExtractorOptions
のインスタンスを作成します。 AddInput
メソッドを使用して入力PDFファイルを追加します。Process
メソッドを実行してテキストを抽出します。ResultContainer.ResultCollection
を使用して抽出されたテキストにアクセスします。
1using var extractor = new TextExtractor();
2var textExtractorOptions = new TextExtractorOptions();
3
4// 入力PDFを追加
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
6
7// テキスト抽出を処理
8var resultContainer = extractor.Process(textExtractorOptions);
9
10// 抽出されたテキストを表示
11var extractedText = resultContainer.ResultCollection[0];
12Console.WriteLine(extractedText);
複数のPDFからテキストを抽出する
このプラグインは、複数のPDFから同時にテキストを抽出できるようにし、迅速で効率的な処理を確保します。
1using var extractor = new TextExtractor();
2var textExtractorOptions = new TextExtractorOptions();
3
4// 複数の入力PDFを追加
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));
7
8// 抽出を処理
9var resultContainer = extractor.Process(textExtractorOptions);
10
11// 抽出されたテキストを出力
12foreach (var result in resultContainer.ResultCollection)
13{
14 Console.WriteLine(result);
15}
テキスト抽出モード
TextExtractorプラグインは、ニーズに応じた柔軟性を提供する3つの抽出モードを提供します。
- 純粋モード: 空白や整列を含む元のフォーマットを保持します。
- 生モード: フォーマットなしでテキストを抽出し、生データ処理に役立ちます。
- プレーンモード: 特殊文字や追加のフォーマットなしでテキストを抽出します。
1var textExtractorOptions = new TextExtractorOptions();
2
3// 純粋モードに設定
4textExtractorOptions.Mode = ExtractionMode.Pure;
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
6
7// 処理して出力
8var resultContainer = extractor.Process(textExtractorOptions);
9Console.WriteLine(resultContainer.ResultCollection[0]);
バッチ処理の取り扱い方法
大規模な文書セットでは、バッチ処理を活用することで、複数のPDFから一度にテキストを抽出できます。
1using var extractor = new TextExtractor();
2var textExtractorOptions = new TextExtractorOptions();
3
4// 複数の入力PDFを追加
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));
7
8// 各ファイルの出力を定義
9var resultContainer = extractor.Process(textExtractorOptions);
10
11// 抽出されたテキストを処理
12foreach (var result in resultContainer.ResultCollection)
13{
14 Console.WriteLine(result);
15}