PDF Text Extractor
Documentize PDF Text Extractor for .NETは、PDF文書からテキストを抽出する作業を簡素化します。純粋なテキスト、未加工のテキスト、またはプレーンテキストが必要な場合でも、このプラグインを使用すると、フォーマットを保持したり、必要に応じて省略したりしながら、効率的にテキストを抽出できます。
PDFからテキストを抽出する方法
PDF文書からテキストを抽出するには、次の手順に従います。
TextExtractor
クラスのインスタンスを作成します。TextExtractorOptions
のインスタンスを作成して抽出オプションを構成します。AddInput
メソッドを使用して入力PDFファイルを追加します。Process
メソッドを実行してテキストを抽出します。ResultContainer.ResultCollection
を使用して抽出されたテキストにアクセスします。
1
2using var extractor = new TextExtractor();
3var textExtractorOptions = new TextExtractorOptions();
4
5// 入力PDFを追加
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
7
8// テキスト抽出を処理
9var resultContainer = extractor.Process(textExtractorOptions);
10
11// 抽出されたテキストを出力
12var extractedText = resultContainer.ResultCollection[0];
13Console.WriteLine(extractedText);
複数のPDFからテキストを抽出する
このプラグインでは、複数のPDFから同時にテキストを抽出でき、迅速かつ効率的な処理が可能です。
1
2using var extractor = new TextExtractor();
3var textExtractorOptions = new TextExtractorOptions();
4
5// 複数の入力PDFを追加
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));
7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));
8
9// 抽出を処理
10var resultContainer = extractor.Process(textExtractorOptions);
11
12// 抽出されたテキストを出力
13foreach (var result in resultContainer.ResultCollection)
14{
15 Console.WriteLine(result);
16}
テキスト抽出モード
TextExtractorプラグインは、ニーズに応じた柔軟性を提供する3つの抽出モードを提供します。
- ピュアモード: 元のフォーマット(スペースや配置を含む)を保持します。
- 生モード: フォーマットなしでテキストを抽出し、生データ処理に便利です。
- プレーンモード: 特殊文字や追加のフォーマットなしでテキストを抽出します。
1
2var textExtractorOptions = new TextExtractorOptions();
3
4// ピュアモードに設定
5textExtractorOptions.Mode = ExtractionMode.Pure;
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
7
8// 処理と出力
9var resultContainer = extractor.Process(textExtractorOptions);
10Console.WriteLine(resultContainer.ResultCollection[0]);
バッチ処理の扱い方
大規模な文書セットの場合、バッチ処理を活用して、複数のPDFから同時にテキストを抽出できます。
1
2using var extractor = new TextExtractor();
3var textExtractorOptions = new TextExtractorOptions();
4
5// 複数の入力PDFを追加
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));
7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));
8
9// 各ファイルの出力を定義
10var resultContainer = extractor.Process(textExtractorOptions);
11
12// 抽出されたテキストを処理
13foreach (var result in resultContainer.ResultCollection)
14{
15 Console.WriteLine(result);
16}
主な機能:
- ピュアモード: 元のフォーマットを保持しながらテキストを抽出します。
- 生モード: フォーマットなしでテキストを抽出します。
- プレーンモード: 特殊文字やフォーマットなしでテキストを抽出します。
- バッチ処理: 複数のPDFから同時にテキストを抽出します。