PDF Text Extractor

Documentize PDF Text Extractor for .NETは、PDF文書からテキストを抽出する作業を簡素化します。純粋なテキスト、未加工のテキスト、またはプレーンテキストが必要な場合でも、このプラグインを使用すると、フォーマットを保持したり、必要に応じて省略したりしながら、効率的にテキストを抽出できます。

PDFからテキストを抽出する方法

PDF文書からテキストを抽出するには、次の手順に従います。

  1. TextExtractor クラスのインスタンスを作成します。
  2. TextExtractorOptions のインスタンスを作成して抽出オプションを構成します。
  3. AddInput メソッドを使用して入力PDFファイルを追加します。
  4. Process メソッドを実行してテキストを抽出します。
  5. ResultContainer.ResultCollection を使用して抽出されたテキストにアクセスします。
 1  
 2using var extractor = new TextExtractor();  
 3var textExtractorOptions = new TextExtractorOptions();  
 4
 5// 入力PDFを追加  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));  
 7
 8// テキスト抽出を処理  
 9var resultContainer = extractor.Process(textExtractorOptions);  
10
11// 抽出されたテキストを出力  
12var extractedText = resultContainer.ResultCollection[0];  
13Console.WriteLine(extractedText);  

複数のPDFからテキストを抽出する

このプラグインでは、複数のPDFから同時にテキストを抽出でき、迅速かつ効率的な処理が可能です。

 1  
 2using var extractor = new TextExtractor();  
 3var textExtractorOptions = new TextExtractorOptions();  
 4
 5// 複数の入力PDFを追加  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));  
 7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));  
 8
 9// 抽出を処理  
10var resultContainer = extractor.Process(textExtractorOptions);  
11
12// 抽出されたテキストを出力  
13foreach (var result in resultContainer.ResultCollection)  
14{  
15    Console.WriteLine(result);  
16}  

テキスト抽出モード

TextExtractorプラグインは、ニーズに応じた柔軟性を提供する3つの抽出モードを提供します。

  1. ピュアモード: 元のフォーマット(スペースや配置を含む)を保持します。
  2. 生モード: フォーマットなしでテキストを抽出し、生データ処理に便利です。
  3. プレーンモード: 特殊文字や追加のフォーマットなしでテキストを抽出します。
 1  
 2var textExtractorOptions = new TextExtractorOptions();  
 3
 4// ピュアモードに設定  
 5textExtractorOptions.Mode = ExtractionMode.Pure;  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));  
 7
 8// 処理と出力  
 9var resultContainer = extractor.Process(textExtractorOptions);  
10Console.WriteLine(resultContainer.ResultCollection[0]);  

バッチ処理の扱い方

大規模な文書セットの場合、バッチ処理を活用して、複数のPDFから同時にテキストを抽出できます。

 1  
 2using var extractor = new TextExtractor();  
 3var textExtractorOptions = new TextExtractorOptions();  
 4
 5// 複数の入力PDFを追加  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));  
 7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));  
 8
 9// 各ファイルの出力を定義  
10var resultContainer = extractor.Process(textExtractorOptions);  
11
12// 抽出されたテキストを処理  
13foreach (var result in resultContainer.ResultCollection)  
14{  
15    Console.WriteLine(result);  
16}  

主な機能:

  • ピュアモード: 元のフォーマットを保持しながらテキストを抽出します。
  • 生モード: フォーマットなしでテキストを抽出します。
  • プレーンモード: 特殊文字やフォーマットなしでテキストを抽出します。
  • バッチ処理: 複数のPDFから同時にテキストを抽出します。
 日本語