テキスト抽出

The Documentize PDF Extractor for .NET は PDF ドキュメントからテキストを抽出する作業を簡素化します。純粋なテキスト、ローデータテキスト、プレーンテキストが必要な場合でも、このプラグインはフォーマットを保持したまま、または必要に応じてフォーマットを除外して効率的にテキストを抽出できます。

How to Extract Text from PDF

PDF ドキュメントからテキストを抽出するには、次の手順に従ってください。

  1. 抽出オプションを設定するために ExtractTextOptions のインスタンスを作成します。
  2. AddInput メソッドで入力 PDF ファイルを追加します。
  3. Extract メソッドを実行してテキストを抽出します。
  4. ResultContainer.ResultCollection から抽出されたテキストにアクセスします。
1// Create ExtractTextOptions object to set instructions
2var options = new ExtractTextOptions();
3// Add input file path
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Perform the process
6var results = PdfExtractor.Extract(options);
7// Get the extracted text from the ResultContainer object
8var textExtracted = results.ResultCollection[0].ToString();

Text Extraction Modes

ExtractTextOptions は 3 つの抽出モードを提供し、ニーズに合わせた柔軟性を実現します。

  1. Pure Mode: スペースや配置を含む元のフォーマットを保持します。
  2. Raw Mode: フォーマットを除外したテキストを抽出し、ローデータ処理に適しています。
  3. Flatten Mode: PDF の内容を座標に基づくテキストフラグメントとして表現します。
1// Create ExtractTextOptions object to set TextFormattingMode
2var options = new ExtractTextOptions(TextFormattingMode.Pure);
3// Add input file path
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Perform the process
6var results = PdfExtractor.Extract(options);
7// Get the extracted text from the ResultContainer object
8var textExtracted = results.ResultCollection[0].ToString();

Key Features:

  • Pure Mode: 元のフォーマットを保持したままテキストを抽出します。
  • Raw Mode: すべてのフォーマットを除外してテキストを抽出します。
  • Flatten Mode: 特殊文字やフォーマットを除外したテキストを抽出します。
 日本語