Extract Text

Documentize PDF Extractor for .NETは、PDF文書からテキストを抽出することを簡素化します。純粋なテキスト、生のテキスト、またはプレーンテキストが必要な場合でも、このプラグインを使用すると、フォーマットを保持したり、ニーズに応じて省略したりしながら、効率的にテキストを抽出できます。

PDFからテキストを抽出する方法

PDF文書からテキストを抽出するには、次の手順に従います。

  1. 抽出オプションを設定するためにExtractTextOptionsのインスタンスを作成します。
  2. AddInputメソッドを使用して入力PDFファイルを追加します。
  3. ExtractTextメソッドを実行してテキストを抽出します。
  4. ResultContainer.ResultCollectionを使用して抽出したテキストにアクセスします。
1// 指示を設定するためにExtractTextOptionsオブジェクトを作成
2var options = new ExtractTextOptions();
3// 入力ファイルパスを追加
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// プロセスを実行
6var results = PdfExtractor.ExtractText(options);
7// ResultContainerオブジェクトから抽出したテキストを取得
8var textExtracted = results.ResultCollection[0].ToString();

テキスト抽出モード

ExtractTextOptionsは、ニーズに応じて柔軟性を提供する3つの抽出モードを提供します。

  1. ピュアモード: スペースや整列を含む元のフォーマットを保持します。
  2. 生モード: フォーマットなしでテキストを抽出し、生データ処理に役立ちます。
  3. フラットモード: 座標によってテキストフラグメントを配置し、PDFコンテンツを表現します。
1// TextFormattingModeを設定するためにExtractTextOptionsオブジェクトを作成
2var options = new ExtractTextOptions(TextFormattingMode.Pure);
3// 入力ファイルパスを追加
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// プロセスを実行
6var results = PdfExtractor.ExtractText(options);
7// ResultContainerオブジェクトから抽出したテキストを取得
8var textExtracted = results.ResultCollection[0].ToString();

主な機能:

  • ピュアモード: 元のフォーマットを保持しながらテキストを抽出します。
  • 生モード: フォーマットなしでテキストを抽出します。
  • フラットモード: 特殊文字やフォーマットなしでテキストを抽出します。
 日本語