Extract Text
Documentize PDF Extractor for .NETは、PDF文書からテキストを抽出することを簡素化します。純粋なテキスト、生のテキスト、またはプレーンテキストが必要な場合でも、このプラグインを使用すると、フォーマットを保持したり、ニーズに応じて省略したりしながら、効率的にテキストを抽出できます。
PDFからテキストを抽出する方法
PDF文書からテキストを抽出するには、次の手順に従います。
- 抽出オプションを設定するために
ExtractTextOptions
のインスタンスを作成します。 AddInput
メソッドを使用して入力PDFファイルを追加します。ExtractText
メソッドを実行してテキストを抽出します。ResultContainer.ResultCollection
を使用して抽出したテキストにアクセスします。
1// 指示を設定するためにExtractTextOptionsオブジェクトを作成
2var options = new ExtractTextOptions();
3// 入力ファイルパスを追加
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// プロセスを実行
6var results = PdfExtractor.ExtractText(options);
7// ResultContainerオブジェクトから抽出したテキストを取得
8var textExtracted = results.ResultCollection[0].ToString();
テキスト抽出モード
ExtractTextOptionsは、ニーズに応じて柔軟性を提供する3つの抽出モードを提供します。
- ピュアモード: スペースや整列を含む元のフォーマットを保持します。
- 生モード: フォーマットなしでテキストを抽出し、生データ処理に役立ちます。
- フラットモード: 座標によってテキストフラグメントを配置し、PDFコンテンツを表現します。
1// TextFormattingModeを設定するためにExtractTextOptionsオブジェクトを作成
2var options = new ExtractTextOptions(TextFormattingMode.Pure);
3// 入力ファイルパスを追加
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// プロセスを実行
6var results = PdfExtractor.ExtractText(options);
7// ResultContainerオブジェクトから抽出したテキストを取得
8var textExtracted = results.ResultCollection[0].ToString();
主な機能:
- ピュアモード: 元のフォーマットを保持しながらテキストを抽出します。
- 生モード: フォーマットなしでテキストを抽出します。
- フラットモード: 特殊文字やフォーマットなしでテキストを抽出します。