PDF Text Extractor
Documentize PDF Text Extractor for .NET は、PDFドキュメントからテキストを抽出する作業を簡略化します。純粋なテキスト、生のテキスト、またはプレーンテキストが必要な場合でも、このプラグインを使用すれば、フォーマットを保持しつつ、あるいは必要に応じて省略しながら効率的にテキストを抽出できます。
PDFからテキストを抽出する方法
PDFドキュメントからテキストを抽出するには、以下の手順に従ってください:
- 抽出オプションを構成するために
TextExtractorOptions
のインスタンスを作成します。 AddInput
メソッドを使用して入力PDFファイルを追加します。Process
メソッドを実行してテキストを抽出します。ResultContainer.ResultCollection
を使用して抽出されたテキストにアクセスします。
1
2// 指示を設定するためにTextExtractorOptionsオブジェクトを作成
3var options = new TextExtractorOptions();
4// 入力ファイルのパスを追加
5options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
6// プロセスを実行
7var results = TextExtractor.Process(options);
8// ResultContainerオブジェクトから抽出されたテキストを取得
9var textExtracted = results.ResultCollection[0].ToString();
テキスト抽出モード
TextExtractorプラグインは、ニーズに応じて柔軟性を提供する3つの抽出モードを提供します。
- ピュアモード: スペースやアラインメントを含む元のフォーマットを保持します。
- 生モード: フォーマットなしでテキストを抽出し、生データ処理に便利です。
- フラットモード: PDFコンテンツをテキストフラグメントの座標によって配置して表現します。
1
2// TextFormattingModeを設定するためにTextExtractorOptionsオブジェクトを作成
3var options = new TextExtractorOptions(TextFormattingMode.Pure);
4// 入力ファイルのパスを追加
5options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
6// プロセスを実行
7var results = TextExtractor.Process(options);
8// ResultContainerオブジェクトから抽出されたテキストを取得
9var textExtracted = results.ResultCollection[0].ToString();
主な機能:
- ピュアモード: 元のフォーマットを保持しながらテキストを抽出します。
- 生モード: フォーマットなしでテキストを抽出します。
- フラットモード: 特殊文字やフォーマットなしでテキストを抽出します。