テキスト抽出
Documentize PDF Extractor for .NET は、PDF ドキュメントからテキストを抽出する作業を簡素化します。純粋なテキスト、ローモードのテキスト、またはプレーンテキストが必要な場合でも、このプラグインは、フォーマットを保持するか除外するかを選択しながら、効率的にテキストを抽出できます。
How to Extract Text from PDF file
PDF ファイルからテキストを抽出するには、次の手順を実行します。
ExtractTextOptionsのインスタンスを作成し、入力ファイル パスを設定します。Extractメソッドを実行してテキストを抽出します。
1// Create ExtractTextOptions object to set input file path
2var options = new ExtractTextOptions("path_to_your_pdf_file.pdf");
3// Perform the process and get the extracted text
4var textExtracted = PdfExtractor.Extract(options);How to Extract Text from PDF stream
PDF ストリームからテキストを抽出するには、次の手順を実行します。
ExtractTextOptionsのインスタンスを作成し、入力ストリームを設定します。Extractメソッドを実行してテキストを抽出します。
1// Create ExtractTextOptions object to set input stream
2var stream = File.OpenRead("path_to_your_pdf_file.pdf");
3var options = new ExtractTextOptions(stream);
4// Perform the process and get the extracted text
5var textExtracted = PdfExtractor.Extract(options);Text Extraction Modes
ExtractTextOptions は 3 つの抽出モードを提供し、ニーズに合わせた柔軟な選択が可能です。
- Pure Mode: スペースや配置を含む元の書式を保持します。
- Raw Mode: 書式なしでテキストを抽出し、ローデータの処理に適しています。
- Flatten Mode: PDF コンテンツを座標に基づくテキスト フラグメントとして表現します。
1// Create ExtractTextOptions object to set input file path and TextFormattingMode
2var options = new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure);
3// Perform the process and get the extracted text
4var textExtracted = PdfExtractor.Extract(options);How to Extract Text from PDF file in the shortest possible style
1// Perform the process and get the extracted text
2var textExtracted = PdfExtractor.Extract(new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure));Key Features:
- Pure Mode: 元の書式を保持したままテキストを抽出します。
- Raw Mode: 書式なしでテキストを抽出します。
- Flatten Mode: 特殊文字や書式を除外してテキストを抽出します。