テキスト抽出

Documentize PDF Extractor for .NET は、PDF ドキュメントからテキストを抽出する作業を簡素化します。純粋なテキスト、ローモードのテキスト、またはプレーンテキストが必要な場合でも、このプラグインは、フォーマットを保持するか除外するかを選択しながら、効率的にテキストを抽出できます。

How to Extract Text from PDF file

PDF ファイルからテキストを抽出するには、次の手順を実行します。

ExtractTextOptions のインスタンスを作成し、入力ファイルパスを設定します。
Extract メソッドを実行してテキストを抽出します。

1// Create ExtractTextOptions object to set input file path
2var options = new ExtractTextOptions("path_to_your_pdf_file.pdf");
3// Perform the process and get the extracted text
4var textExtracted = PdfExtractor.Extract(options);

How to Extract Text from PDF stream

PDF ストリームからテキストを抽出するには、次の手順を実行します。

ExtractTextOptions のインスタンスを作成し、入力ストリームを設定します。
Extract メソッドを実行してテキストを抽出します。

1// Create ExtractTextOptions object to set input stream
2var stream = File.OpenRead("path_to_your_pdf_file.pdf");
3var options = new ExtractTextOptions(stream);
4// Perform the process and get the extracted text
5var textExtracted = PdfExtractor.Extract(options);

Text Extraction Modes

ExtractTextOptions は 3 つの抽出モードを提供し、ニーズに合わせた柔軟な選択が可能です。

Pure Mode: スペースや配置を含む元の書式を保持します。
Raw Mode: 書式なしでテキストを抽出し、ローデータの処理に適しています。
Flatten Mode: PDF コンテンツを座標に基づくテキストフラグメントとして表現します。

1// Create ExtractTextOptions object to set input file path and TextFormattingMode
2var options = new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure);
3// Perform the process and get the extracted text
4var textExtracted = PdfExtractor.Extract(options);

How to Extract Text from PDF file in the shortest possible style

1// Perform the process and get the extracted text
2var textExtracted = PdfExtractor.Extract(new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure));

Key Features:

Pure Mode: 元の書式を保持したままテキストを抽出します。
Raw Mode: 書式なしでテキストを抽出します。
Flatten Mode: 特殊文字や書式を除外してテキストを抽出します。