テキスト抽出

Documentize PDF Extractor for .NET は、PDF ドキュメントからテキストを抽出する作業を簡素化します。純粋なテキスト、ローモードのテキスト、またはプレーンテキストが必要な場合でも、このプラグインは、フォーマットを保持するか除外するかを選択しながら、効率的にテキストを抽出できます。

How to Extract Text from PDF file

PDF ファイルからテキストを抽出するには、次の手順を実行します。

  1. ExtractTextOptions のインスタンスを作成し、入力ファイル パスを設定します。
  2. Extract メソッドを実行してテキストを抽出します。
1// Create ExtractTextOptions object to set input file path
2var options = new ExtractTextOptions("path_to_your_pdf_file.pdf");
3// Perform the process and get the extracted text
4var textExtracted = PdfExtractor.Extract(options);

How to Extract Text from PDF stream

PDF ストリームからテキストを抽出するには、次の手順を実行します。

  1. ExtractTextOptions のインスタンスを作成し、入力ストリームを設定します。
  2. Extract メソッドを実行してテキストを抽出します。
1// Create ExtractTextOptions object to set input stream
2var stream = File.OpenRead("path_to_your_pdf_file.pdf");
3var options = new ExtractTextOptions(stream);
4// Perform the process and get the extracted text
5var textExtracted = PdfExtractor.Extract(options);

Text Extraction Modes

ExtractTextOptions は 3 つの抽出モードを提供し、ニーズに合わせた柔軟な選択が可能です。

  1. Pure Mode: スペースや配置を含む元の書式を保持します。
  2. Raw Mode: 書式なしでテキストを抽出し、ローデータの処理に適しています。
  3. Flatten Mode: PDF コンテンツを座標に基づくテキスト フラグメントとして表現します。
1// Create ExtractTextOptions object to set input file path and TextFormattingMode
2var options = new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure);
3// Perform the process and get the extracted text
4var textExtracted = PdfExtractor.Extract(options);

How to Extract Text from PDF file in the shortest possible style

1// Perform the process and get the extracted text
2var textExtracted = PdfExtractor.Extract(new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure));

Key Features:

  • Pure Mode: 元の書式を保持したままテキストを抽出します。
  • Raw Mode: 書式なしでテキストを抽出します。
  • Flatten Mode: 特殊文字や書式を除外してテキストを抽出します。
 日本語