PDF Extractor

Extract Text

Documentizeの.NETツールを使用してPDFから正確にテキストを抽出します。コンテンツを簡単に取得、処理、分析します。

Extract Images

Effortlessly extract images from PDF documents from within .NET applications

Export Form Data

PDFフォーム(AcroForms)からC# .NETを使用してCSVなどの他の形式にデータを抽出してエクスポートします

PDF Extractorのサブセクション

Extract Text

Documentize PDF Extractor for .NETは、PDF文書からテキストを抽出することを簡素化します。純粋なテキスト、生のテキスト、またはプレーンテキストが必要な場合でも、このプラグインを使用すると、フォーマットを保持したり、ニーズに応じて省略したりしながら、効率的にテキストを抽出できます。

PDFからテキストを抽出する方法

PDF文書からテキストを抽出するには、次の手順に従います。

  1. 抽出オプションを設定するためにExtractTextOptionsのインスタンスを作成します。
  2. AddInputメソッドを使用して入力PDFファイルを追加します。
  3. ExtractTextメソッドを実行してテキストを抽出します。
  4. ResultContainer.ResultCollectionを使用して抽出したテキストにアクセスします。
1// 指示を設定するためにExtractTextOptionsオブジェクトを作成
2var options = new ExtractTextOptions();
3// 入力ファイルパスを追加
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// プロセスを実行
6var results = PdfExtractor.ExtractText(options);
7// ResultContainerオブジェクトから抽出したテキストを取得
8var textExtracted = results.ResultCollection[0].ToString();

テキスト抽出モード

ExtractTextOptionsは、ニーズに応じて柔軟性を提供する3つの抽出モードを提供します。

  1. ピュアモード: スペースや整列を含む元のフォーマットを保持します。
  2. 生モード: フォーマットなしでテキストを抽出し、生データ処理に役立ちます。
  3. フラットモード: 座標によってテキストフラグメントを配置し、PDFコンテンツを表現します。
1// TextFormattingModeを設定するためにExtractTextOptionsオブジェクトを作成
2var options = new ExtractTextOptions(TextFormattingMode.Pure);
3// 入力ファイルパスを追加
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// プロセスを実行
6var results = PdfExtractor.ExtractText(options);
7// ResultContainerオブジェクトから抽出したテキストを取得
8var textExtracted = results.ResultCollection[0].ToString();

主な機能:

  • ピュアモード: 元のフォーマットを保持しながらテキストを抽出します。
  • 生モード: フォーマットなしでテキストを抽出します。
  • フラットモード: 特殊文字やフォーマットなしでテキストを抽出します。

Extract Images

Documentize PDF Extractor for .NET プラグインを使用することで、PDF ドキュメントから画像を簡単に抽出できます。PDF ファイルをスキャンし、埋め込まれた画像を特定して、それらの元の品質とフォーマットを維持しつつ抽出します。このツールは視覚コンテンツのアクセシビリティを向上させ、PDF から画像を取得するプロセスを効率化します。

PDF から画像を抽出する方法

PDF ファイルから画像を抽出するには、以下の手順に従ってください。

  1. ExtractImagesOptions クラスのインスタンスを作成します。
  2. AddInput メソッドを使用してオプションに入力ファイルパスを追加します。
  3. AddOutput メソッドを使用して画像の出力ディレクトリパスを設定します。
  4. プラグインを使用して画像抽出を処理します。
  5. 結果コンテナから抽出した画像を取得します。
 1// Create ExtractImagesOptions to set instructions
 2var options = new ExtractImagesOptions();
 3// Add input file path
 4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
 5// Set output Directory path
 6options.AddOutput(new DirectoryDataSource("path_to_results_directory"));
 7// Perform the process
 8var results = PdfExtractor.ExtractImages(options);
 9// Get path to image result
10var imageExtracted = results.ResultCollection[0].ToFile();

フォルダーなしで PDF ファイルからストリームに画像を抽出する

PdfExtractor プラグインはストリームへの保存をサポートしており、一時フォルダーを使用せずに PDF ファイルからストリームに画像を抽出することができます。

 1// Create ExtractImagesOptions to set instructions
 2var options = new ExtractImagesOptions();
 3// Add input file path
 4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
 5// Not set output - it will write results to streams
 6// Perform the process
 7var results = PdfExtractor.ExtractImages(options);
 8// Get Stream
 9var ms = results.ResultCollection[0].ToStream();
10// Copy data to file for demo
11ms.Seek(0, SeekOrigin.Begin);
12using (var fs = File.Create("test_file.png"))
13{
14    ms.CopyTo(fs);
15}

主な機能:

  • 埋め込まれた画像の抽出: PDF ドキュメントから画像を特定して抽出します。
  • 画像品質の保持: 抽出した画像が元の品質を保持することを保証します。
  • 柔軟な出力: お好みのフォーマットや場所に抽出した画像を保存します。

Export Form Data

Documentize PDF Extractor for .NETプラグインは、PDFフォーム(AcroForms)からCSVのような他の形式にデータを抽出してエクスポートするシームレスな方法を提供します。この動的ツールは、フォームフィールドの値を取得するプロセスを簡素化し、データ管理、転送、および分析を容易にします。

PDFからフォームデータをエクスポートする方法

PDFからCSVにフォームデータをエクスポートするには、次の手順に従います。

  1. ExtractImagesOptionsクラスのインスタンスを作成します。
  2. FormExporterValuesToCsvOptionsクラスを使用してエクスポートオプションを定義します。
  3. 入力PDFファイルを追加し、出力CSVファイルを指定します。
  4. エクスポートを行うためにProcessメソッドを実行します。
1// Create ExtractFormDataToDsvOptions object to set instructions
2var options = new ExtractFormDataToDsvOptions(',', true);
3// Add input file path
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Set output file path
6options.AddOutput(new FileDataSource("path_to_result_csv_file.csv"));
7// Perform the process
8PdfExtractor.ExtractFormData(options);

主な機能:

  • フォームデータのエクスポート: PDFフォーム(AcroForms)からCSVや他の形式にデータを抽出します。
  • データフィルタリング: 条件に基づいて特定のフォームフィールドをエクスポートするために述語を使用します(フィールドタイプやページ番号など)。
  • 柔軟な出力: 分析のためにエクスポートしたデータを保存したり、スプレッドシート、データベース、または他の文書形式に転送したりします。
 日本語