PDF抽出ツール

テキスト抽出

Documentize の .NET ツールを使用して PDF からテキストを正確に抽出し、コンテンツを簡単に取得、処理、分析できます。

画像の抽出

.NET アプリケーションから PDF ドキュメントの画像を手軽に抽出

プロパティ/メタデータの抽出

C#/.NET を使用して Documentize で PDF からメタデータを正確に抽出

フォームデータのエクスポート

PDF フォーム(AcroForms)からデータを抽出し、C#/.NET を使用して CSV などの他の形式にエクスポートします

PDF抽出ツールのサブセクション

テキスト抽出

The Documentize PDF Extractor for .NET は PDF ドキュメントからテキストを抽出する作業を簡素化します。純粋なテキスト、ローデータテキスト、プレーンテキストが必要な場合でも、このプラグインはフォーマットを保持したまま、または必要に応じてフォーマットを除外して効率的にテキストを抽出できます。

How to Extract Text from PDF

PDF ドキュメントからテキストを抽出するには、次の手順に従ってください。

  1. 抽出オプションを設定するために ExtractTextOptions のインスタンスを作成します。
  2. AddInput メソッドで入力 PDF ファイルを追加します。
  3. Extract メソッドを実行してテキストを抽出します。
  4. ResultContainer.ResultCollection から抽出されたテキストにアクセスします。
1// Create ExtractTextOptions object to set instructions
2var options = new ExtractTextOptions();
3// Add input file path
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Perform the process
6var results = PdfExtractor.Extract(options);
7// Get the extracted text from the ResultContainer object
8var textExtracted = results.ResultCollection[0].ToString();

Text Extraction Modes

ExtractTextOptions は 3 つの抽出モードを提供し、ニーズに合わせた柔軟性を実現します。

  1. Pure Mode: スペースや配置を含む元のフォーマットを保持します。
  2. Raw Mode: フォーマットを除外したテキストを抽出し、ローデータ処理に適しています。
  3. Flatten Mode: PDF の内容を座標に基づくテキストフラグメントとして表現します。
1// Create ExtractTextOptions object to set TextFormattingMode
2var options = new ExtractTextOptions(TextFormattingMode.Pure);
3// Add input file path
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Perform the process
6var results = PdfExtractor.Extract(options);
7// Get the extracted text from the ResultContainer object
8var textExtracted = results.ResultCollection[0].ToString();

Key Features:

  • Pure Mode: 元のフォーマットを保持したままテキストを抽出します。
  • Raw Mode: すべてのフォーマットを除外してテキストを抽出します。
  • Flatten Mode: 特殊文字やフォーマットを除外したテキストを抽出します。

画像の抽出

Documentize PDF Extractor for .NET プラグインは、PDF ドキュメントから画像を簡単に抽出できるようにします。PDF ファイルをスキャンし、埋め込まれた画像を特定し、元の品質と形式を保ったまま抽出します。このツールは視覚コンテンツのアクセシビリティを向上させ、PDF から画像を取得するプロセスを効率化します。

PDF から画像を抽出する方法

PDF ファイルから画像を抽出するには、以下の手順を実行します。

  1. ExtractImagesOptions クラスのインスタンスを作成します。
  2. AddInput メソッドで入力ファイルパスをオプションに追加します。
  3. AddOutput メソッドで画像の出力ディレクトリパスを設定します。
  4. プラグインで画像抽出処理を実行します。
  5. 結果コンテナから抽出された画像を取得します。
 1// Create ExtractImagesOptions to set instructions
 2var options = new ExtractImagesOptions();
 3// Add input file path
 4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
 5// Set output Directory path
 6options.AddOutput(new DirectoryDataSource("path_to_results_directory"));
 7// Perform the process
 8var results = PdfExtractor.Extract(options);
 9// Get path to image result
10var imageExtracted = results.ResultCollection[0].ToFile();

フォルダを使用せずにストリームへ画像を抽出する方法

PdfExtractor プラグインはストリームへの保存をサポートしており、テンポラリフォルダを使用せずに PDF ファイルから画像をストリームに抽出できます。

 1// Create ExtractImagesOptions to set instructions
 2var options = new ExtractImagesOptions();
 3// Add input file path
 4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
 5// Not set output - it will write results to streams
 6// Perform the process
 7var results = PdfExtractor.Extract(options);
 8// Get Stream
 9var ms = results.ResultCollection[0].ToStream();
10// Copy data to file for demo
11ms.Seek(0, SeekOrigin.Begin);
12using (var fs = File.Create("test_file.png"))
13{
14    ms.CopyTo(fs);
15}

主な機能

  • 埋め込み画像の抽出: PDF ドキュメントから画像を特定して抽出します。
  • 画像品質の保持: 抽出された画像は元の品質を維持します。
  • 柔軟な出力: 抽出した画像を好みの形式や場所に保存できます。

プロパティ/メタデータの抽出

Documentize PDF Extractor for .NET は、PDF ドキュメントからメタデータを抽出する作業を簡素化します。 利用可能なプロパティは次のとおりです:タイトル、著者、サブジェクト、キーワード、ページ数。

PDF ファイルからメタデータを抽出する方法

この例では、PDF ファイルからプロパティ(タイトル、著者、サブジェクト、キーワード、ページ数)を抽出する方法を示します。
PDF ドキュメントからメタデータを抽出する手順は次の通りです。

  1. ExtractPropertiesOptions のインスタンスを作成し、抽出オプションと入力 PDF ファイルを設定します。
  2. PdfExtractorExtract メソッドを実行してメタデータを抽出します。
  3. PdfProperties を使用して抽出したプロパティにアクセスします。
1// Create ExtractPropertiesOptions object to set input file
2var options = new ExtractPropertiesOptions("path_to_your_pdf_file.pdf");
3// Perform the process and get Properties
4var pdfProperties = PdfExtractor.Extract(options);
5var title = pdfProperties.Title;
6var author = pdfProperties.Author;
7var subject = pdfProperties.Subject;
8var keywords = pdfProperties.Keywords;
9var numberOfPages = pdfProperties.NumberOfPages;

PDF ストリームからメタデータを抽出する方法

ストリームは任意のタイミングで開くことができます。

 1// Create ExtractPropertiesOptions object to set input stream
 2var stream = File.OpenRead("path_to_your_pdf_file.pdf");
 3var options = new ExtractPropertiesOptions(stream);
 4// Perform the process and get Properties
 5var pdfProperties = PdfExtractor.Extract(options);
 6var title = pdfProperties.Title;
 7var author = pdfProperties.Author;
 8var subject = pdfProperties.Subject;
 9var keywords = pdfProperties.Keywords;
10var numberOfPages = pdfProperties.NumberOfPages;

PDF ファイルから最短スタイルでメタデータを抽出する方法

1// Perform the process and get Properties
2var pdfProperties = PdfExtractor.Extract(new ExtractPropertiesOptions("path_to_your_pdf_file.pdf"));

主な機能:

  • 利用可能なメタデータ: タイトル、著者、サブジェクト、キーワード、ページ数。

フォームデータのエクスポート

The Documentize PDF Extractor for .NET plugin provides a seamless way to extract and export data from PDF forms (AcroForms) into other formats like CSV. This dynamic tool simplifies the process of retrieving form field values, allowing for easy data management, transfer, and analysis.

How to Export Form Data from PDF

To export form data from a PDF to CSV, follow these steps:

  1. Create an instance of the ExtractImagesOptions class.
  2. Define export options using the FormExporterValuesToCsvOptions class.
  3. Add input PDF files and specify the output CSV file.
  4. Run the Extract method to perform the export.
1// Create ExtractFormDataToDsvOptions object to set instructions
2var options = new ExtractFormDataToDsvOptions(',', true);
3// Add input file path
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Set output file path
6options.AddOutput(new FileDataSource("path_to_result_csv_file.csv"));
7// Perform the process
8PdfExtractor.Extract(options);

Key Features:

  • Export Form Data: Extract data from PDF forms (AcroForms) into CSV or other formats.
  • Data Filtering: Use predicates to filter specific form fields for export based on criteria like field type or page number.
  • Flexible Output: Save exported data for analysis or transfer to spreadsheets, databases, or other document formats.
 日本語