PDF抽出ツール

テキスト抽出

Documentize の .NET ツールを使用して PDF ドキュメントからテキストを正確に抽出し、コンテンツを簡単に取得、処理、分析できます。

画像を抽出

.NET アプリケーション内から PDF ドキュメントの画像を簡単に抽出します

プロパティの抽出 / メタデータ

Documentize を使用して C#/.NET で PDF からメタデータを正確に抽出

フォームデータのエクスポート

C#/.NET を使用して、PDF フォーム(AcroForms)から CSV などの他の形式へデータを抽出・エクスポートします

PDF抽出ツールのサブセクション

テキスト抽出

Documentize PDF Extractor for .NET は、PDF ドキュメントからテキストを抽出する作業を簡素化します。純粋なテキスト、ローモードのテキスト、またはプレーンテキストが必要な場合でも、このプラグインは、フォーマットを保持するか除外するかを選択しながら、効率的にテキストを抽出できます。

How to Extract Text from PDF file

PDF ファイルからテキストを抽出するには、次の手順を実行します。

  1. ExtractTextOptions のインスタンスを作成し、入力ファイル パスを設定します。
  2. Extract メソッドを実行してテキストを抽出します。
1// Create ExtractTextOptions object to set input file path
2var options = new ExtractTextOptions("path_to_your_pdf_file.pdf");
3// Perform the process and get the extracted text
4var textExtracted = PdfExtractor.Extract(options);

How to Extract Text from PDF stream

PDF ストリームからテキストを抽出するには、次の手順を実行します。

  1. ExtractTextOptions のインスタンスを作成し、入力ストリームを設定します。
  2. Extract メソッドを実行してテキストを抽出します。
1// Create ExtractTextOptions object to set input stream
2var stream = File.OpenRead("path_to_your_pdf_file.pdf");
3var options = new ExtractTextOptions(stream);
4// Perform the process and get the extracted text
5var textExtracted = PdfExtractor.Extract(options);

Text Extraction Modes

ExtractTextOptions は 3 つの抽出モードを提供し、ニーズに合わせた柔軟な選択が可能です。

  1. Pure Mode: スペースや配置を含む元の書式を保持します。
  2. Raw Mode: 書式なしでテキストを抽出し、ローデータの処理に適しています。
  3. Flatten Mode: PDF コンテンツを座標に基づくテキスト フラグメントとして表現します。
1// Create ExtractTextOptions object to set input file path and TextFormattingMode
2var options = new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure);
3// Perform the process and get the extracted text
4var textExtracted = PdfExtractor.Extract(options);

How to Extract Text from PDF file in the shortest possible style

1// Perform the process and get the extracted text
2var textExtracted = PdfExtractor.Extract(new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure));

Key Features:

  • Pure Mode: 元の書式を保持したままテキストを抽出します。
  • Raw Mode: 書式なしでテキストを抽出します。
  • Flatten Mode: 特殊文字や書式を除外してテキストを抽出します。

画像を抽出

The Documentize PDF Extractor for .NET プラグインを使用すると、PDF ドキュメントから画像を簡単に抽出できます。PDF ファイルをスキャンし、埋め込まれた画像を特定して、元の品質と形式を保ったまま抽出します。このツールはビジュアルコンテンツへのアクセス性を向上させ、PDF から画像を取得するプロセスを効率化します。

PDF から画像を抽出する方法

PDF ファイルから画像を抽出するには、次の手順に従ってください。

  1. ExtractImagesOptions クラスのインスタンスを作成します。
  2. AddInput メソッドを使用して入力ファイルパスをオプションに追加します。
  3. AddOutput メソッドで画像の出力ディレクトリパスを設定します。
  4. プラグインで画像抽出処理を実行します。
  5. 結果コンテナから抽出された画像を取得します。
 1// Create ExtractImagesOptions to set instructions
 2var options = new ExtractImagesOptions();
 3// Add input file path
 4options.AddInput(new FileData("path_to_your_pdf_file.pdf"));
 5// Set output Directory path
 6options.AddOutput(new DirectoryData("path_to_results_directory"));
 7// Perform the process
 8var results = PdfExtractor.Extract(options);
 9// Get path to image result
10var imageExtracted = results.ResultCollection[0].ToFile();

フォルダを使用せずにストリームへ画像を抽出する方法

PdfExtractor プラグインはストリームへの保存をサポートしており、テンポラリフォルダを使用せずに PDF ファイルから画像をストリームへ抽出できます。

 1// Create ExtractImagesOptions to set instructions
 2var options = new ExtractImagesOptions();
 3// Add input file path
 4options.AddInput(new FileData("path_to_your_pdf_file.pdf"));
 5// Not set output - it will write results to streams
 6// Perform the process
 7var results = PdfExtractor.Extract(options);
 8// Get Stream
 9var ms = results.ResultCollection[0].ToStream();
10// Copy data to file for demo
11ms.Seek(0, SeekOrigin.Begin);
12using (var fs = File.Create("test_file.png"))
13{
14    ms.CopyTo(fs);
15}

主な機能

  • 埋め込み画像の抽出: PDF ドキュメントから画像を特定し抽出します。
  • 画像品質の維持: 抽出された画像は元の品質を保ちます。
  • 柔軟な出力: 好みの形式や場所に抽出画像を保存できます。

プロパティの抽出 / メタデータ

Documentize PDF Extractor for .NET は、PDF 文書からメタデータを抽出する作業を簡素化します。
利用可能なプロパティの例: FileName、Title、Author、Subject、Keywords、Created、Modified、Application、PDF Producer、Number of Pages。

PDF ファイルからメタデータを抽出する方法

この例では、PDF ファイルからプロパティ (Title、Author、Subject、Keywords、Number of Pages) を抽出する手順を示します。
PDF 文書からメタデータを抽出するには、次の手順を実行します。

  1. ExtractPropertiesOptions のインスタンスを作成し、抽出オプションと入力 PDF ファイルを設定します。
  2. PdfExtractorExtract メソッドを実行してメタデータを抽出します。
  3. PdfProperties を使用して抽出されたプロパティにアクセスします。
 1// Create ExtractPropertiesOptions object to set input file
 2var options = new ExtractPropertiesOptions("path_to_your_pdf_file.pdf");
 3// Perform the process and get Properties
 4var pdfProperties = PdfExtractor.Extract(options);
 5var filename = pdfProperties.FileName;
 6var title = pdfProperties.Title;
 7var author = pdfProperties.Author;
 8var subject = pdfProperties.Subject;
 9var keywords = pdfProperties.Keywords;
10var created = pdfProperties.Created;
11var modified = pdfProperties.Modified;
12var application = pdfProperties.Application;
13var pdfProducer = pdfProperties.PdfProducer;
14var numberOfPages = pdfProperties.NumberOfPages;

PDF ストリームからメタデータを抽出する方法

ストリームは任意のタイミングで開くことができます。

 1// Create ExtractPropertiesOptions object to set input stream
 2var stream = File.OpenRead("path_to_your_pdf_file.pdf");
 3var options = new ExtractPropertiesOptions(stream);
 4// Perform the process and get Properties
 5var pdfProperties = PdfExtractor.Extract(options);
 6var title = pdfProperties.Title;
 7var author = pdfProperties.Author;
 8var subject = pdfProperties.Subject;
 9var keywords = pdfProperties.Keywords;
10var created = pdfProperties.Created;
11var modified = pdfProperties.Modified;
12var application = pdfProperties.Application;
13var pdfProducer = pdfProperties.PdfProducer;
14var numberOfPages = pdfProperties.NumberOfPages;

最も簡潔なスタイルで PDF ファイルからメタデータを抽出する方法

1// Perform the process and get Properties
2var pdfProperties = PdfExtractor.Extract(new ExtractPropertiesOptions("path_to_your_pdf_file.pdf"));

主な機能:

  • 利用可能なメタデータ: FileName、Title、Author、Subject、Keywords、Created、Modified、Application、PDF Producer、Number of Pages。

フォームデータのエクスポート

Documentize PDF Extractor for .NET プラグインは、PDF フォーム(AcroForms)からデータを抽出し、CSV などの他の形式へシームレスにエクスポートする手段を提供します。このダイナミックなツールは、フォームフィールドの値を取得するプロセスを簡素化し、データ管理・転送・分析を容易にします。

PDF から CSV へフォームデータをエクスポートする方法

PDF から CSV へフォームデータをエクスポートするには、以下の手順に従ってください。

  1. ExtractImagesOptions クラスのインスタンスを作成します。
  2. FormExporterValuesToCsvOptions クラスを使用してエクスポートオプションを定義します。
  3. 入力 PDF ファイルを追加し、出力 CSV ファイルを指定します。
  4. Extract メソッドを実行してエクスポートを実行します。
1// Create ExtractFormDataToDsvOptions object to set instructions
2var options = new ExtractFormDataToDsvOptions(',', true);
3// Add input file path
4options.AddInput(new FileData("path_to_your_pdf_file.pdf"));
5// Set output file path
6options.AddOutput(new FileData("path_to_result_csv_file.csv"));
7// Perform the process
8PdfExtractor.Extract(options);

PDF から TSV へフォームデータをエクスポートする方法

区切り文字にタブを使用します。

 1// Create ExtractFormDataToDsvOptions object to set instructions
 2var options = new ExtractFormDataToDsvOptions();
 3//Set Delimiter
 4options.Delimiter = '\t';
 5//Add Field Names to result
 6options.AddFieldName = true;
 7// Add input file path
 8options.AddInput(new FileData("path_to_your_pdf_file.pdf"));
 9// Set output file path
10options.AddOutput(new FileData("path_to_result_csv_file.tsv"));
11// Perform the process
12PdfExtractor.Extract(options);

主な機能

  • フォームデータのエクスポート: PDF フォーム(AcroForms)から CSV などの形式へデータを抽出します。
  • データフィルタリング: フィールドタイプやページ番号などの条件に基づき、エクスポート対象のフォームフィールドを述語でフィルタリングできます。
  • 柔軟な出力: エクスポートしたデータをスプレッドシート、データベース、または他の文書形式へ分析・転送できるように保存します。
 日本語