PDF抽出ツール

テキスト抽出

Documentize の .NET ツールを使用して PDF ドキュメントからテキストを正確に抽出し、コンテンツを簡単に取得、処理、分析できます。

画像を抽出

.NET アプリケーション内から PDF ドキュメントの画像を簡単に抽出します

プロパティの抽出 / メタデータ

Documentize を使用して C#/.NET で PDF からメタデータを正確に抽出

フォームデータのエクスポート

C#/.NET を使用して、PDF フォーム（AcroForms）から CSV などの他の形式へデータを抽出・エクスポートします

テキスト抽出

Documentize PDF Extractor for .NET は、PDF ドキュメントからテキストを抽出する作業を簡素化します。純粋なテキスト、ローモードのテキスト、またはプレーンテキストが必要な場合でも、このプラグインは、フォーマットを保持するか除外するかを選択しながら、効率的にテキストを抽出できます。

How to Extract Text from PDF file

PDF ファイルからテキストを抽出するには、次の手順を実行します。

ExtractTextOptions のインスタンスを作成し、入力ファイルパスを設定します。
Extract メソッドを実行してテキストを抽出します。

1// Create ExtractTextOptions object to set input file path
2var options = new ExtractTextOptions("path_to_your_pdf_file.pdf");
3// Perform the process and get the extracted text
4var textExtracted = PdfExtractor.Extract(options);

How to Extract Text from PDF stream

PDF ストリームからテキストを抽出するには、次の手順を実行します。

ExtractTextOptions のインスタンスを作成し、入力ストリームを設定します。
Extract メソッドを実行してテキストを抽出します。

1// Create ExtractTextOptions object to set input stream
2var stream = File.OpenRead("path_to_your_pdf_file.pdf");
3var options = new ExtractTextOptions(stream);
4// Perform the process and get the extracted text
5var textExtracted = PdfExtractor.Extract(options);

Text Extraction Modes

ExtractTextOptions は 3 つの抽出モードを提供し、ニーズに合わせた柔軟な選択が可能です。

Pure Mode: スペースや配置を含む元の書式を保持します。
Raw Mode: 書式なしでテキストを抽出し、ローデータの処理に適しています。
Flatten Mode: PDF コンテンツを座標に基づくテキストフラグメントとして表現します。

1// Create ExtractTextOptions object to set input file path and TextFormattingMode
2var options = new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure);
3// Perform the process and get the extracted text
4var textExtracted = PdfExtractor.Extract(options);

How to Extract Text from PDF file in the shortest possible style

1// Perform the process and get the extracted text
2var textExtracted = PdfExtractor.Extract(new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure));

Key Features:

Pure Mode: 元の書式を保持したままテキストを抽出します。
Raw Mode: 書式なしでテキストを抽出します。
Flatten Mode: 特殊文字や書式を除外してテキストを抽出します。

画像を抽出

The Documentize PDF Extractor for .NET プラグインを使用すると、PDF ドキュメントから画像を簡単に抽出できます。PDF ファイルをスキャンし、埋め込まれた画像を特定して、元の品質と形式を保ったまま抽出します。このツールはビジュアルコンテンツへのアクセス性を向上させ、PDF から画像を取得するプロセスを効率化します。

PDF から画像を抽出する方法

PDF ファイルから画像を抽出するには、次の手順に従ってください。

ExtractImagesOptions クラスのインスタンスを作成します。
AddInput メソッドを使用して入力ファイルパスをオプションに追加します。
AddOutput メソッドで画像の出力ディレクトリパスを設定します。
プラグインで画像抽出処理を実行します。
結果コンテナから抽出された画像を取得します。

 1// Create ExtractImagesOptions to set instructions
 2var options = new ExtractImagesOptions();
 3// Add input file path
 4options.AddInput(new FileData("path_to_your_pdf_file.pdf"));
 5// Set output Directory path
 6options.AddOutput(new DirectoryData("path_to_results_directory"));
 7// Perform the process
 8var results = PdfExtractor.Extract(options);
 9// Get path to image result
10var imageExtracted = results.ResultCollection[0].ToFile();

フォルダを使用せずにストリームへ画像を抽出する方法

PdfExtractor プラグインはストリームへの保存をサポートしており、テンポラリフォルダを使用せずに PDF ファイルから画像をストリームへ抽出できます。

 1// Create ExtractImagesOptions to set instructions
 2var options = new ExtractImagesOptions();
 3// Add input file path
 4options.AddInput(new FileData("path_to_your_pdf_file.pdf"));
 5// Not set output - it will write results to streams
 6// Perform the process
 7var results = PdfExtractor.Extract(options);
 8// Get Stream
 9var ms = results.ResultCollection[0].ToStream();
10// Copy data to file for demo
11ms.Seek(0, SeekOrigin.Begin);
12using (var fs = File.Create("test_file.png"))
13{
14    ms.CopyTo(fs);
15}

主な機能

埋め込み画像の抽出: PDF ドキュメントから画像を特定し抽出します。
画像品質の維持: 抽出された画像は元の品質を保ちます。
柔軟な出力: 好みの形式や場所に抽出画像を保存できます。

プロパティの抽出 / メタデータ

Documentize PDF Extractor for .NET は、PDF 文書からメタデータを抽出する作業を簡素化します。
利用可能なプロパティの例: FileName、Title、Author、Subject、Keywords、Created、Modified、Application、PDF Producer、Number of Pages。

PDF ファイルからメタデータを抽出する方法

この例では、PDF ファイルからプロパティ (Title、Author、Subject、Keywords、Number of Pages) を抽出する手順を示します。
PDF 文書からメタデータを抽出するには、次の手順を実行します。

ExtractPropertiesOptions のインスタンスを作成し、抽出オプションと入力 PDF ファイルを設定します。
PdfExtractor の Extract メソッドを実行してメタデータを抽出します。
PdfProperties を使用して抽出されたプロパティにアクセスします。

 1// Create ExtractPropertiesOptions object to set input file
 2var options = new ExtractPropertiesOptions("path_to_your_pdf_file.pdf");
 3// Perform the process and get Properties
 4var pdfProperties = PdfExtractor.Extract(options);
 5var filename = pdfProperties.FileName;
 6var title = pdfProperties.Title;
 7var author = pdfProperties.Author;
 8var subject = pdfProperties.Subject;
 9var keywords = pdfProperties.Keywords;
10var created = pdfProperties.Created;
11var modified = pdfProperties.Modified;
12var application = pdfProperties.Application;
13var pdfProducer = pdfProperties.PdfProducer;
14var numberOfPages = pdfProperties.NumberOfPages;

PDF ストリームからメタデータを抽出する方法

ストリームは任意のタイミングで開くことができます。

 1// Create ExtractPropertiesOptions object to set input stream
 2var stream = File.OpenRead("path_to_your_pdf_file.pdf");
 3var options = new ExtractPropertiesOptions(stream);
 4// Perform the process and get Properties
 5var pdfProperties = PdfExtractor.Extract(options);
 6var title = pdfProperties.Title;
 7var author = pdfProperties.Author;
 8var subject = pdfProperties.Subject;
 9var keywords = pdfProperties.Keywords;
10var created = pdfProperties.Created;
11var modified = pdfProperties.Modified;
12var application = pdfProperties.Application;
13var pdfProducer = pdfProperties.PdfProducer;
14var numberOfPages = pdfProperties.NumberOfPages;

最も簡潔なスタイルで PDF ファイルからメタデータを抽出する方法

1// Perform the process and get Properties
2var pdfProperties = PdfExtractor.Extract(new ExtractPropertiesOptions("path_to_your_pdf_file.pdf"));

主な機能:

利用可能なメタデータ: FileName、Title、Author、Subject、Keywords、Created、Modified、Application、PDF Producer、Number of Pages。

フォームデータのエクスポート

Documentize PDF Extractor for .NET プラグインは、PDF フォーム（AcroForms）からデータを抽出し、CSV などの他の形式へシームレスにエクスポートする手段を提供します。このダイナミックなツールは、フォームフィールドの値を取得するプロセスを簡素化し、データ管理・転送・分析を容易にします。

PDF から CSV へフォームデータをエクスポートする方法

PDF から CSV へフォームデータをエクスポートするには、以下の手順に従ってください。

ExtractImagesOptions クラスのインスタンスを作成します。
FormExporterValuesToCsvOptions クラスを使用してエクスポートオプションを定義します。
入力 PDF ファイルを追加し、出力 CSV ファイルを指定します。
Extract メソッドを実行してエクスポートを実行します。

1// Create ExtractFormDataToDsvOptions object to set instructions
2var options = new ExtractFormDataToDsvOptions(',', true);
3// Add input file path
4options.AddInput(new FileData("path_to_your_pdf_file.pdf"));
5// Set output file path
6options.AddOutput(new FileData("path_to_result_csv_file.csv"));
7// Perform the process
8PdfExtractor.Extract(options);

PDF から TSV へフォームデータをエクスポートする方法

区切り文字にタブを使用します。

 1// Create ExtractFormDataToDsvOptions object to set instructions
 2var options = new ExtractFormDataToDsvOptions();
 3//Set Delimiter
 4options.Delimiter = '\t';
 5//Add Field Names to result
 6options.AddFieldName = true;
 7// Add input file path
 8options.AddInput(new FileData("path_to_your_pdf_file.pdf"));
 9// Set output file path
10options.AddOutput(new FileData("path_to_result_csv_file.tsv"));
11// Perform the process
12PdfExtractor.Extract(options);

主な機能

フォームデータのエクスポート: PDF フォーム（AcroForms）から CSV などの形式へデータを抽出します。
データフィルタリング: フィールドタイプやページ番号などの条件に基づき、エクスポート対象のフォームフィールドを述語でフィルタリングできます。
柔軟な出力: エクスポートしたデータをスプレッドシート、データベース、または他の文書形式へ分析・転送できるように保存します。

PDF抽出ツール

テキスト抽出

画像を抽出

プロパティの抽出 / メタデータ

フォームデータのエクスポート

PDF抽出ツールのサブセクション

テキスト抽出

How to Extract Text from PDF file

How to Extract Text from PDF stream

Text Extraction Modes

How to Extract Text from PDF file in the shortest possible style

Key Features:

画像を抽出

PDF から画像を抽出する方法

フォルダを使用せずにストリームへ画像を抽出する方法

主な機能

プロパティの抽出 / メタデータ

PDF ファイルからメタデータを抽出する方法

PDF ストリームからメタデータを抽出する方法

最も簡潔なスタイルで PDF ファイルからメタデータを抽出する方法

主な機能:

フォームデータのエクスポート

PDF から CSV へフォームデータをエクスポートする方法

PDF から TSV へフォームデータをエクスポートする方法

主な機能