PDF Extractor
Extract Text
使用 Documentize 的 .NET 工具准确提取 PDF 中的文本——轻松检索、处理和分析内容。
Extract Images
轻松从 .NET 应用程序中提取 PDF 文档中的图像
Export Form Data
从 PDF 表单 (AcroForms) 中提取和导出数据到其他格式,如 CSV,使用 C# .NET
使用 Documentize 的 .NET 工具准确提取 PDF 中的文本——轻松检索、处理和分析内容。
轻松从 .NET 应用程序中提取 PDF 文档中的图像
从 PDF 表单 (AcroForms) 中提取和导出数据到其他格式,如 CSV,使用 C# .NET
Documentize PDF Extractor for .NET 使从 PDF 文档中提取文本变得简单。无论您需要纯文本、原始文本还是简洁文本,此插件都允许您高效地提取文本,同时根据您的需求保留格式或省略格式。
要从 PDF 文档中提取文本,请按照以下步骤操作:
ExtractTextOptions
的实例以配置提取选项。AddInput
方法添加输入 PDF 文件。ExtractText
方法以提取文本。ResultContainer.ResultCollection
访问提取的文本。1// 创建 ExtractTextOptions 对象以设置指令
2var options = new ExtractTextOptions();
3// 添加输入文件路径
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// 执行处理
6var results = PdfExtractor.ExtractText(options);
7// 从 ResultContainer 对象中获取提取的文本
8var textExtracted = results.ResultCollection[0].ToString();
ExtractTextOptions 提供三种提取模式,根据您的需求提供灵活性。
1// 创建 ExtractTextOptions 对象以设置 TextFormattingMode
2var options = new ExtractTextOptions(TextFormattingMode.Pure);
3// 添加输入文件路径
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// 执行处理
6var results = PdfExtractor.ExtractText(options);
7// 从 ResultContainer 对象中获取提取的文本
8var textExtracted = results.ResultCollection[0].ToString();
Documentize PDF Extractor for .NET 插件使您能够轻松地从 PDF 文档中提取图像。它扫描您的 PDF 文件,识别嵌入的图像,并在保持其原始质量和格式的同时提取这些图像。该工具增强了视觉内容的可访问性,并简化了从 PDF 中检索图像的过程。
要从 PDF 文件中提取图像,请按照以下步骤操作:
ExtractImagesOptions
类的实例。AddInput
方法将输入文件路径添加到选项中。AddOutput
方法设置图像的输出目录路径。 1// 创建 ExtractImagesOptions 以设置指令
2var options = new ExtractImagesOptions();
3// 添加输入文件路径
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// 设置输出目录路径
6options.AddOutput(new DirectoryDataSource("path_to_results_directory"));
7// 执行该过程
8var results = PdfExtractor.ExtractImages(options);
9// 获取图像结果路径
10var imageExtracted = results.ResultCollection[0].ToFile();
PdfExtractor 插件支持保存到流,这使您能够从 PDF 文件中提取图像到流,而不使用临时文件夹。
1// 创建 ExtractImagesOptions 以设置指令
2var options = new ExtractImagesOptions();
3// 添加输入文件路径
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// 不设置输出 - 它将结果写入流
6// 执行该过程
7var results = PdfExtractor.ExtractImages(options);
8// 获取流
9var ms = results.ResultCollection[0].ToStream();
10// 为演示复制数据到文件
11ms.Seek(0, SeekOrigin.Begin);
12using (var fs = File.Create("test_file.png"))
13{
14 ms.CopyTo(fs);
15}
Documentize PDF Extractor for .NET 插件提供了一种无缝的方式来从 PDF 表单 (AcroForms) 中提取和导出数据到其他格式,如 CSV。这个动态工具简化了检索表单字段值的过程,便于数据管理、传输和分析。
要将表单数据从 PDF 导出到 CSV,请按照以下步骤操作:
ExtractImagesOptions
类的实例。FormExporterValuesToCsvOptions
类定义导出选项。Process
方法以执行导出。1// 创建 ExtractFormDataToDsvOptions 对象以设置指令
2var options = new ExtractFormDataToDsvOptions(',', true);
3// 添加输入文件路径
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// 设置输出文件路径
6options.AddOutput(new FileDataSource("path_to_result_csv_file.csv"));
7// 执行处理
8PdfExtractor.ExtractFormData(options);