PDF to HTML Converter

Documentize PDF to HTML Converter for .NET 是一个动态工具,简化了 PDF 文档转换为 HTML 格式的过程。这个插件不仅仅是为了简单的文件格式转换,还是为了增强可访问性,使文档更加用户友好,并适应网络环境。

如何将 PDF 转换为 HTML

要将 PDF 文档转换为 HTML,请按照以下步骤操作:

  1. 创建 PdfHtml 类的实例。
  2. 创建 PdfToHtmlOptions 类的实例以配置转换选项。
  3. 使用 AddInput 方法添加输入的 PDF 文件。
  4. 使用 AddOutput 方法添加输出的 HTML 文件路径。
  5. 调用 Process 方法将 PDF 转换为 HTML。
1var pdfHtml = new PdfHtml();
2var options = new PdfToHtmlOptions(PdfToHtmlOptions.SaveDataType.FileWithEmbeddedResources);
3
4// 设置输入和输出文件路径
5options.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
6options.AddOutput(new FileDataSource(@"C:\Samples\output.html"));
7
8// 处理 PDF 到 HTML 的转换
9pdfHtml.Process(options);

如何将 HTML 转换为 PDF

PDF to HTML Converter 还支持将 HTML 文件转换回 PDF 格式,允许进行双向完全转换。

1var pdfHtml = new PdfHtml();
2var options = new HtmlToPdfOptions();
3
4// 设置输入和输出文件路径
5options.AddInput(new FileDataSource(@"C:\Samples\input.html"));
6options.AddOutput(new FileDataSource(@"C:\Samples\output.pdf"));
7
8// 处理 HTML 到 PDF 的转换
9pdfHtml.Process(options);

自定义 PDF 到 HTML 的转换

您可以通过指定编码、字体或其他设置来定制转换过程。以下是设置 UTF-8 编码和 Arial 字体的转换示例:

 1var pdfHtml = new PdfHtml();
 2var options = new PdfToHtmlOptions(PdfToHtmlOptions.SaveDataType.FileWithEmbeddedResources);
 3
 4// 设置编码和字体
 5options.Encoding = Encoding.UTF8;
 6options.Font = "Arial";
 7
 8// 添加输入和输出文件
 9options.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
10options.AddOutput(new FileDataSource(@"C:\Samples\output.html"));
11
12// 处理转换
13pdfHtml.Process(options);

批量从 PDF 转换为 HTML

这个插件还支持批处理,使您能够一次将多个 PDF 转换为 HTML 文件。

 1var pdfHtml = new PdfHtml();
 2var options = new PdfToHtmlOptions(PdfToHtmlOptions.SaveDataType.FileWithEmbeddedResources);
 3
 4// 添加多个输入 PDF 文件
 5options.AddInput(new FileDataSource(@"C:\Samples\file1.pdf"));
 6options.AddInput(new FileDataSource(@"C:\Samples\file2.pdf"));
 7
 8// 为每个转换设置输出文件路径
 9options.AddOutput(new FileDataSource(@"C:\Samples\output_file1.html"));
10options.AddOutput(new FileDataSource(@"C:\Samples\output_file2.html"));
11
12// 处理批量转换
13pdfHtml.Process(options);

主要特性:

  • 将 PDF 转换为 HTML:无缝地将 PDF 文档转换为功能齐全的 HTML 文件。
  • 嵌入资源:选择是否将资源(如图像和字体)直接嵌入 HTML 中或外部链接它们。
  • 双向转换:支持 PDF 转换为 HTML 及反向转换。
  • 保持布局:确保在转换过程中保留原始的布局和格式。
  • 自定义编码:指定编码格式,如 UTF-8,以在转换后的 HTML 中精确呈现文本。
 中文