PDF to HTML Converter
Documentize PDF to HTML Converter for .NET 是一个动态工具,简化了 PDF 文档转换为 HTML 格式的过程。这个插件不仅仅是为了简单的文件格式转换,还是为了增强可访问性,使文档更加用户友好,并适应网络环境。
如何将 PDF 转换为 HTML
要将 PDF 文档转换为 HTML,请按照以下步骤操作:
- 创建
PdfHtml
类的实例。 - 创建
PdfToHtmlOptions
类的实例以配置转换选项。 - 使用
AddInput
方法添加输入的 PDF 文件。 - 使用
AddOutput
方法添加输出的 HTML 文件路径。 - 调用
Process
方法将 PDF 转换为 HTML。
1var pdfHtml = new PdfHtml();
2var options = new PdfToHtmlOptions(PdfToHtmlOptions.SaveDataType.FileWithEmbeddedResources);
3
4// 设置输入和输出文件路径
5options.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
6options.AddOutput(new FileDataSource(@"C:\Samples\output.html"));
7
8// 处理 PDF 到 HTML 的转换
9pdfHtml.Process(options);
如何将 HTML 转换为 PDF
PDF to HTML Converter 还支持将 HTML 文件转换回 PDF 格式,允许进行双向完全转换。
1var pdfHtml = new PdfHtml();
2var options = new HtmlToPdfOptions();
3
4// 设置输入和输出文件路径
5options.AddInput(new FileDataSource(@"C:\Samples\input.html"));
6options.AddOutput(new FileDataSource(@"C:\Samples\output.pdf"));
7
8// 处理 HTML 到 PDF 的转换
9pdfHtml.Process(options);
自定义 PDF 到 HTML 的转换
您可以通过指定编码、字体或其他设置来定制转换过程。以下是设置 UTF-8 编码和 Arial 字体的转换示例:
1var pdfHtml = new PdfHtml();
2var options = new PdfToHtmlOptions(PdfToHtmlOptions.SaveDataType.FileWithEmbeddedResources);
3
4// 设置编码和字体
5options.Encoding = Encoding.UTF8;
6options.Font = "Arial";
7
8// 添加输入和输出文件
9options.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
10options.AddOutput(new FileDataSource(@"C:\Samples\output.html"));
11
12// 处理转换
13pdfHtml.Process(options);
批量从 PDF 转换为 HTML
这个插件还支持批处理,使您能够一次将多个 PDF 转换为 HTML 文件。
1var pdfHtml = new PdfHtml();
2var options = new PdfToHtmlOptions(PdfToHtmlOptions.SaveDataType.FileWithEmbeddedResources);
3
4// 添加多个输入 PDF 文件
5options.AddInput(new FileDataSource(@"C:\Samples\file1.pdf"));
6options.AddInput(new FileDataSource(@"C:\Samples\file2.pdf"));
7
8// 为每个转换设置输出文件路径
9options.AddOutput(new FileDataSource(@"C:\Samples\output_file1.html"));
10options.AddOutput(new FileDataSource(@"C:\Samples\output_file2.html"));
11
12// 处理批量转换
13pdfHtml.Process(options);
主要特性:
- 将 PDF 转换为 HTML:无缝地将 PDF 文档转换为功能齐全的 HTML 文件。
- 嵌入资源:选择是否将资源(如图像和字体)直接嵌入 HTML 中或外部链接它们。
- 双向转换:支持 PDF 转换为 HTML 及反向转换。
- 保持布局:确保在转换过程中保留原始的布局和格式。
- 自定义编码:指定编码格式,如 UTF-8,以在转换后的 HTML 中精确呈现文本。