PDF Extractor

Extract Text

Trích xuất văn bản từ PDF một cách chính xác với công cụ .NET của Documentize—thu hồi, xử lý và phân tích nội dung một cách dễ dàng.

Extract Images

Một cách dễ dàng để trích xuất hình ảnh từ tài liệu PDF trong các ứng dụng .NET

Export Form Data

Trích xuất và xuất dữ liệu từ các biểu mẫu PDF (AcroForms) sang các định dạng khác như CSV bằng cách sử dụng C# .NET

Tiểu mục của PDF Extractor

Extract Text

Trình trích xuất PDF Documentize cho .NET đơn giản hóa việc trích xuất văn bản từ tài liệu PDF. Dù bạn cần văn bản thuần túy, thô hay văn bản đơn giản, plugin này cho phép bạn trích xuất văn bản hiệu quả trong khi bảo tồn định dạng hoặc bỏ qua nó tùy theo nhu cầu của bạn.

Cách trích xuất văn bản từ PDF

Để trích xuất văn bản từ tài liệu PDF, hãy làm theo các bước sau:

  1. Tạo một thể hiện của ExtractTextOptions để cấu hình các tùy chọn trích xuất.
  2. Thêm tệp PDF đầu vào bằng phương thức AddInput.
  3. Chạy phương thức ExtractText để trích xuất văn bản.
  4. Truy cập văn bản đã được trích xuất bằng ResultContainer.ResultCollection.
1// Tạo đối tượng ExtractTextOptions để đặt hướng dẫn
2var options = new ExtractTextOptions();
3// Thêm đường dẫn tệp đầu vào
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Thực hiện quá trình
6var results = PdfExtractor.ExtractText(options);
7// Lấy văn bản đã được trích xuất từ đối tượng ResultContainer
8var textExtracted = results.ResultCollection[0].ToString();

Chế độ trích xuất văn bản

ExtractTextOptions cung cấp ba chế độ trích xuất, mang lại sự linh hoạt dựa trên nhu cầu của bạn.

  1. Chế độ thuần túy: Bảo tồn định dạng gốc, bao gồm cả khoảng cách và căn chỉnh.
  2. Chế độ thô: Trích xuất văn bản mà không có định dạng, hữu ích cho việc xử lý dữ liệu thô.
  3. Chế độ phẳng: Đại diện nội dung PDF với các đoạn văn bản ở vị trí xác định theo tọa độ của chúng.
1// Tạo đối tượng ExtractTextOptions để đặt TextFormattingMode
2var options = new ExtractTextOptions(TextFormattingMode.Pure);
3// Thêm đường dẫn tệp đầu vào
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Thực hiện quá trình
6var results = PdfExtractor.ExtractText(options);
7// Lấy văn bản đã được trích xuất từ đối tượng ResultContainer
8var textExtracted = results.ResultCollection[0].ToString();

Tính năng chính:

  • Chế độ thuần túy: Trích xuất văn bản trong khi bảo tồn định dạng gốc của nó.
  • Chế độ thô: Trích xuất văn bản mà không có bất kỳ định dạng nào.
  • Chế độ phẳng: Trích xuất văn bản mà không có ký tự đặc biệt hoặc định dạng.

Extract Images

Plugin Documentize PDF Extractor for .NET cho phép bạn dễ dàng trích xuất hình ảnh từ tài liệu PDF. Nó quét các tệp PDF của bạn, xác định các hình ảnh nhúng và trích xuất chúng trong khi giữ nguyên chất lượng và định dạng ban đầu. Công cụ này nâng cao khả năng truy cập nội dung trực quan và làm đơn giản hóa quy trình lấy hình ảnh từ các tài liệu PDF.

Cách trích xuất hình ảnh từ PDF

Để trích xuất hình ảnh từ tệp PDF, hãy làm theo các bước sau:

  1. Tạo một thể hiện của lớp ExtractImagesOptions.
  2. Thêm đường dẫn tệp đầu vào vào tùy chọn bằng cách sử dụng phương thức AddInput.
  3. Đặt đường dẫn thư mục đầu ra cho hình ảnh bằng phương thức AddOutput.
  4. Tiến hành xử lý việc trích xuất hình ảnh bằng plugin.
  5. Lấy các hình ảnh đã trích xuất từ thùng chứa kết quả.
 1// Tạo ExtractImagesOptions để đặt hướng dẫn
 2var options = new ExtractImagesOptions();
 3// Thêm đường dẫn tệp đầu vào
 4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
 5// Đặt đường dẫn thư mục đầu ra
 6options.AddOutput(new DirectoryDataSource("path_to_results_directory"));
 7// Thực hiện quy trình
 8var results = PdfExtractor.ExtractImages(options);
 9// Lấy đường dẫn đến kết quả hình ảnh
10var imageExtracted = results.ResultCollection[0].ToFile();

Trích xuất hình ảnh từ tệp PDF vào các luồng mà không cần thư mục

Plugin PdfExtractor hỗ trợ lưu vào các luồng, cho phép bạn trích xuất hình ảnh từ các tệp PDF vào các luồng mà không cần sử dụng thư mục tạm thời.

 1// Tạo ExtractImagesOptions để đặt hướng dẫn
 2var options = new ExtractImagesOptions();
 3// Thêm đường dẫn tệp đầu vào
 4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
 5// Không đặt đầu ra - nó sẽ ghi kết quả vào các luồng
 6// Thực hiện quy trình
 7var results = PdfExtractor.ExtractImages(options);
 8// Lấy luồng
 9var ms = results.ResultCollection[0].ToStream();
10// Sao chép dữ liệu vào tệp cho bản demo
11ms.Seek(0, SeekOrigin.Begin);
12using (var fs = File.Create("test_file.png"))
13{
14    ms.CopyTo(fs);
15}

Tính năng chính:

  • Trích xuất hình ảnh nhúng: Xác định và trích xuất hình ảnh từ tài liệu PDF.
  • Bảo tồn chất lượng hình ảnh: Đảm bảo hình ảnh được trích xuất giữ nguyên chất lượng ban đầu.
  • Đầu ra linh hoạt: Lưu hình ảnh đã trích xuất theo định dạng hoặc vị trí bạn ưa thích.

Export Form Data

Plugin Documentize PDF Extractor for .NET cung cấp một cách liền mạch để trích xuất và xuất dữ liệu từ các biểu mẫu PDF (AcroForms) sang các định dạng khác như CSV. Công cụ linh hoạt này đơn giản hóa quy trình lấy giá trị các trường trong biểu mẫu, cho phép quản lý, chuyển giao và phân tích dữ liệu một cách dễ dàng.

Cách xuất dữ liệu biểu mẫu từ PDF

Để xuất dữ liệu biểu mẫu từ PDF sang CSV, hãy làm theo các bước sau:

  1. Tạo một thể hiện của lớp ExtractImagesOptions.
  2. Định nghĩa các tùy chọn xuất bằng cách sử dụng lớp FormExporterValuesToCsvOptions.
  3. Thêm tệp PDF đầu vào và chỉ định tệp CSV đầu ra.
  4. Chạy phương thức Process để thực hiện việc xuất.
1// Tạo đối tượng ExtractFormDataToDsvOptions để thiết lập hướng dẫn
2var options = new ExtractFormDataToDsvOptions(',', true);
3// Thêm đường dẫn tệp đầu vào
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Đặt đường dẫn tệp đầu ra
6options.AddOutput(new FileDataSource("path_to_result_csv_file.csv"));
7// Thực hiện quá trình
8PdfExtractor.ExtractFormData(options);

Các tính năng chính:

  • Xuất dữ liệu biểu mẫu: Trích xuất dữ liệu từ các biểu mẫu PDF (AcroForms) sang CSV hoặc các định dạng khác.
  • Lọc dữ liệu: Sử dụng các điều kiện để lọc các trường biểu mẫu cụ thể cho việc xuất dựa trên các tiêu chí như loại trường hoặc số trang.
  • Đầu ra linh hoạt: Lưu dữ liệu đã xuất để phân tích hoặc chuyển sang bảng tính, cơ sở dữ liệu hoặc các định dạng tài liệu khác.
 Tiếng Việt