Extract Text

Trình trích xuất PDF Documentize cho .NET đơn giản hóa việc trích xuất văn bản từ tài liệu PDF. Dù bạn cần văn bản thuần túy, thô hay văn bản đơn giản, plugin này cho phép bạn trích xuất văn bản hiệu quả trong khi bảo tồn định dạng hoặc bỏ qua nó tùy theo nhu cầu của bạn.

Cách trích xuất văn bản từ PDF

Để trích xuất văn bản từ tài liệu PDF, hãy làm theo các bước sau:

  1. Tạo một thể hiện của ExtractTextOptions để cấu hình các tùy chọn trích xuất.
  2. Thêm tệp PDF đầu vào bằng phương thức AddInput.
  3. Chạy phương thức ExtractText để trích xuất văn bản.
  4. Truy cập văn bản đã được trích xuất bằng ResultContainer.ResultCollection.
1// Tạo đối tượng ExtractTextOptions để đặt hướng dẫn
2var options = new ExtractTextOptions();
3// Thêm đường dẫn tệp đầu vào
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Thực hiện quá trình
6var results = PdfExtractor.ExtractText(options);
7// Lấy văn bản đã được trích xuất từ đối tượng ResultContainer
8var textExtracted = results.ResultCollection[0].ToString();

Chế độ trích xuất văn bản

ExtractTextOptions cung cấp ba chế độ trích xuất, mang lại sự linh hoạt dựa trên nhu cầu của bạn.

  1. Chế độ thuần túy: Bảo tồn định dạng gốc, bao gồm cả khoảng cách và căn chỉnh.
  2. Chế độ thô: Trích xuất văn bản mà không có định dạng, hữu ích cho việc xử lý dữ liệu thô.
  3. Chế độ phẳng: Đại diện nội dung PDF với các đoạn văn bản ở vị trí xác định theo tọa độ của chúng.
1// Tạo đối tượng ExtractTextOptions để đặt TextFormattingMode
2var options = new ExtractTextOptions(TextFormattingMode.Pure);
3// Thêm đường dẫn tệp đầu vào
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Thực hiện quá trình
6var results = PdfExtractor.ExtractText(options);
7// Lấy văn bản đã được trích xuất từ đối tượng ResultContainer
8var textExtracted = results.ResultCollection[0].ToString();

Tính năng chính:

  • Chế độ thuần túy: Trích xuất văn bản trong khi bảo tồn định dạng gốc của nó.
  • Chế độ thô: Trích xuất văn bản mà không có bất kỳ định dạng nào.
  • Chế độ phẳng: Trích xuất văn bản mà không có ký tự đặc biệt hoặc định dạng.
 Tiếng Việt