Trích xuất Văn bản

The Documentize PDF Extractor for .NET đơn giản hóa việc trích xuất văn bản từ tài liệu PDF. Dù bạn cần văn bản thuần, thô, hay không định dạng, plugin này cho phép bạn trích xuất văn bản một cách hiệu quả đồng thời bảo tồn hoặc loại bỏ định dạng tùy theo nhu cầu.

Cách trích xuất văn bản từ PDF

Để trích xuất văn bản từ một tài liệu PDF, thực hiện các bước sau:

  1. Tạo một thể hiện của ExtractTextOptions để cấu hình các tùy chọn trích xuất.
  2. Thêm tệp PDF đầu vào bằng phương thức AddInput.
  3. Gọi phương thức Extract để thực hiện quá trình trích xuất.
  4. Truy cập văn bản đã trích xuất thông qua ResultContainer.ResultCollection.
1// Create ExtractTextOptions object to set instructions
2var options = new ExtractTextOptions();
3// Add input file path
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Perform the process
6var results = PdfExtractor.Extract(options);
7// Get the extracted text from the ResultContainer object
8var textExtracted = results.ResultCollection[0].ToString();

Các chế độ trích xuất văn bản

ExtractTextOptions cung cấp ba chế độ trích xuất, mang lại sự linh hoạt tùy theo nhu cầu của bạn.

  1. Pure Mode: Giữ nguyên định dạng gốc, bao gồm khoảng trắng và căn chỉnh.
  2. Raw Mode: Trích xuất văn bản mà không có định dạng, hữu ích cho việc xử lý dữ liệu thô.
  3. Flatten Mode: Đại diện nội dung PDF bằng các đoạn văn bản được định vị theo tọa độ.
1// Create ExtractTextOptions object to set TextFormattingMode
2var options = new ExtractTextOptions(TextFormattingMode.Pure);
3// Add input file path
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Perform the process
6var results = PdfExtractor.Extract(options);
7// Get the extracted text from the ResultContainer object
8var textExtracted = results.ResultCollection[0].ToString();

Các tính năng chính:

  • Pure Mode: Trích xuất văn bản đồng thời bảo tồn định dạng gốc của nó.
  • Raw Mode: Trích xuất văn bản mà không có bất kỳ định dạng nào.
  • Flatten Mode: Trích xuất văn bản mà không có ký tự đặc biệt hoặc định dạng.
 Tiếng Việt