PDF Text Extractor
Trình trích xuất văn bản PDF Documentize cho .NET giúp đơn giản hóa việc trích xuất văn bản từ tài liệu PDF. Dù bạn cần văn bản thuần, thô hay văn bản đơn giản, plugin này cho phép bạn trích xuất văn bản một cách hiệu quả trong khi vẫn giữ nguyên định dạng hoặc loại bỏ nó tùy theo nhu cầu của bạn.
Cách trích xuất văn bản từ PDF
Để trích xuất văn bản từ một tài liệu PDF, hãy làm theo các bước sau:
- Tạo một thể hiện của
TextExtractorOptions
để cấu hình các tùy chọn trích xuất. - Thêm tệp PDF đầu vào bằng cách sử dụng phương thức
AddInput
. - Chạy phương thức
Process
để trích xuất văn bản. - Truy cập văn bản đã được trích xuất thông qua
ResultContainer.ResultCollection
.
1// Tạo đối tượng TextExtractorOptions để thiết lập hướng dẫn
2var options = new TextExtractorOptions();
3// Thêm đường dẫn tệp đầu vào
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Thực hiện quá trình
6var results = TextExtractor.Process(options);
7// Lấy văn bản đã được trích xuất từ đối tượng ResultContainer
8var textExtracted = results.ResultCollection[0].ToString();
Các chế độ trích xuất văn bản
Plugin TextExtractor cung cấp ba chế độ trích xuất, mang lại sự linh hoạt tùy theo nhu cầu của bạn.
- Chế độ thuần: Giữ nguyên định dạng gốc, bao gồm cả khoảng cách và căn chỉnh.
- Chế độ thô: Trích xuất văn bản mà không có định dạng, hữu ích cho việc xử lý dữ liệu thô.
- Chế độ phẳng: Đại diện nội dung PDF với các đoạn văn bản được định vị qua tọa độ của chúng.
1// Tạo đối tượng TextExtractorOptions để thiết lập TextFormattingMode
2var options = new TextExtractorOptions(TextFormattingMode.Pure);
3// Thêm đường dẫn tệp đầu vào
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Thực hiện quá trình
6var results = TextExtractor.Process(options);
7// Lấy văn bản đã được trích xuất từ đối tượng ResultContainer
8var textExtracted = results.ResultCollection[0].ToString();
Tính năng chính:
- Chế độ thuần: Trích xuất văn bản trong khi giữ nguyên định dạng gốc.
- Chế độ thô: Trích xuất văn bản mà không có bất kỳ định dạng nào.
- Chế độ phẳng: Trích xuất văn bản mà không có ký tự đặc biệt hoặc định dạng.