Trình Trích Xuất Văn Bản PDF
Trình Trích Xuất Văn Bản PDF Documentize cho .NET đơn giản hóa việc trích xuất văn bản từ các tài liệu PDF. Dù bạn cần văn bản thuần túy, thô hay văn bản đơn giản, plugin này cho phép bạn trích xuất văn bản một cách hiệu quả trong khi vẫn giữ nguyên định dạng hoặc bỏ qua nó dựa trên nhu cầu của bạn.
Tính Năng Chính:
- Chế Độ Thuần Túy: Trích xuất văn bản trong khi giữ nguyên định dạng gốc của nó.
- Chế Độ Thô: Trích xuất văn bản mà không có bất kỳ định dạng nào.
- Chế Độ Đơn Giản: Trích xuất văn bản mà không có ký tự đặc biệt hoặc định dạng.
- Xử Lý Theo Lô: Trích xuất văn bản từ nhiều tài liệu PDF cùng một lúc.
Cách Trích Xuất Văn Bản Từ Tài Liệu PDF
Để trích xuất văn bản từ một tài liệu PDF, hãy làm theo các bước sau:
- Tạo một instance của lớp
TextExtractor
. - Tạo một instance của
TextExtractorOptions
để cấu hình các tùy chọn trích xuất. - Thêm tệp PDF đầu vào bằng phương thức
AddInput
. - Chạy phương thức
Process
để trích xuất văn bản. - Truy cập văn bản đã được trích xuất bằng
ResultContainer.ResultCollection
.
1
2using var extractor = new TextExtractor();
3var textExtractorOptions = new TextExtractorOptions();
4
5// Thêm tệp PDF đầu vào
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
7
8// Xử lý trích xuất văn bản
9var resultContainer = extractor.Process(textExtractorOptions);
10
11// In văn bản đã được trích xuất
12var extractedText = resultContainer.ResultCollection[0];
13Console.WriteLine(extractedText);
Trích Xuất Văn Bản Từ Nhiều Tài Liệu PDF
Plugin cho phép bạn trích xuất văn bản từ nhiều tài liệu PDF đồng thời, đảm bảo xử lý nhanh chóng và hiệu quả.
1
2using var extractor = new TextExtractor();
3var textExtractorOptions = new TextExtractorOptions();
4
5// Thêm nhiều tệp PDF đầu vào
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));
7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));
8
9// Xử lý trích xuất
10var resultContainer = extractor.Process(textExtractorOptions);
11
12// Xuất văn bản đã được trích xuất
13foreach (var result in resultContainer.ResultCollection)
14{
15 Console.WriteLine(result);
16}
Các Chế Độ Trích Xuất Văn Bản
Plugin TextExtractor cung cấp ba chế độ trích xuất, mang lại sự linh hoạt dựa trên nhu cầu của bạn.
- Chế Độ Thuần Túy: Giữ nguyên định dạng gốc, bao gồm khoảng trắng và căn chỉnh.
- Chế Độ Thô: Trích xuất văn bản mà không có định dạng, hữu ích cho việc xử lý dữ liệu thô.
- Chế Độ Đơn Giản: Trích xuất văn bản mà không có ký tự đặc biệt hoặc định dạng bổ sung.
1
2var textExtractorOptions = new TextExtractorOptions();
3
4// Đặt chế độ thành Chế Độ Thuần Túy
5textExtractorOptions.Mode = ExtractionMode.Pure;
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
7
8// Xử lý và xuất
9var resultContainer = extractor.Process(textExtractorOptions);
10Console.WriteLine(resultContainer.ResultCollection[0]);
Cách Xử Lý Xử Lý Theo Lô
Đối với các tập tài liệu lớn, bạn có thể tận dụng xử lý theo lô, cho phép bạn trích xuất văn bản từ nhiều PDF cùng một lúc.
1
2using var extractor = new TextExtractor();
3var textExtractorOptions = new TextExtractorOptions();
4
5// Thêm nhiều tệp PDF đầu vào
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));
7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));
8
9// Định nghĩa đầu ra cho mỗi tệp
10var resultContainer = extractor.Process(textExtractorOptions);
11
12// Xử lý văn bản đã được trích xuất
13foreach (var result in resultContainer.ResultCollection)
14{
15 Console.WriteLine(result);
16}