Trích Xuất Văn Bản PDF
Documentize PDF Text Extractor for .NET đơn giản hóa quá trình trích xuất văn bản từ tài liệu PDF. Cho dù bạn cần văn bản thuần túy, thô, hay văn bản đơn giản, plugin này cho phép bạn trích xuất văn bản một cách hiệu quả trong khi giữ nguyên định dạng hoặc bỏ qua nó theo nhu cầu của bạn.
Các Tính Năng Chính:
- Chế Độ Thuần Túy: Trích xuất văn bản trong khi giữ nguyên định dạng ban đầu của nó.
- Chế Độ Thô: Trích xuất văn bản mà không có bất kỳ định dạng nào.
- Chế Độ Đơn Giản: Trích xuất văn bản mà không có ký tự đặc biệt hoặc định dạng.
- Xử Lý Theo Lô: Trích xuất văn bản từ nhiều PDF cùng một lúc.
Cách Trích Xuất Văn Bản từ Tài Liệu PDF
Để trích xuất văn bản từ tài liệu PDF, hãy làm theo các bước sau:
- Tạo một thể hiện của lớp
TextExtractor
. - Tạo một thể hiện của
TextExtractorOptions
để cấu hình các tùy chọn trích xuất. - Thêm tệp PDF đầu vào bằng phương thức
AddInput
. - Chạy phương thức
Process
để trích xuất văn bản. - Truy cập văn bản đã trích xuất bằng
ResultContainer.ResultCollection
.
1using var extractor = new TextExtractor();
2var textExtractorOptions = new TextExtractorOptions();
3
4// Thêm PDF đầu vào
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
6
7// Xử lý trích xuất văn bản
8var resultContainer = extractor.Process(textExtractorOptions);
9
10// In văn bản đã trích xuất
11var extractedText = resultContainer.ResultCollection[0];
12Console.WriteLine(extractedText);
Trích Xuất Văn Bản từ Nhiều PDF
Plugin cho phép bạn trích xuất văn bản từ nhiều PDF cùng một lúc, đảm bảo xử lý nhanh chóng và hiệu quả.
1using var extractor = new TextExtractor();
2var textExtractorOptions = new TextExtractorOptions();
3
4// Thêm nhiều PDF đầu vào
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));
7
8// Xử lý trích xuất
9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Xuất văn bản đã trích xuất
12foreach (var result in resultContainer.ResultCollection)
13{
14 Console.WriteLine(result);
15}
Các Chế Độ Trích Xuất Văn Bản
Plugin TextExtractor cung cấp ba chế độ trích xuất, mang lại tính linh hoạt dựa trên nhu cầu của bạn.
- Chế Độ Thuần Túy: Giữ nguyên định dạng ban đầu, bao gồm khoảng trắng và căn chỉnh.
- Chế Độ Thô: Trích xuất văn bản mà không có định dạng, hữu ích cho việc xử lý dữ liệu thô.
- Chế Độ Đơn Giản: Trích xuất văn bản mà không có ký tự đặc biệt hoặc định dạng bổ sung.
1var textExtractorOptions = new TextExtractorOptions();
2
3// Đặt chế độ thành Chế độ Thuần Túy
4textExtractorOptions.Mode = ExtractionMode.Pure;
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"))
6
7// Xử lý và xuất
8var resultContainer = extractor.Process(textExtractorOptions);
9Console.WriteLine(resultContainer.ResultCollection[0]);
Cách Xử Lý Xử Lý Theo Lô
Đối với các bộ tài liệu lớn, bạn có thể tận dụng xử lý theo lô, cho phép bạn trích xuất văn bản từ nhiều PDF cùng một lúc.
1using var extractor = new TextExtractor();
2var textExtractorOptions = new TextExtractorOptions();
3
4// Thêm nhiều PDF đầu vào
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));
7
8// Định nghĩa đầu ra cho mỗi tệp
9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Xử lý văn bản đã trích xuất
12foreach (var result in resultContainer.ResultCollection)
13{
14 Console.WriteLine(result);
15}