PDF Text Extractor
Trình Documentize PDF Text Extractor cho .NET đơn giản hóa việc trích xuất văn bản từ tài liệu PDF. Dù bạn cần văn bản nguyên chất, thô hay đơn giản, plugin này cho phép bạn trích xuất văn bản một cách hiệu quả trong khi vẫn giữ nguyên định dạng hoặc bỏ qua tùy theo nhu cầu của bạn.
Cách trích xuất văn bản từ PDF
Để trích xuất văn bản từ tài liệu PDF, hãy làm theo các bước sau:
- Tạo một thể hiện của lớp
TextExtractor
. - Tạo một thể hiện của
TextExtractorOptions
để cấu hình các tùy chọn trích xuất. - Thêm tệp PDF đầu vào bằng phương thức
AddInput
. - Chạy phương thức
Process
để trích xuất văn bản. - Truy cập văn bản đã được trích xuất bằng
ResultContainer.ResultCollection
.
1using var extractor = new TextExtractor();
2var textExtractorOptions = new TextExtractorOptions();
3
4// Thêm PDF đầu vào
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
6
7// Xử lý việc trích xuất văn bản
8var resultContainer = extractor.Process(textExtractorOptions);
9
10// In ra văn bản đã được trích xuất
11var extractedText = resultContainer.ResultCollection[0];
12Console.WriteLine(extractedText);
Trích xuất văn bản từ nhiều PDF
Plugin cho phép bạn trích xuất văn bản từ nhiều PDF đồng thời, đảm bảo quy trình nhanh chóng và hiệu quả.
1using var extractor = new TextExtractor();
2var textExtractorOptions = new TextExtractorOptions();
3
4// Thêm nhiều PDF đầu vào
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));
7
8// Xử lý việc trích xuất
9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Xuất ra văn bản đã được trích xuất
12foreach (var result in resultContainer.ResultCollection)
13{
14 Console.WriteLine(result);
15}
Các chế độ trích xuất văn bản
Plugin TextExtractor cung cấp ba chế độ trích xuất, mang lại linh hoạt dựa trên nhu cầu của bạn.
- Chế độ nguyên chất: Giữ nguyên định dạng gốc, bao gồm cả khoảng cách và sự canh chỉnh.
- Chế độ thô: Trích xuất văn bản mà không có định dạng, hữu ích cho việc xử lý dữ liệu thô.
- Chế độ đơn giản: Trích xuất văn bản mà không có ký tự đặc biệt hoặc định dạng bổ sung.
1var textExtractorOptions = new TextExtractorOptions();
2
3// Đặt thành chế độ Nguyên chất
4textExtractorOptions.Mode = ExtractionMode.Pure;
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
6
7// Xử lý và xuất ra
8var resultContainer = extractor.Process(textExtractorOptions);
9Console.WriteLine(resultContainer.ResultCollection[0]);
Cách xử lý xử lý theo lô
Đối với những tập tài liệu lớn, bạn có thể tận dụng xử lý theo lô, cho phép bạn trích xuất văn bản từ nhiều PDF cùng một lúc.
1using var extractor = new TextExtractor();
2var textExtractorOptions = new TextExtractorOptions();
3
4// Thêm nhiều PDF đầu vào
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));
7
8// Định nghĩa đầu ra cho mỗi tệp
9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Xử lý văn bản đã được trích xuất
12foreach (var result in resultContainer.ResultCollection)
13{
14 Console.WriteLine(result);
15}
Các tính năng nổi bật:
- Chế độ Nguyên chất: Trích xuất văn bản trong khi giữ nguyên định dạng gốc của nó.
- Chế độ Thô: Trích xuất văn bản mà không có bất kỳ định dạng nào.
- Chế độ Đơn giản: Trích xuất văn bản mà không có ký tự đặc biệt hoặc định dạng.
- Xử lý theo lô: Trích xuất văn bản từ nhiều PDF cùng một lúc.