Trình Trích Xuất Văn Bản PDF

Trình Trích Xuất Văn Bản PDF Documentize cho .NET đơn giản hóa việc trích xuất văn bản từ các tài liệu PDF. Dù bạn cần văn bản thuần túy, thô hay văn bản đơn giản, plugin này cho phép bạn trích xuất văn bản một cách hiệu quả trong khi vẫn giữ nguyên định dạng hoặc bỏ qua nó dựa trên nhu cầu của bạn.

Tính Năng Chính:

  • Chế Độ Thuần Túy: Trích xuất văn bản trong khi giữ nguyên định dạng gốc của nó.
  • Chế Độ Thô: Trích xuất văn bản mà không có bất kỳ định dạng nào.
  • Chế Độ Đơn Giản: Trích xuất văn bản mà không có ký tự đặc biệt hoặc định dạng.
  • Xử Lý Theo Lô: Trích xuất văn bản từ nhiều tài liệu PDF cùng một lúc.

Cách Trích Xuất Văn Bản Từ Tài Liệu PDF

Để trích xuất văn bản từ một tài liệu PDF, hãy làm theo các bước sau:

  1. Tạo một instance của lớp TextExtractor.
  2. Tạo một instance của TextExtractorOptions để cấu hình các tùy chọn trích xuất.
  3. Thêm tệp PDF đầu vào bằng phương thức AddInput.
  4. Chạy phương thức Process để trích xuất văn bản.
  5. Truy cập văn bản đã được trích xuất bằng ResultContainer.ResultCollection.
 1  
 2using var extractor = new TextExtractor();  
 3var textExtractorOptions = new TextExtractorOptions();  
 4
 5// Thêm tệp PDF đầu vào  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));  
 7
 8// Xử lý trích xuất văn bản  
 9var resultContainer = extractor.Process(textExtractorOptions);  
10
11// In văn bản đã được trích xuất  
12var extractedText = resultContainer.ResultCollection[0];  
13Console.WriteLine(extractedText);  

Trích Xuất Văn Bản Từ Nhiều Tài Liệu PDF

Plugin cho phép bạn trích xuất văn bản từ nhiều tài liệu PDF đồng thời, đảm bảo xử lý nhanh chóng và hiệu quả.

 1  
 2using var extractor = new TextExtractor();  
 3var textExtractorOptions = new TextExtractorOptions();  
 4
 5// Thêm nhiều tệp PDF đầu vào  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));  
 7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));  
 8
 9// Xử lý trích xuất  
10var resultContainer = extractor.Process(textExtractorOptions);  
11
12// Xuất văn bản đã được trích xuất  
13foreach (var result in resultContainer.ResultCollection)  
14{  
15    Console.WriteLine(result);  
16}  

Các Chế Độ Trích Xuất Văn Bản

Plugin TextExtractor cung cấp ba chế độ trích xuất, mang lại sự linh hoạt dựa trên nhu cầu của bạn.

  1. Chế Độ Thuần Túy: Giữ nguyên định dạng gốc, bao gồm khoảng trắng và căn chỉnh.
  2. Chế Độ Thô: Trích xuất văn bản mà không có định dạng, hữu ích cho việc xử lý dữ liệu thô.
  3. Chế Độ Đơn Giản: Trích xuất văn bản mà không có ký tự đặc biệt hoặc định dạng bổ sung.
 1  
 2var textExtractorOptions = new TextExtractorOptions();  
 3
 4// Đặt chế độ thành Chế Độ Thuần Túy  
 5textExtractorOptions.Mode = ExtractionMode.Pure;  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));  
 7
 8// Xử lý và xuất  
 9var resultContainer = extractor.Process(textExtractorOptions);  
10Console.WriteLine(resultContainer.ResultCollection[0]);  

Cách Xử Lý Xử Lý Theo Lô

Đối với các tập tài liệu lớn, bạn có thể tận dụng xử lý theo lô, cho phép bạn trích xuất văn bản từ nhiều PDF cùng một lúc.

 1  
 2using var extractor = new TextExtractor();  
 3var textExtractorOptions = new TextExtractorOptions();  
 4
 5// Thêm nhiều tệp PDF đầu vào  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));  
 7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));  
 8
 9// Định nghĩa đầu ra cho mỗi tệp  
10var resultContainer = extractor.Process(textExtractorOptions);  
11
12// Xử lý văn bản đã được trích xuất  
13foreach (var result in resultContainer.ResultCollection)  
14{  
15    Console.WriteLine(result);  
16}  
 Tiếng Việt