PDF Text Extractor

Trình Documentize PDF Text Extractor cho .NET đơn giản hóa việc trích xuất văn bản từ tài liệu PDF. Dù bạn cần văn bản nguyên chất, thô hay đơn giản, plugin này cho phép bạn trích xuất văn bản một cách hiệu quả trong khi vẫn giữ nguyên định dạng hoặc bỏ qua tùy theo nhu cầu của bạn.

Cách trích xuất văn bản từ PDF

Để trích xuất văn bản từ tài liệu PDF, hãy làm theo các bước sau:

  1. Tạo một thể hiện của lớp TextExtractor.
  2. Tạo một thể hiện của TextExtractorOptions để cấu hình các tùy chọn trích xuất.
  3. Thêm tệp PDF đầu vào bằng phương thức AddInput.
  4. Chạy phương thức Process để trích xuất văn bản.
  5. Truy cập văn bản đã được trích xuất bằng ResultContainer.ResultCollection.
 1using var extractor = new TextExtractor();
 2var textExtractorOptions = new TextExtractorOptions();
 3
 4// Thêm PDF đầu vào
 5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
 6
 7// Xử lý việc trích xuất văn bản
 8var resultContainer = extractor.Process(textExtractorOptions);
 9
10// In ra văn bản đã được trích xuất
11var extractedText = resultContainer.ResultCollection[0];
12Console.WriteLine(extractedText);

Trích xuất văn bản từ nhiều PDF

Plugin cho phép bạn trích xuất văn bản từ nhiều PDF đồng thời, đảm bảo quy trình nhanh chóng và hiệu quả.

 1using var extractor = new TextExtractor();
 2var textExtractorOptions = new TextExtractorOptions();
 3
 4// Thêm nhiều PDF đầu vào
 5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));
 7
 8// Xử lý việc trích xuất
 9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Xuất ra văn bản đã được trích xuất
12foreach (var result in resultContainer.ResultCollection)
13{
14    Console.WriteLine(result);
15}

Các chế độ trích xuất văn bản

Plugin TextExtractor cung cấp ba chế độ trích xuất, mang lại linh hoạt dựa trên nhu cầu của bạn.

  1. Chế độ nguyên chất: Giữ nguyên định dạng gốc, bao gồm cả khoảng cách và sự canh chỉnh.
  2. Chế độ thô: Trích xuất văn bản mà không có định dạng, hữu ích cho việc xử lý dữ liệu thô.
  3. Chế độ đơn giản: Trích xuất văn bản mà không có ký tự đặc biệt hoặc định dạng bổ sung.
1var textExtractorOptions = new TextExtractorOptions();
2
3// Đặt thành chế độ Nguyên chất
4textExtractorOptions.Mode = ExtractionMode.Pure;
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
6
7// Xử lý và xuất ra
8var resultContainer = extractor.Process(textExtractorOptions);
9Console.WriteLine(resultContainer.ResultCollection[0]);

Cách xử lý xử lý theo lô

Đối với những tập tài liệu lớn, bạn có thể tận dụng xử lý theo lô, cho phép bạn trích xuất văn bản từ nhiều PDF cùng một lúc.

 1using var extractor = new TextExtractor();
 2var textExtractorOptions = new TextExtractorOptions();
 3
 4// Thêm nhiều PDF đầu vào
 5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));
 7
 8// Định nghĩa đầu ra cho mỗi tệp
 9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Xử lý văn bản đã được trích xuất
12foreach (var result in resultContainer.ResultCollection)
13{
14    Console.WriteLine(result);
15}

Các tính năng nổi bật:

  • Chế độ Nguyên chất: Trích xuất văn bản trong khi giữ nguyên định dạng gốc của nó.
  • Chế độ Thô: Trích xuất văn bản mà không có bất kỳ định dạng nào.
  • Chế độ Đơn giản: Trích xuất văn bản mà không có ký tự đặc biệt hoặc định dạng.
  • Xử lý theo lô: Trích xuất văn bản từ nhiều PDF cùng một lúc.
 Tiếng Việt