Ekstraktor Tekstu PDF

Ekstraktor Tekstu PDF Documentize dla .NET upraszcza wyodrębnianie tekstu z dokumentów PDF. Niezależnie od tego, czy potrzebujesz czystego, surowego lub prostego tekstu, ta wtyczka pozwala na efektywne wyodrębnianie tekstu, zachowując formatowanie lub pomijając je w zależności od potrzeb.

Kluczowe funkcje:

  • Tryb Czysty: Wyodrębnia tekst, zachowując jego oryginalne formatowanie.
  • Tryb Surowy: Wyodrębnia tekst bez jakiegokolwiek formatowania.
  • Tryb Prosty: Wyodrębnia tekst bez znaków specjalnych lub formatowania.
  • Przetwarzanie wsadowe: Wyodrębnia tekst z wielu plików PDF jednocześnie.

Jak wyodrębnić tekst z dokumentów PDF

Aby wyodrębnić tekst z dokumentu PDF, wykonaj następujące kroki:

  1. Utwórz instancję klasy TextExtractor.
  2. Utwórz instancję TextExtractorOptions, aby skonfigurować opcje ekstrakcji.
  3. Dodaj plik PDF wejściowy za pomocą metody AddInput.
  4. Uruchom metodę Process, aby wyodrębnić tekst.
  5. Uzyskaj dostęp do wyodrębnionego tekstu za pomocą ResultContainer.ResultCollection.
 1  
 2using var extractor = new TextExtractor();  
 3var textExtractorOptions = new TextExtractorOptions();  
 4
 5// Dodaj plik PDF wejściowy  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));  
 7
 8// Przetwórz wyodrębnianie tekstu  
 9var resultContainer = extractor.Process(textExtractorOptions);  
10
11// Wyświetl wyodrębniony tekst  
12var extractedText = resultContainer.ResultCollection[0];  
13Console.WriteLine(extractedText);  

Wyodrębnianie tekstu z wielu plików PDF

Wtyczka pozwala na wyodrębnianie tekstu z wielu plików PDF jednocześnie, zapewniając szybkie i efektywne przetwarzanie.

 1  
 2using var extractor = new TextExtractor();  
 3var textExtractorOptions = new TextExtractorOptions();  
 4
 5// Dodaj wiele plików PDF wejściowych  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));  
 7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));  
 8
 9// Przetwórz ekstrakcję  
10var resultContainer = extractor.Process(textExtractorOptions);  
11
12// Wyświetl wyodrębniony tekst  
13foreach (var result in resultContainer.ResultCollection)  
14{  
15    Console.WriteLine(result);  
16}  

Tryby ekstrakcji tekstu

Wtyczka TextExtractor oferuje trzy tryby ekstrakcji, zapewniając elastyczność w zależności od Twoich potrzeb.

  1. Tryb Czysty: Zachowuje oryginalne formatowanie, w tym odstępy i wyrównanie.
  2. Tryb Surowy: Wyodrębnia tekst bez formatowania, przydatny do przetwarzania danych surowych.
  3. Tryb Prosty: Wyodrębnia tekst bez znaków specjalnych lub dodatkowego formatowania.
 1  
 2var textExtractorOptions = new TextExtractorOptions();  
 3
 4// Ustaw na tryb Czysty  
 5textExtractorOptions.Mode = ExtractionMode.Pure;  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));  
 7
 8// Przetwórz i wyświetl  
 9var resultContainer = extractor.Process(textExtractorOptions);  
10Console.WriteLine(resultContainer.ResultCollection[0]);  

Jak obsługiwać przetwarzanie wsadowe

Dla dużych zestawów dokumentów możesz skorzystać z przetwarzania wsadowego, które umożliwia wyodrębnianie tekstu z wielu plików PDF jednocześnie.

 1  
 2using var extractor = new TextExtractor();  
 3var textExtractorOptions = new TextExtractorOptions();  
 4
 5// Dodaj wiele plików PDF wejściowych  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));  
 7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));  
 8
 9// Zdefiniuj wyjście dla każdego pliku  
10var resultContainer = extractor.Process(textExtractorOptions);  
11
12// Obsłuż wyodrębniony tekst  
13foreach (var result in resultContainer.ResultCollection)  
14{  
15    Console.WriteLine(result);  
16}  
 Polski