Ekstraktor Tekstu PDF

Ekstraktor Tekstu PDF Documentize dla .NET upraszcza wyodrębnianie tekstu z dokumentów PDF. Niezależnie od tego, czy potrzebujesz czystego, surowego, czy prostego tekstu, ten plugin pozwala na efektywne wyodrębnianie tekstu przy zachowaniu formatowania lub pomijaniu go w zależności od Twoich potrzeb.

Kluczowe Funkcje:

  • Tryb Czysty: Wyodrębnia tekst przy zachowaniu oryginalnego formatowania.
  • Tryb Surowy: Wyodrębnia tekst bez jakiegokolwiek formatowania.
  • Tryb Prosty: Wyodrębnia tekst bez znaków specjalnych lub formatowania.
  • Przetwarzanie Terenowe: Wyodrębnia tekst z wielu PDF-ów jednocześnie.

Jak Wyodrębnić Tekst z Dokumentów PDF

Aby wyodrębnić tekst z dokumentu PDF, wykonaj następujące kroki:

  1. Utwórz instancję klasy TextExtractor.
  2. Utwórz instancję TextExtractorOptions, aby skonfigurować opcje wyodrębniania.
  3. Dodaj plik PDF wejściowy za pomocą metody AddInput.
  4. Uruchom metodę Process, aby wyodrębnić tekst.
  5. Uzyskaj dostęp do wyodrębnionego tekstu za pomocą ResultContainer.ResultCollection.
 1using var extractor = new TextExtractor();
 2var textExtractorOptions = new TextExtractorOptions();
 3
 4// Dodaj plik PDF wejściowy
 5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
 6
 7// Przetwórz wyodrębnianie tekstu
 8var resultContainer = extractor.Process(textExtractorOptions);
 9
10// Wydrukuj wyodrębniony tekst
11var extractedText = resultContainer.ResultCollection[0];
12Console.WriteLine(extractedText);

Wyodrębnianie Tekstu z Wielu PDF-ów

Plugin pozwala na wyodrębnianie tekstu z wielu PDF-ów jednocześnie, co zapewnia szybkie i efektywne przetwarzanie.

 1using var extractor = new TextExtractor();
 2var textExtractorOptions = new TextExtractorOptions();
 3
 4// Dodaj wiele plików PDF wejściowych
 5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));
 7
 8// Przetwórz wyodrębnianie
 9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Wyświetl wyodrębniony tekst
12foreach (var result in resultContainer.ResultCollection)
13{
14    Console.WriteLine(result);
15}

Tryby Wyodrębniania Tekstu

Plugin TextExtractor oferuje trzy tryby wyodrębniania, zapewniając elastyczność w zależności od Twoich potrzeb.

  1. Tryb Czysty: Zachowuje oryginalne formatowanie, w tym spacje i wyrównanie.
  2. Tryb Surowy: Wyodrębnia tekst bez formatowania, przydatny przy przetwarzaniu surowych danych.
  3. Tryb Prosty: Wyodrębnia tekst bez znaków specjalnych lub dodatkowego formatowania.
1var textExtractorOptions = new TextExtractorOptions();
2
3// Ustaw na tryb Czysty
4textExtractorOptions.Mode = ExtractionMode.Pure;
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
6
7// Przetwórz i wyświetl
8var resultContainer = extractor.Process(textExtractorOptions);
9Console.WriteLine(resultContainer.ResultCollection[0]);

Jak Obsługiwać Przetwarzanie Terenowe

Dla dużych zbiorów dokumentów możesz skorzystać z przetwarzania terenowego, co pozwala na wyodrębnienie tekstu z wielu PDF-ów jednocześnie.

 1using var extractor = new TextExtractor();
 2var textExtractorOptions = new TextExtractorOptions();
 3
 4// Dodaj wiele plików PDF wejściowych
 5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));
 7
 8// Zdefiniuj wyjście dla każdego pliku
 9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Obsłuż wyodrębniony tekst
12foreach (var result in resultContainer.ResultCollection)
13{
14    Console.WriteLine(result);
15}
 Polski