Ekstraktor Tekstu PDF
Ekstraktor Tekstu PDF Documentize dla .NET upraszcza wyodrębnianie tekstu z dokumentów PDF. Niezależnie od tego, czy potrzebujesz czystego, surowego lub prostego tekstu, ta wtyczka pozwala na efektywne wyodrębnianie tekstu, zachowując formatowanie lub pomijając je w zależności od potrzeb.
Kluczowe funkcje:
- Tryb Czysty: Wyodrębnia tekst, zachowując jego oryginalne formatowanie.
- Tryb Surowy: Wyodrębnia tekst bez jakiegokolwiek formatowania.
- Tryb Prosty: Wyodrębnia tekst bez znaków specjalnych lub formatowania.
- Przetwarzanie wsadowe: Wyodrębnia tekst z wielu plików PDF jednocześnie.
Jak wyodrębnić tekst z dokumentów PDF
Aby wyodrębnić tekst z dokumentu PDF, wykonaj następujące kroki:
- Utwórz instancję klasy
TextExtractor
. - Utwórz instancję
TextExtractorOptions
, aby skonfigurować opcje ekstrakcji. - Dodaj plik PDF wejściowy za pomocą metody
AddInput
. - Uruchom metodę
Process
, aby wyodrębnić tekst. - Uzyskaj dostęp do wyodrębnionego tekstu za pomocą
ResultContainer.ResultCollection
.
1
2using var extractor = new TextExtractor();
3var textExtractorOptions = new TextExtractorOptions();
4
5// Dodaj plik PDF wejściowy
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
7
8// Przetwórz wyodrębnianie tekstu
9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Wyświetl wyodrębniony tekst
12var extractedText = resultContainer.ResultCollection[0];
13Console.WriteLine(extractedText);
Wyodrębnianie tekstu z wielu plików PDF
Wtyczka pozwala na wyodrębnianie tekstu z wielu plików PDF jednocześnie, zapewniając szybkie i efektywne przetwarzanie.
1
2using var extractor = new TextExtractor();
3var textExtractorOptions = new TextExtractorOptions();
4
5// Dodaj wiele plików PDF wejściowych
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));
7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));
8
9// Przetwórz ekstrakcję
10var resultContainer = extractor.Process(textExtractorOptions);
11
12// Wyświetl wyodrębniony tekst
13foreach (var result in resultContainer.ResultCollection)
14{
15 Console.WriteLine(result);
16}
Tryby ekstrakcji tekstu
Wtyczka TextExtractor oferuje trzy tryby ekstrakcji, zapewniając elastyczność w zależności od Twoich potrzeb.
- Tryb Czysty: Zachowuje oryginalne formatowanie, w tym odstępy i wyrównanie.
- Tryb Surowy: Wyodrębnia tekst bez formatowania, przydatny do przetwarzania danych surowych.
- Tryb Prosty: Wyodrębnia tekst bez znaków specjalnych lub dodatkowego formatowania.
1
2var textExtractorOptions = new TextExtractorOptions();
3
4// Ustaw na tryb Czysty
5textExtractorOptions.Mode = ExtractionMode.Pure;
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
7
8// Przetwórz i wyświetl
9var resultContainer = extractor.Process(textExtractorOptions);
10Console.WriteLine(resultContainer.ResultCollection[0]);
Jak obsługiwać przetwarzanie wsadowe
Dla dużych zestawów dokumentów możesz skorzystać z przetwarzania wsadowego, które umożliwia wyodrębnianie tekstu z wielu plików PDF jednocześnie.
1
2using var extractor = new TextExtractor();
3var textExtractorOptions = new TextExtractorOptions();
4
5// Dodaj wiele plików PDF wejściowych
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));
7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));
8
9// Zdefiniuj wyjście dla każdego pliku
10var resultContainer = extractor.Process(textExtractorOptions);
11
12// Obsłuż wyodrębniony tekst
13foreach (var result in resultContainer.ResultCollection)
14{
15 Console.WriteLine(result);
16}