Ekstraktor Tekstu PDF
Ekstraktor Tekstu PDF Documentize dla .NET upraszcza wyodrębnianie tekstu z dokumentów PDF. Niezależnie od tego, czy potrzebujesz czystego, surowego, czy prostego tekstu, ten plugin pozwala na efektywne wyodrębnianie tekstu przy zachowaniu formatowania lub pomijaniu go w zależności od Twoich potrzeb.
Kluczowe Funkcje:
- Tryb Czysty: Wyodrębnia tekst przy zachowaniu oryginalnego formatowania.
- Tryb Surowy: Wyodrębnia tekst bez jakiegokolwiek formatowania.
- Tryb Prosty: Wyodrębnia tekst bez znaków specjalnych lub formatowania.
- Przetwarzanie Terenowe: Wyodrębnia tekst z wielu PDF-ów jednocześnie.
Jak Wyodrębnić Tekst z Dokumentów PDF
Aby wyodrębnić tekst z dokumentu PDF, wykonaj następujące kroki:
- Utwórz instancję klasy
TextExtractor
. - Utwórz instancję
TextExtractorOptions
, aby skonfigurować opcje wyodrębniania. - Dodaj plik PDF wejściowy za pomocą metody
AddInput
. - Uruchom metodę
Process
, aby wyodrębnić tekst. - Uzyskaj dostęp do wyodrębnionego tekstu za pomocą
ResultContainer.ResultCollection
.
1using var extractor = new TextExtractor();
2var textExtractorOptions = new TextExtractorOptions();
3
4// Dodaj plik PDF wejściowy
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
6
7// Przetwórz wyodrębnianie tekstu
8var resultContainer = extractor.Process(textExtractorOptions);
9
10// Wydrukuj wyodrębniony tekst
11var extractedText = resultContainer.ResultCollection[0];
12Console.WriteLine(extractedText);
Wyodrębnianie Tekstu z Wielu PDF-ów
Plugin pozwala na wyodrębnianie tekstu z wielu PDF-ów jednocześnie, co zapewnia szybkie i efektywne przetwarzanie.
1using var extractor = new TextExtractor();
2var textExtractorOptions = new TextExtractorOptions();
3
4// Dodaj wiele plików PDF wejściowych
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));
7
8// Przetwórz wyodrębnianie
9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Wyświetl wyodrębniony tekst
12foreach (var result in resultContainer.ResultCollection)
13{
14 Console.WriteLine(result);
15}
Tryby Wyodrębniania Tekstu
Plugin TextExtractor oferuje trzy tryby wyodrębniania, zapewniając elastyczność w zależności od Twoich potrzeb.
- Tryb Czysty: Zachowuje oryginalne formatowanie, w tym spacje i wyrównanie.
- Tryb Surowy: Wyodrębnia tekst bez formatowania, przydatny przy przetwarzaniu surowych danych.
- Tryb Prosty: Wyodrębnia tekst bez znaków specjalnych lub dodatkowego formatowania.
1var textExtractorOptions = new TextExtractorOptions();
2
3// Ustaw na tryb Czysty
4textExtractorOptions.Mode = ExtractionMode.Pure;
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
6
7// Przetwórz i wyświetl
8var resultContainer = extractor.Process(textExtractorOptions);
9Console.WriteLine(resultContainer.ResultCollection[0]);
Jak Obsługiwać Przetwarzanie Terenowe
Dla dużych zbiorów dokumentów możesz skorzystać z przetwarzania terenowego, co pozwala na wyodrębnienie tekstu z wielu PDF-ów jednocześnie.
1using var extractor = new TextExtractor();
2var textExtractorOptions = new TextExtractorOptions();
3
4// Dodaj wiele plików PDF wejściowych
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));
7
8// Zdefiniuj wyjście dla każdego pliku
9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Obsłuż wyodrębniony tekst
12foreach (var result in resultContainer.ResultCollection)
13{
14 Console.WriteLine(result);
15}