PDF Text Extraktor

Der Documentize PDF Text Extraktor für .NET vereinfacht das Extrahieren von Text aus PDF-Dokumenten. Ob Sie reinen, rohen oder einfachen Text benötigen, dieses Plugin ermöglicht Ihnen, Text effizient zu extrahieren, während die Formatierung beibehalten oder je nach Bedarf weggelassen wird.

Hauptmerkmale:

  • Reiner Modus: Text extrahieren und dabei die ursprüngliche Formatierung beibehalten.
  • Rohmodus: Text ohne jegliche Formatierung extrahieren.
  • Einfacher Modus: Text ohne Sonderzeichen oder Formatierung extrahieren.
  • Batch-Verarbeitung: Text aus mehreren PDFs gleichzeitig extrahieren.

So extrahieren Sie Text aus PDF-Dokumenten

Um Text aus einem PDF-Dokument zu extrahieren, folgen Sie diesen Schritten:

  1. Erstellen Sie eine Instanz der Klasse TextExtractor.
  2. Erstellen Sie eine Instanz von TextExtractorOptions, um die Extraktionsoptionen zu konfigurieren.
  3. Fügen Sie die Eingabe-PDF-Datei mit der Methode AddInput hinzu.
  4. Führen Sie die Methode Process aus, um den Text zu extrahieren.
  5. Greifen Sie auf den extrahierten Text über ResultContainer.ResultCollection zu.
 1using var extractor = new TextExtractor();
 2var textExtractorOptions = new TextExtractorOptions();
 3
 4// Eingabe-PDF hinzufügen
 5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
 6
 7// Textextraktion verarbeiten
 8var resultContainer = extractor.Process(textExtractorOptions);
 9
10// Den extrahierten Text ausgeben
11var extractedText = resultContainer.ResultCollection[0];
12Console.WriteLine(extractedText);

Text aus mehreren PDFs extrahieren

Das Plugin ermöglicht es Ihnen, Text aus mehreren PDFs gleichzeitig zu extrahieren, um eine schnelle und effiziente Verarbeitung zu gewährleisten.

 1using var extractor = new TextExtractor();
 2var textExtractorOptions = new TextExtractorOptions();
 3
 4// Mehrere Eingabe-PDFs hinzufügen
 5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));
 7
 8// Die Extraktion verarbeiten
 9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Den extrahierten Text ausgeben
12foreach (var result in resultContainer.ResultCollection)
13{
14    Console.WriteLine(result);
15}

Textextraktionsmodi

Das TextExtractor Plugin bietet drei Extraktionsmodi, die Flexibilität je nach Bedarf bieten.

  1. Reiner Modus: Bewahrt die ursprüngliche Formatierung, einschließlich Abstände und Ausrichtung.
  2. Rohmodus: Extrahiert den Text ohne Formatierung, nützlich für die Verarbeitung roher Daten.
  3. Einfacher Modus: Extrahiert Text ohne Sonderzeichen oder zusätzliche Formatierung.
1var textExtractorOptions = new TextExtractorOptions();
2
3// Auf reinen Modus setzen
4textExtractorOptions.Mode = ExtractionMode.Pure;
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
6
7// Verarbeiten und ausgeben
8var resultContainer = extractor.Process(textExtractorOptions);
9Console.WriteLine(resultContainer.ResultCollection[0]);

So gehen Sie mit der Batch-Verarbeitung um

Für große Dokumentensätze können Sie die Batch-Verarbeitung nutzen, um Text aus mehreren PDFs gleichzeitig zu extrahieren.

 1using var extractor = new TextExtractor();
 2var textExtractorOptions = new TextExtractorOptions();
 3
 4// Mehrere Eingabe-PDFs hinzufügen
 5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));
 7
 8// Ausgabe für jede Datei definieren
 9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Extrahierten Text verarbeiten
12foreach (var result in resultContainer.ResultCollection)
13{
14    Console.WriteLine(result);
15}
 Deutsch