PDF Text Extractor

Der Documentize PDF Text Extractor für .NET vereinfacht das Extrahieren von Text aus PDF-Dokumenten. Egal, ob Sie reinen, rohen oder schlichten Text benötigen, dieses Plugin ermöglicht es Ihnen, Text effizient zu extrahieren, während die Formatierung beibehalten oder je nach Ihren Bedürfnissen weggelassen wird.

Wichtige Funktionen:

  • Reiner Modus: Extrahiert Text und erhält dessen ursprüngliche Formatierung.
  • Rohmodus: Extrahiert Text ohne jegliche Formatierung.
  • Schlichter Modus: Extrahiert Text ohne Sonderzeichen oder Formatierung.
  • Batch-Verarbeitung: Extrahiert Text aus mehreren PDFs gleichzeitig.

So extrahieren Sie Text aus PDF-Dokumenten

Um Text aus einem PDF-Dokument zu extrahieren, befolgen Sie diese Schritte:

  1. Erstellen Sie eine Instanz der Klasse TextExtractor.
  2. Erstellen Sie eine Instanz von TextExtractorOptions, um die Extraktionsoptionen zu konfigurieren.
  3. Fügen Sie die Eingabe-PDF-Datei mit der Methode AddInput hinzu.
  4. Führen Sie die Methode Process aus, um den Text zu extrahieren.
  5. Greifen Sie auf den extrahierten Text über ResultContainer.ResultCollection zu.
 1  
 2using var extractor = new TextExtractor();  
 3var textExtractorOptions = new TextExtractorOptions();  
 4
 5// Fügen Sie die Eingabe-PDF hinzu  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));  
 7
 8// Verarbeiten Sie die Textextraktion  
 9var resultContainer = extractor.Process(textExtractorOptions);  
10
11// Drucken Sie den extrahierten Text  
12var extractedText = resultContainer.ResultCollection[0];  
13Console.WriteLine(extractedText);  

Text aus mehreren PDFs extrahieren

Das Plugin ermöglicht es Ihnen, Text aus mehreren PDFs gleichzeitig zu extrahieren, was eine schnelle und effiziente Verarbeitung gewährleistet.

 1  
 2using var extractor = new TextExtractor();  
 3var textExtractorOptions = new TextExtractorOptions();  
 4
 5// Fügen Sie mehrere Eingabe-PDFs hinzu  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));  
 7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));  
 8
 9// Verarbeiten Sie die Extraktion  
10var resultContainer = extractor.Process(textExtractorOptions);  
11
12// Geben Sie den extrahierten Text aus  
13foreach (var result in resultContainer.ResultCollection)  
14{  
15    Console.WriteLine(result);  
16}  

Textextraktionsmodi

Das TextExtractor-Plugin bietet drei Extraktionsmodi, die Flexibilität je nach Bedarf bieten.

  1. Reiner Modus: Bewahrt die ursprüngliche Formatierung, einschließlich Leerzeichen und Ausrichtung.
  2. Rohmodus: Extrahiert den Text ohne Formatierung, nützlich für die Verarbeitung von Rohdaten.
  3. Schlichter Modus: Extrahiert Text ohne Sonderzeichen oder zusätzliche Formatierung.
 1  
 2var textExtractorOptions = new TextExtractorOptions();  
 3
 4// Auf Reinen Modus setzen  
 5textExtractorOptions.Mode = ExtractionMode.Pure;  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));  
 7
 8// Verarbeiten und ausgeben  
 9var resultContainer = extractor.Process(textExtractorOptions);  
10Console.WriteLine(resultContainer.ResultCollection[0]);  

So gehen Sie mit der Batch-Verarbeitung um

Für große Dokumentensätze können Sie die Batch-Verarbeitung nutzen, mit der Sie Text aus mehreren PDFs gleichzeitig extrahieren können.

 1  
 2using var extractor = new TextExtractor();  
 3var textExtractorOptions = new TextExtractorOptions();  
 4
 5// Fügen Sie mehrere Eingabe-PDFs hinzu  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));  
 7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));  
 8
 9// Definieren Sie die Ausgabe für jede Datei  
10var resultContainer = extractor.Process(textExtractorOptions);  
11
12// Bearbeiten Sie den extrahierten Text  
13foreach (var result in resultContainer.ResultCollection)  
14{  
15    Console.WriteLine(result);  
16}  
 Deutsch