Εξ extractor Κειμένου PDF

Ο Documentize Εξ extractor Κειμένου PDF για .NET απλοποιεί την εξαγωγή κειμένου από έγγραφα PDF. Είτε χρειάζεστε καθαρό, ακατέργαστο ή απλό κείμενο, αυτό το plugin σας επιτρέπει να εξάγετε κείμενο αποτελεσματικά ενώ διατηρείτε τη μορφοποίηση ή την παραλείπετε βάση των αναγκών σας.

Κύρια Χαρακτηριστικά:

  • Καθαρός Τρόπος: Εξάγετε κείμενο διατηρώντας την πρωτότυπη μορφοποίηση του.
  • Ακατέργαστος Τρόπος: Εξάγετε κείμενο χωρίς καμία μορφοποίηση.
  • Απλός Τρόπος: Εξάγετε κείμενο χωρίς ειδικούς χαρακτήρες ή μορφοποίηση.
  • Μαζική Επεξεργασία: Εξάγετε κείμενο από πολλαπλά PDF ταυτόχρονα.

Πώς να Εξάγετε Κείμενο από Έγγραφα PDF

Για να εξάγετε κείμενο από ένα έγγραφο PDF, ακολουθήστε αυτά τα βήματα:

  1. Δημιουργήστε μία εμφάνιση της κλάσης TextExtractor.
  2. Δημιουργήστε μία εμφάνιση του TextExtractorOptions για να ρυθμίσετε τις επιλογές εξαγωγής.
  3. Προσθέστε το αρχείο PDF εισόδου χρησιμοποιώντας τη μέθοδο AddInput.
  4. Εκτελέστε τη μέθοδο Process για να εξάγετε το κείμενο.
  5. Πρόσβαση στο εξαγόμενο κείμενο χρησιμοποιώντας το ResultContainer.ResultCollection.
 1using var extractor = new TextExtractor();
 2var textExtractorOptions = new TextExtractorOptions();
 3
 4// Προσθέστε το αρχείο PDF εισόδου
 5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
 6
 7// Επεξεργασία της εξαγωγής κειμένου
 8var resultContainer = extractor.Process(textExtractorOptions);
 9
10// Εκτύπωση του εξαγόμενου κειμένου
11var extractedText = resultContainer.ResultCollection[0];
12Console.WriteLine(extractedText);

Εξαγωγή Κειμένου από Πολλαπλά PDFs

Το plugin σας επιτρέπει να εξάγετε κείμενο από πολλαπλά PDFs ταυτόχρονα, εξασφαλίζοντας γρήγορη και αποτελεσματική επεξεργασία.

 1using var extractor = new TextExtractor();
 2var textExtractorOptions = new TextExtractorOptions();
 3
 4// Προσθέστε πολλαπλά PDF εισόδου
 5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));
 7
 8// Επεξεργασία της εξαγωγής
 9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Εξαγωγή του εξαγόμενου κειμένου
12foreach (var result in resultContainer.ResultCollection)
13{
14    Console.WriteLine(result);
15}

Τρόποι Εξαγωγής Κειμένου

Το TextExtractor plugin προσφέρει τρεις τρόπους εξαγωγής, παρέχοντας ευελιξία βάσει των αναγκών σας.

  1. Καθαρός Τρόπος: Διατηρεί την πρωτότυπη μορφοποίηση, συμπεριλαμβανομένων των κενών και της ευθυγράμμισης.
  2. Ακατέργαστος Τρόπος: Εξάγει το κείμενο χωρίς μορφοποίηση, χρήσιμο για την επεξεργασία ακατέργαστων δεδομένων.
  3. Απλός Τρόπος: Εξάγει κείμενο χωρίς ειδικούς χαρακτήρες ή πρόσθετη μορφοποίηση.
1var textExtractorOptions = new TextExtractorOptions();
2
3// Ορίστε σε Καθαρό τρόπο
4textExtractorOptions.Mode = ExtractionMode.Pure;
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
6
7// Επεξεργασία και εξαγωγή
8var resultContainer = extractor.Process(textExtractorOptions);
9Console.WriteLine(resultContainer.ResultCollection[0]);

Πώς να Διαχειριστείτε τη Μαζική Επεξεργασία

Για μεγάλες σειρές εγγράφων, μπορείτε να επωφεληθείτε από τη μαζική επεξεργασία, επιτρέποντάς σας να εξάγετε κείμενο από πολλαπλά PDFs ταυτόχρονα.

 1using var extractor = new TextExtractor();
 2var textExtractorOptions = new TextExtractorOptions();
 3
 4// Προσθέστε πολλαπλά PDF εισόδου
 5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));
 7
 8// Ορίστε την εξαγωγή για κάθε αρχείο
 9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Διαχείριση του εξαγόμενου κειμένου
12foreach (var result in resultContainer.ResultCollection)
13{
14    Console.WriteLine(result);
15}
 Ελληνικά