PDF Text Extractor

Documentize PDF Text Extractor pro .NET zjednodušuje extrakci textu z PDF dokumentů. Ať už potřebujete čistý, surový nebo prostý text, tento plugin vám umožňuje efektivně extrahovat text s ohledem na formátování nebo jej vynechat podle vašich potřeb.

Hlavní funkce:

  • Čistý režim: Extrakce textu s zachováním původního formátování.
  • Surový režim: Extrakce textu bez jakéhokoli formátování.
  • Prostý režim: Extrakce textu bez speciálních znaků nebo formátování.
  • Školní zpracování: Extrakce textu z více PDF najednou.

Jak extrahovat text z PDF dokumentů

Chcete-li extrahovat text z PDF dokumentu, postupujte podle těchto kroků:

  1. Vytvořte instanci třídy TextExtractor.
  2. Vytvořte instanci TextExtractorOptions pro nastavení možností extrakce.
  3. Přidejte vstupní PDF soubor pomocí metody AddInput.
  4. Spusťte metodu Process pro extrakci textu.
  5. Přistupte k extrahovanému textu pomocí ResultContainer.ResultCollection.
 1  
 2using var extractor = new TextExtractor();  
 3var textExtractorOptions = new TextExtractorOptions();  
 4
 5// Přidání vstupního PDF  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));  
 7
 8// Zpracování extrakce textu  
 9var resultContainer = extractor.Process(textExtractorOptions);  
10
11// Tisk extrahovaného textu  
12var extractedText = resultContainer.ResultCollection[0];  
13Console.WriteLine(extractedText);  

Extrakce textu z více PDF

Plugin umožňuje extrakci textu z více PDF současně, čímž zajistí rychlé a efektivní zpracování.

 1  
 2using var extractor = new TextExtractor();  
 3var textExtractorOptions = new TextExtractorOptions();  
 4
 5// Přidání více vstupních PDF  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));  
 7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));  
 8
 9// Zpracování extrakce  
10var resultContainer = extractor.Process(textExtractorOptions);  
11
12// Výstup extrahovaného textu  
13foreach (var result in resultContainer.ResultCollection)  
14{  
15    Console.WriteLine(result);  
16}  

Režimy extrakce textu

Plugin TextExtractor nabízí tři režimy extrakce, které poskytují flexibilitu podle vašich potřeb.

  1. Čistý režim: Zachovává původní formátování, včetně mezer a zarovnání.
  2. Surový režim: Extrahuje text bez formátování, užitečné pro zpracování surových dat.
  3. Prostý režim: Extrahuje text bez speciálních znaků nebo dalšího formátování.
 1  
 2var textExtractorOptions = new TextExtractorOptions();  
 3
 4// Nastavit na čistý režim  
 5textExtractorOptions.Mode = ExtractionMode.Pure;  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));  
 7
 8// Zpracování a výstup  
 9var resultContainer = extractor.Process(textExtractorOptions);  
10Console.WriteLine(resultContainer.ResultCollection[0]);  

Jak zvládnout školní zpracování

Pro větší sady dokumentů můžete využít školní zpracování, což vám umožní extrahovat text z více PDF najednou.

 1  
 2using var extractor = new TextExtractor();  
 3var textExtractorOptions = new TextExtractorOptions();  
 4
 5// Přidání více vstupních PDF  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));  
 7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));  
 8
 9// Definování výstupu pro každý soubor  
10var resultContainer = extractor.Process(textExtractorOptions);  
11
12// Zpracování extrahovaného textu  
13foreach (var result in resultContainer.ResultCollection)  
14{  
15    Console.WriteLine(result);  
16}  
 Čeština