PDF Text Extractor
Documentize PDF Text Extractor pro .NET zjednodušuje extrakci textu z PDF dokumentů. Ať už potřebujete čistý, surový nebo prostý text, tento plugin vám umožňuje efektivně extrahovat text s ohledem na formátování nebo jej vynechat podle vašich potřeb.
Hlavní funkce:
- Čistý režim: Extrakce textu s zachováním původního formátování.
- Surový režim: Extrakce textu bez jakéhokoli formátování.
- Prostý režim: Extrakce textu bez speciálních znaků nebo formátování.
- Školní zpracování: Extrakce textu z více PDF najednou.
Jak extrahovat text z PDF dokumentů
Chcete-li extrahovat text z PDF dokumentu, postupujte podle těchto kroků:
- Vytvořte instanci třídy
TextExtractor
. - Vytvořte instanci
TextExtractorOptions
pro nastavení možností extrakce. - Přidejte vstupní PDF soubor pomocí metody
AddInput
. - Spusťte metodu
Process
pro extrakci textu. - Přistupte k extrahovanému textu pomocí
ResultContainer.ResultCollection
.
1
2using var extractor = new TextExtractor();
3var textExtractorOptions = new TextExtractorOptions();
4
5// Přidání vstupního PDF
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
7
8// Zpracování extrakce textu
9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Tisk extrahovaného textu
12var extractedText = resultContainer.ResultCollection[0];
13Console.WriteLine(extractedText);
Extrakce textu z více PDF
Plugin umožňuje extrakci textu z více PDF současně, čímž zajistí rychlé a efektivní zpracování.
1
2using var extractor = new TextExtractor();
3var textExtractorOptions = new TextExtractorOptions();
4
5// Přidání více vstupních PDF
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));
7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));
8
9// Zpracování extrakce
10var resultContainer = extractor.Process(textExtractorOptions);
11
12// Výstup extrahovaného textu
13foreach (var result in resultContainer.ResultCollection)
14{
15 Console.WriteLine(result);
16}
Režimy extrakce textu
Plugin TextExtractor nabízí tři režimy extrakce, které poskytují flexibilitu podle vašich potřeb.
- Čistý režim: Zachovává původní formátování, včetně mezer a zarovnání.
- Surový režim: Extrahuje text bez formátování, užitečné pro zpracování surových dat.
- Prostý režim: Extrahuje text bez speciálních znaků nebo dalšího formátování.
1
2var textExtractorOptions = new TextExtractorOptions();
3
4// Nastavit na čistý režim
5textExtractorOptions.Mode = ExtractionMode.Pure;
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
7
8// Zpracování a výstup
9var resultContainer = extractor.Process(textExtractorOptions);
10Console.WriteLine(resultContainer.ResultCollection[0]);
Jak zvládnout školní zpracování
Pro větší sady dokumentů můžete využít školní zpracování, což vám umožní extrahovat text z více PDF najednou.
1
2using var extractor = new TextExtractor();
3var textExtractorOptions = new TextExtractorOptions();
4
5// Přidání více vstupních PDF
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));
7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));
8
9// Definování výstupu pro každý soubor
10var resultContainer = extractor.Process(textExtractorOptions);
11
12// Zpracování extrahovaného textu
13foreach (var result in resultContainer.ResultCollection)
14{
15 Console.WriteLine(result);
16}