PDF Text Extractor
Documentize PDF Text Extractor pro .NET zjednodušuje extrakci textu z PDF dokumentů. Ať už potřebujete čistý, surový nebo prostý text, tento plugin vám umožňuje efektivně extrahovat text při zachování formátování nebo jeho vynechání podle vašich potřeb.
Klíčové Vlastnosti:
- Čistý Režim: Extrakce textu při zachování původního formátování.
- Surový Režim: Extrakce textu bez jakéhokoli formátování.
- Prostý Režim: Extrakce textu bez speciálních znaků nebo formátování.
- Dávkové Zpracování: Extrakce textu z více PDF najednou.
Jak Extrahovat Text z PDF Dokumentů
Chcete-li extrahovat text z PDF dokumentu, postupujte podle těchto kroků:
- Vytvořte instanci třídy
TextExtractor
. - Vytvořte instanci
TextExtractorOptions
, abyste nakonfigurovali možnosti extrakce. - Přidejte vstupní PDF soubor pomocí metody
AddInput
. - Spusťte metodu
Process
pro extrakci textu. - Získejte extrahovaný text pomocí
ResultContainer.ResultCollection
.
1using var extractor = new TextExtractor();
2var textExtractorOptions = new TextExtractorOptions();
3
4// Přidejte vstupní PDF
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
6
7// Zpracování extrakce textu
8var resultContainer = extractor.Process(textExtractorOptions);
9
10// Vytiskněte extrahovaný text
11var extractedText = resultContainer.ResultCollection[0];
12Console.WriteLine(extractedText);
Extrakce Textu z Více PDF
Plugin vám umožňuje extrahovat text z několika PDF současně, což zajišťuje rychlé a efektivní zpracování.
1using var extractor = new TextExtractor();
2var textExtractorOptions = new TextExtractorOptions();
3
4// Přidejte více vstupních PDF
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));
7
8// Zpracování extrakce
9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Výstup extrahovaného textu
12foreach (var result in resultContainer.ResultCollection)
13{
14 Console.WriteLine(result);
15}
Módy Extrakce Textu
Plugin TextExtractor nabízí tři režimy extrakce, což poskytuje flexibilitu na základě vašich potřeb.
- Čistý Režim: Zachovává původní formátování včetně mezer a zarovnání.
- Surový Režim: Extrahuje text bez formátování, užitečné pro zpracování surových dat.
- Prostý Režim: Extrahuje text bez speciálních znaků nebo dalšího formátování.
1var textExtractorOptions = new TextExtractorOptions();
2
3// Nastavit na Čistý režim
4textExtractorOptions.Mode = ExtractionMode.Pure;
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
6
7// Zpracování a výstup
8var resultContainer = extractor.Process(textExtractorOptions);
9Console.WriteLine(resultContainer.ResultCollection[0]);
Jak Zpracovávat Dávkově
Pro velké sady dokumentů můžete využít dávkové zpracování, které vám umožní extrahovat text z několika PDF najednou.
1using var extractor = new TextExtractor();
2var textExtractorOptions = new TextExtractorOptions();
3
4// Přidejte více vstupních PDF
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));
7
8// Definujte výstup pro každý soubor
9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Zpracování extrahovaného textu
12foreach (var result in resultContainer.ResultCollection)
13{
14 Console.WriteLine(result);
15}