PDF Text Extractor

Documentize PDF Text Extractor pro .NET zjednodušuje extrakci textu z PDF dokumentů. Ať už potřebujete čistý, surový nebo prostý text, tento plugin vám umožňuje efektivně extrahovat text při zachování formátování nebo jeho vynechání podle vašich potřeb.

Klíčové Vlastnosti:

  • Čistý Režim: Extrakce textu při zachování původního formátování.
  • Surový Režim: Extrakce textu bez jakéhokoli formátování.
  • Prostý Režim: Extrakce textu bez speciálních znaků nebo formátování.
  • Dávkové Zpracování: Extrakce textu z více PDF najednou.

Jak Extrahovat Text z PDF Dokumentů

Chcete-li extrahovat text z PDF dokumentu, postupujte podle těchto kroků:

  1. Vytvořte instanci třídy TextExtractor.
  2. Vytvořte instanci TextExtractorOptions, abyste nakonfigurovali možnosti extrakce.
  3. Přidejte vstupní PDF soubor pomocí metody AddInput.
  4. Spusťte metodu Process pro extrakci textu.
  5. Získejte extrahovaný text pomocí ResultContainer.ResultCollection.
 1using var extractor = new TextExtractor();
 2var textExtractorOptions = new TextExtractorOptions();
 3
 4// Přidejte vstupní PDF
 5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
 6
 7// Zpracování extrakce textu
 8var resultContainer = extractor.Process(textExtractorOptions);
 9
10// Vytiskněte extrahovaný text
11var extractedText = resultContainer.ResultCollection[0];
12Console.WriteLine(extractedText);

Extrakce Textu z Více PDF

Plugin vám umožňuje extrahovat text z několika PDF současně, což zajišťuje rychlé a efektivní zpracování.

 1using var extractor = new TextExtractor();
 2var textExtractorOptions = new TextExtractorOptions();
 3
 4// Přidejte více vstupních PDF
 5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));
 7
 8// Zpracování extrakce
 9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Výstup extrahovaného textu
12foreach (var result in resultContainer.ResultCollection)
13{
14    Console.WriteLine(result);
15}

Módy Extrakce Textu

Plugin TextExtractor nabízí tři režimy extrakce, což poskytuje flexibilitu na základě vašich potřeb.

  1. Čistý Režim: Zachovává původní formátování včetně mezer a zarovnání.
  2. Surový Režim: Extrahuje text bez formátování, užitečné pro zpracování surových dat.
  3. Prostý Režim: Extrahuje text bez speciálních znaků nebo dalšího formátování.
1var textExtractorOptions = new TextExtractorOptions();
2
3// Nastavit na Čistý režim
4textExtractorOptions.Mode = ExtractionMode.Pure;
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
6
7// Zpracování a výstup
8var resultContainer = extractor.Process(textExtractorOptions);
9Console.WriteLine(resultContainer.ResultCollection[0]);

Jak Zpracovávat Dávkově

Pro velké sady dokumentů můžete využít dávkové zpracování, které vám umožní extrahovat text z několika PDF najednou.

 1using var extractor = new TextExtractor();
 2var textExtractorOptions = new TextExtractorOptions();
 3
 4// Přidejte více vstupních PDF
 5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));
 7
 8// Definujte výstup pro každý soubor
 9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Zpracování extrahovaného textu
12foreach (var result in resultContainer.ResultCollection)
13{
14    Console.WriteLine(result);
15}
 Čeština