PDF Text Extractor

Documentize PDF Text Extractor för .NET förenklar utvinning av text från PDF-dokument. Oavsett om du behöver ren, rå eller vanlig text, så tillåter detta plugin att du effektivt extraherar text medan formateringen bevaras eller utelämnas baserat på dina behov.

Nyckelfunktioner:

  • Ren läge: Extrahera text samtidigt som den ursprungliga formateringen bevaras.
  • Rå läge: Extrahera text utan någon formatering.
  • Vanlig läge: Extrahera text utan specialtecken eller formatering.
  • Batchbearbetning: Extrahera text från flera PDF-filer samtidigt.

Hur man extraherar text från PDF-dokument

För att extrahera text från ett PDF-dokument, följ dessa steg:

  1. Skapa en instans av klassen TextExtractor.
  2. Skapa en instans av TextExtractorOptions för att konfigurera extraktionsalternativen.
  3. Lägg till PDF-filen som indata med metoden AddInput.
  4. Kör metoden Process för att extrahera texten.
  5. Åtkomst till den extraherade texten med ResultContainer.ResultCollection.
 1  
 2using var extractor = new TextExtractor();  
 3var textExtractorOptions = new TextExtractorOptions();  
 4
 5// Lägg till input PDF  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));  
 7
 8// Bearbeta textutvinningen  
 9var resultContainer = extractor.Process(textExtractorOptions);  
10
11// Skriv ut den extraherade texten  
12var extractedText = resultContainer.ResultCollection[0];  
13Console.WriteLine(extractedText);  

Extrahera text från flera PDF-filer

Pluginen möjliggör att extrahera text från flera PDF-filer samtidigt, vilket säkerställer snabb och effektiv bearbetning.

 1  
 2using var extractor = new TextExtractor();  
 3var textExtractorOptions = new TextExtractorOptions();  
 4
 5// Lägg till flera input PDFs  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));  
 7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));  
 8
 9// Bearbeta utvinningen  
10var resultContainer = extractor.Process(textExtractorOptions);  
11
12// Utdata den extraherade texten  
13foreach (var result in resultContainer.ResultCollection)  
14{  
15    Console.WriteLine(result);  
16}  

Textutvinningslägen

TextExtractor-pluginen erbjuder tre utvinningslägen, vilket ger flexibilitet baserat på dina behov.

  1. Ren läge: Bevarar den ursprungliga formateringen, inklusive mellanrum och justering.
  2. Rå läge: Extraherar text utan formatering, användbart för rådatabearbetning.
  3. Vanlig läge: Extraherar text utan specialtecken eller ytterligare formatering.
 1  
 2var textExtractorOptions = new TextExtractorOptions();  
 3
 4// Ställ in på Ren läge  
 5textExtractorOptions.Mode = ExtractionMode.Pure;  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));  
 7
 8// Bearbeta och utdata  
 9var resultContainer = extractor.Process(textExtractorOptions);  
10Console.WriteLine(resultContainer.ResultCollection[0]);  

Hur man hanterar batchbearbetning

För stora dokumentuppsättningar kan du utnyttja batchbearbetning, vilket gör att du kan extrahera text från flera PDF-filer på en gång.

 1  
 2using var extractor = new TextExtractor();  
 3var textExtractorOptions = new TextExtractorOptions();  
 4
 5// Lägg till flera input PDFs  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));  
 7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));  
 8
 9// Definiera utdata för varje fil  
10var resultContainer = extractor.Process(textExtractorOptions);  
11
12// Hantera den extraherade texten  
13foreach (var result in resultContainer.ResultCollection)  
14{  
15    Console.WriteLine(result);  
16}  
 Svenska