PDF Text Extractor

Documentize PDF Text Extractor för .NET förenklar extrahering av text från PDF-dokument. Oavsett om du behöver ren, rå eller vanlig text, låter detta plugin dig extrahera text effektivt medan formatet bevaras eller utelämnas baserat på dina behov.

Nyckelfunktioner:

  • Ren läge: Extrahera text medan den ursprungliga formateringen bevaras.
  • Rå läge: Extrahera text utan format.
  • Vanlig läge: Extrahera text utan specialtecken eller format.
  • Batchbehandling: Extrahera text från flera PDF:er samtidigt.

Hur man extraherar text från PDF-dokument

För att extrahera text från ett PDF-dokument, följ dessa steg:

  1. Skapa en instans av klassen TextExtractor.
  2. Skapa en instans av TextExtractorOptions för att konfigurera extraheringsalternativen.
  3. Lägg till PDF-infilen med hjälp av AddInput-metoden.
  4. Kör Process-metoden för att extrahera texten.
  5. Åtkomst till den extraherade texten med ResultContainer.ResultCollection.
 1using var extractor = new TextExtractor();
 2var textExtractorOptions = new TextExtractorOptions();
 3
 4// Lägg till PDF-infilen
 5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
 6
 7// Behandla textutvinningen
 8var resultContainer = extractor.Process(textExtractorOptions);
 9
10// Skriv ut den extraherade texten
11var extractedText = resultContainer.ResultCollection[0];
12Console.WriteLine(extractedText);

Extrahera text från flera PDF:er

Pluginet möjliggör extrahering av text från flera PDF:er samtidigt, vilket säkerställer snabb och effektiv behandling.

 1using var extractor = new TextExtractor();
 2var textExtractorOptions = new TextExtractorOptions();
 3
 4// Lägg till flera PDF:er
 5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));
 7
 8// Behandla extraktionen
 9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Print the extracted text
12foreach (var result in resultContainer.ResultCollection)
13{
14    Console.WriteLine(result);
15}

Textutvinningslägen

TextExtractor-pluginet erbjuder tre extraheringslägen, vilket ger flexibilitet baserat på dina behov.

  1. Ren läge: Bevarar den ursprungliga formateringen, inklusive mellanslag och justering.
  2. Rå läge: Extraherar texten utan format, användbart för bearbetning av rådata.
  3. Vanlig läge: Extraherar text utan specialtecken eller ytterligare format.
1var textExtractorOptions = new TextExtractorOptions();
2
3// Ställ in på ren läge
4textExtractorOptions.Mode = ExtractionMode.Pure;
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
6
7// Behandla och skriv ut
8var resultContainer = extractor.Process(textExtractorOptions);
9Console.WriteLine(resultContainer.ResultCollection[0]);

Hur man hanterar batchbehandling

För stora dokumentuppsättningar kan du utnyttja batchbehandling, vilket gör det möjligt för dig att extrahera text från flera PDF:er på en gång.

 1using var extractor = new TextExtractor();
 2var textExtractorOptions = new TextExtractorOptions();
 3
 4// Lägg till flera PDF:er
 5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));
 7
 8// Definiera utgång för varje fil
 9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Hantera den extraherade texten
12foreach (var result in resultContainer.ResultCollection)
13{
14    Console.WriteLine(result);
15}
 Svenska