PDF Text Extractor
Documentize PDF Text Extractor för .NET förenklar extrahering av text från PDF-dokument. Oavsett om du behöver ren, rå eller vanlig text, låter detta plugin dig extrahera text effektivt medan formatet bevaras eller utelämnas baserat på dina behov.
Nyckelfunktioner:
- Ren läge: Extrahera text medan den ursprungliga formateringen bevaras.
- Rå läge: Extrahera text utan format.
- Vanlig läge: Extrahera text utan specialtecken eller format.
- Batchbehandling: Extrahera text från flera PDF:er samtidigt.
Hur man extraherar text från PDF-dokument
För att extrahera text från ett PDF-dokument, följ dessa steg:
- Skapa en instans av klassen
TextExtractor
. - Skapa en instans av
TextExtractorOptions
för att konfigurera extraheringsalternativen. - Lägg till PDF-infilen med hjälp av
AddInput
-metoden. - Kör
Process
-metoden för att extrahera texten. - Åtkomst till den extraherade texten med
ResultContainer.ResultCollection
.
1using var extractor = new TextExtractor();
2var textExtractorOptions = new TextExtractorOptions();
3
4// Lägg till PDF-infilen
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
6
7// Behandla textutvinningen
8var resultContainer = extractor.Process(textExtractorOptions);
9
10// Skriv ut den extraherade texten
11var extractedText = resultContainer.ResultCollection[0];
12Console.WriteLine(extractedText);
Extrahera text från flera PDF:er
Pluginet möjliggör extrahering av text från flera PDF:er samtidigt, vilket säkerställer snabb och effektiv behandling.
1using var extractor = new TextExtractor();
2var textExtractorOptions = new TextExtractorOptions();
3
4// Lägg till flera PDF:er
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));
7
8// Behandla extraktionen
9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Print the extracted text
12foreach (var result in resultContainer.ResultCollection)
13{
14 Console.WriteLine(result);
15}
Textutvinningslägen
TextExtractor-pluginet erbjuder tre extraheringslägen, vilket ger flexibilitet baserat på dina behov.
- Ren läge: Bevarar den ursprungliga formateringen, inklusive mellanslag och justering.
- Rå läge: Extraherar texten utan format, användbart för bearbetning av rådata.
- Vanlig läge: Extraherar text utan specialtecken eller ytterligare format.
1var textExtractorOptions = new TextExtractorOptions();
2
3// Ställ in på ren läge
4textExtractorOptions.Mode = ExtractionMode.Pure;
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
6
7// Behandla och skriv ut
8var resultContainer = extractor.Process(textExtractorOptions);
9Console.WriteLine(resultContainer.ResultCollection[0]);
Hur man hanterar batchbehandling
För stora dokumentuppsättningar kan du utnyttja batchbehandling, vilket gör det möjligt för dig att extrahera text från flera PDF:er på en gång.
1using var extractor = new TextExtractor();
2var textExtractorOptions = new TextExtractorOptions();
3
4// Lägg till flera PDF:er
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));
7
8// Definiera utgång för varje fil
9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Hantera den extraherade texten
12foreach (var result in resultContainer.ResultCollection)
13{
14 Console.WriteLine(result);
15}