PDF Text Extractor
Documentize PDF Text Extractor för .NET förenklar utvinning av text från PDF-dokument. Oavsett om du behöver ren, rå eller vanlig text, så tillåter detta plugin att du effektivt extraherar text medan formateringen bevaras eller utelämnas baserat på dina behov.
Nyckelfunktioner:
- Ren läge: Extrahera text samtidigt som den ursprungliga formateringen bevaras.
- Rå läge: Extrahera text utan någon formatering.
- Vanlig läge: Extrahera text utan specialtecken eller formatering.
- Batchbearbetning: Extrahera text från flera PDF-filer samtidigt.
Hur man extraherar text från PDF-dokument
För att extrahera text från ett PDF-dokument, följ dessa steg:
- Skapa en instans av klassen
TextExtractor
. - Skapa en instans av
TextExtractorOptions
för att konfigurera extraktionsalternativen. - Lägg till PDF-filen som indata med metoden
AddInput
. - Kör metoden
Process
för att extrahera texten. - Åtkomst till den extraherade texten med
ResultContainer.ResultCollection
.
1
2using var extractor = new TextExtractor();
3var textExtractorOptions = new TextExtractorOptions();
4
5// Lägg till input PDF
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
7
8// Bearbeta textutvinningen
9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Skriv ut den extraherade texten
12var extractedText = resultContainer.ResultCollection[0];
13Console.WriteLine(extractedText);
Extrahera text från flera PDF-filer
Pluginen möjliggör att extrahera text från flera PDF-filer samtidigt, vilket säkerställer snabb och effektiv bearbetning.
1
2using var extractor = new TextExtractor();
3var textExtractorOptions = new TextExtractorOptions();
4
5// Lägg till flera input PDFs
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));
7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));
8
9// Bearbeta utvinningen
10var resultContainer = extractor.Process(textExtractorOptions);
11
12// Utdata den extraherade texten
13foreach (var result in resultContainer.ResultCollection)
14{
15 Console.WriteLine(result);
16}
Textutvinningslägen
TextExtractor-pluginen erbjuder tre utvinningslägen, vilket ger flexibilitet baserat på dina behov.
- Ren läge: Bevarar den ursprungliga formateringen, inklusive mellanrum och justering.
- Rå läge: Extraherar text utan formatering, användbart för rådatabearbetning.
- Vanlig läge: Extraherar text utan specialtecken eller ytterligare formatering.
1
2var textExtractorOptions = new TextExtractorOptions();
3
4// Ställ in på Ren läge
5textExtractorOptions.Mode = ExtractionMode.Pure;
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
7
8// Bearbeta och utdata
9var resultContainer = extractor.Process(textExtractorOptions);
10Console.WriteLine(resultContainer.ResultCollection[0]);
Hur man hanterar batchbearbetning
För stora dokumentuppsättningar kan du utnyttja batchbearbetning, vilket gör att du kan extrahera text från flera PDF-filer på en gång.
1
2using var extractor = new TextExtractor();
3var textExtractorOptions = new TextExtractorOptions();
4
5// Lägg till flera input PDFs
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));
7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));
8
9// Definiera utdata för varje fil
10var resultContainer = extractor.Process(textExtractorOptions);
11
12// Hantera den extraherade texten
13foreach (var result in resultContainer.ResultCollection)
14{
15 Console.WriteLine(result);
16}