PDF 텍스트 추출기

Documentize PDF 텍스트 추출기 for .NET는 PDF 문서에서 텍스트를 추출하는 과정을 간소화합니다. 순수한 텍스트, 원시 텍스트, 또는 일반 텍스트가 필요하든 이 플러그인을 사용하면 요구 사항에 따라 포맷을 유지하거나 생략하면서 텍스트를 효율적으로 추출할 수 있습니다.

주요 기능:

순수 모드: 원래의 포맷을 유지하면서 텍스트를 추출합니다.
원시 모드: 포맷 없이 텍스트를 추출합니다.
일반 모드: 특수 문자나 포맷 없이 텍스트를 추출합니다.
일괄 처리: 여러 개의 PDF에서 동시에 텍스트를 추출합니다.

PDF 문서에서 텍스트를 추출하는 방법

PDF 문서에서 텍스트를 추출하려면 다음 단계를 따르십시오:

TextExtractor 클래스의 인스턴스를 생성합니다.
추출 옵션을 구성하기 위해 TextExtractorOptions 인스턴스를 생성합니다.
AddInput 메서드를 사용하여 입력 PDF 파일을 추가합니다.
Process 메서드를 실행하여 텍스트를 추출합니다.
ResultContainer.ResultCollection을 사용하여 추출된 텍스트에 접근합니다.

 1  
 2using var extractor = new TextExtractor();  
 3var textExtractorOptions = new TextExtractorOptions();  
 4
 5// 입력 PDF 추가  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));  
 7
 8// 텍스트 추출 처리  
 9var resultContainer = extractor.Process(textExtractorOptions);  
10
11// 추출된 텍스트 출력  
12var extractedText = resultContainer.ResultCollection[0];  
13Console.WriteLine(extractedText);

여러 PDF에서 텍스트 추출하기

이 플러그인은 여러 개의 PDF에서 동시에 텍스트를 추출할 수 있어 빠르고 효율적인 처리를 보장합니다.

 1  
 2using var extractor = new TextExtractor();  
 3var textExtractorOptions = new TextExtractorOptions();  
 4
 5// 여러 개의 입력 PDF 추가  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));  
 7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));  
 8
 9// 추출 처리  
10var resultContainer = extractor.Process(textExtractorOptions);  
11
12// 추출된 텍스트 출력  
13foreach (var result in resultContainer.ResultCollection)  
14{  
15    Console.WriteLine(result);  
16}

텍스트 추출 모드

TextExtractor 플러그인은 귀하의 필요에 따라 유연성을 제공하는 세 가지 추출 모드를 제공합니다.

순수 모드: 공간과 정렬을 포함한 원래의 포맷을 유지합니다.
원시 모드: 포맷 없이 텍스트를 추출하여 원시 데이터 처리를 용이하게 합니다.
일반 모드: 특수 문자나 추가 포맷 없이 텍스트를 추출합니다.

 1  
 2var textExtractorOptions = new TextExtractorOptions();  
 3
 4// 순수 모드로 설정  
 5textExtractorOptions.Mode = ExtractionMode.Pure;  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));  
 7
 8// 처리 및 출력  
 9var resultContainer = extractor.Process(textExtractorOptions);  
10Console.WriteLine(resultContainer.ResultCollection[0]);

배치 처리 방법

대규모 문서 세트의 경우 배치 처리를 활용하여 여러 개의 PDF에서 동시에 텍스트를 추출할 수 있습니다.

 1  
 2using var extractor = new TextExtractor();  
 3var textExtractorOptions = new TextExtractorOptions();  
 4
 5// 여러 개의 입력 PDF 추가  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));  
 7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));  
 8
 9// 각 파일에 대한 출력 정의  
10var resultContainer = extractor.Process(textExtractorOptions);  
11
12// 추출된 텍스트 처리  
13foreach (var result in resultContainer.ResultCollection)  
14{  
15    Console.WriteLine(result);  
16}