PDF 텍스트 추출기

Documentize PDF 텍스트 추출기 for .NET는 PDF 문서에서 텍스트를 추출하는 과정을 간소화합니다. 순수한 텍스트, 원시 텍스트, 또는 일반 텍스트가 필요하든 이 플러그인을 사용하면 요구 사항에 따라 포맷을 유지하거나 생략하면서 텍스트를 효율적으로 추출할 수 있습니다.

주요 기능:

  • 순수 모드: 원래의 포맷을 유지하면서 텍스트를 추출합니다.
  • 원시 모드: 포맷 없이 텍스트를 추출합니다.
  • 일반 모드: 특수 문자나 포맷 없이 텍스트를 추출합니다.
  • 일괄 처리: 여러 개의 PDF에서 동시에 텍스트를 추출합니다.

PDF 문서에서 텍스트를 추출하는 방법

PDF 문서에서 텍스트를 추출하려면 다음 단계를 따르십시오:

  1. TextExtractor 클래스의 인스턴스를 생성합니다.
  2. 추출 옵션을 구성하기 위해 TextExtractorOptions 인스턴스를 생성합니다.
  3. AddInput 메서드를 사용하여 입력 PDF 파일을 추가합니다.
  4. Process 메서드를 실행하여 텍스트를 추출합니다.
  5. ResultContainer.ResultCollection을 사용하여 추출된 텍스트에 접근합니다.
 1  
 2using var extractor = new TextExtractor();  
 3var textExtractorOptions = new TextExtractorOptions();  
 4
 5// 입력 PDF 추가  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));  
 7
 8// 텍스트 추출 처리  
 9var resultContainer = extractor.Process(textExtractorOptions);  
10
11// 추출된 텍스트 출력  
12var extractedText = resultContainer.ResultCollection[0];  
13Console.WriteLine(extractedText);  

여러 PDF에서 텍스트 추출하기

이 플러그인은 여러 개의 PDF에서 동시에 텍스트를 추출할 수 있어 빠르고 효율적인 처리를 보장합니다.

 1  
 2using var extractor = new TextExtractor();  
 3var textExtractorOptions = new TextExtractorOptions();  
 4
 5// 여러 개의 입력 PDF 추가  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));  
 7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));  
 8
 9// 추출 처리  
10var resultContainer = extractor.Process(textExtractorOptions);  
11
12// 추출된 텍스트 출력  
13foreach (var result in resultContainer.ResultCollection)  
14{  
15    Console.WriteLine(result);  
16}  

텍스트 추출 모드

TextExtractor 플러그인은 귀하의 필요에 따라 유연성을 제공하는 세 가지 추출 모드를 제공합니다.

  1. 순수 모드: 공간과 정렬을 포함한 원래의 포맷을 유지합니다.
  2. 원시 모드: 포맷 없이 텍스트를 추출하여 원시 데이터 처리를 용이하게 합니다.
  3. 일반 모드: 특수 문자나 추가 포맷 없이 텍스트를 추출합니다.
 1  
 2var textExtractorOptions = new TextExtractorOptions();  
 3
 4// 순수 모드로 설정  
 5textExtractorOptions.Mode = ExtractionMode.Pure;  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));  
 7
 8// 처리 및 출력  
 9var resultContainer = extractor.Process(textExtractorOptions);  
10Console.WriteLine(resultContainer.ResultCollection[0]);  

배치 처리 방법

대규모 문서 세트의 경우 배치 처리를 활용하여 여러 개의 PDF에서 동시에 텍스트를 추출할 수 있습니다.

 1  
 2using var extractor = new TextExtractor();  
 3var textExtractorOptions = new TextExtractorOptions();  
 4
 5// 여러 개의 입력 PDF 추가  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));  
 7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));  
 8
 9// 각 파일에 대한 출력 정의  
10var resultContainer = extractor.Process(textExtractorOptions);  
11
12// 추출된 텍스트 처리  
13foreach (var result in resultContainer.ResultCollection)  
14{  
15    Console.WriteLine(result);  
16}  
 한국어