PDF 텍스트 추출기

Documentize PDF 텍스트 추출기 for .NET는 PDF 문서에서 텍스트를 추출하는 과정을 간소화합니다. 순수, 원시 또는 일반 텍스트가 필요한 경우, 이 플러그인을 사용하면 형식을 유지하거나 필요에 따라 생략하면서 효율적으로 텍스트를 추출할 수 있습니다.

주요 기능:

  • 순수 모드: 원본 형식을 유지하면서 텍스트를 추출합니다.
  • 원시 모드: 형식 없이 텍스트를 추출합니다.
  • 일반 모드: 특수 문자나 형식 없이 텍스트를 추출합니다.
  • 배치 처리: 여러 PDF에서 동시에 텍스트를 추출합니다.

PDF 문서에서 텍스트 추출하는 방법

PDF 문서에서 텍스트를 추출하려면 다음 단계를 따르세요:

  1. TextExtractor 클래스의 인스턴스를 만듭니다.
  2. 추출 옵션을 구성하기 위해 TextExtractorOptions의 인스턴스를 만듭니다.
  3. AddInput 메서드를 사용하여 입력 PDF 파일을 추가합니다.
  4. Process 메서드를 실행하여 텍스트를 추출합니다.
  5. ResultContainer.ResultCollection을 사용하여 추출된 텍스트에 접근합니다.
 1using var extractor = new TextExtractor();
 2var textExtractorOptions = new TextExtractorOptions();
 3
 4// 입력 PDF 추가
 5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
 6
 7// 텍스트 추출 처리
 8var resultContainer = extractor.Process(textExtractorOptions);
 9
10// 추출된 텍스트 출력
11var extractedText = resultContainer.ResultCollection[0];
12Console.WriteLine(extractedText);

여러 PDF에서 텍스트 추출하기

이 플러그인은 동시에 여러 PDF에서 텍스트를 추출할 수 있어 빠르고 효율적인 처리를 보장합니다.

 1using var extractor = new TextExtractor();
 2var textExtractorOptions = new TextExtractorOptions();
 3
 4// 여러 입력 PDF 추가
 5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));
 7
 8// 추출 처리
 9var resultContainer = extractor.Process(textExtractorOptions);
10
11// 추출된 텍스트 출력
12foreach (var result in resultContainer.ResultCollection)
13{
14    Console.WriteLine(result);
15}

텍스트 추출 모드

TextExtractor 플러그인은 필요에 따라 유연성을 제공하는 세 가지 추출 모드를 제공합니다.

  1. 순수 모드: 공백 및 정렬을 포함한 원본 형식을 유지합니다.
  2. 원시 모드: 형식 없이 텍스트를 추출하여 원시 데이터 처리를 유용하게 합니다.
  3. 일반 모드: 특수 문자나 추가 형식 없이 텍스트를 추출합니다.
1var textExtractorOptions = new TextExtractorOptions();
2
3// 순수 모드로 설정
4textExtractorOptions.Mode = ExtractionMode.Pure;
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
6
7// 처리 및 출력
8var resultContainer = extractor.Process(textExtractorOptions);
9Console.WriteLine(resultContainer.ResultCollection[0]);

배치 처리 방법

대규모 문서 세트의 경우 배치 처리를 활용하여 여러 PDF에서 동시에 텍스트를 추출할 수 있습니다.

 1using var extractor = new TextExtractor();
 2var textExtractorOptions = new TextExtractorOptions();
 3
 4// 여러 입력 PDF 추가
 5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));
 7
 8// 각 파일에 대한 출력 정의
 9var resultContainer = extractor.Process(textExtractorOptions);
10
11// 추출된 텍스트 처리
12foreach (var result in resultContainer.ResultCollection)
13{
14    Console.WriteLine(result);
15}
 한국어