PDF 텍스트 추출기
Documentize PDF 텍스트 추출기 for .NET는 PDF 문서에서 텍스트를 추출하는 과정을 간소화합니다. 순수, 원시 또는 일반 텍스트가 필요한 경우, 이 플러그인을 사용하면 형식을 유지하거나 필요에 따라 생략하면서 효율적으로 텍스트를 추출할 수 있습니다.
주요 기능:
- 순수 모드: 원본 형식을 유지하면서 텍스트를 추출합니다.
- 원시 모드: 형식 없이 텍스트를 추출합니다.
- 일반 모드: 특수 문자나 형식 없이 텍스트를 추출합니다.
- 배치 처리: 여러 PDF에서 동시에 텍스트를 추출합니다.
PDF 문서에서 텍스트 추출하는 방법
PDF 문서에서 텍스트를 추출하려면 다음 단계를 따르세요:
TextExtractor
클래스의 인스턴스를 만듭니다.- 추출 옵션을 구성하기 위해
TextExtractorOptions
의 인스턴스를 만듭니다. AddInput
메서드를 사용하여 입력 PDF 파일을 추가합니다.Process
메서드를 실행하여 텍스트를 추출합니다.ResultContainer.ResultCollection
을 사용하여 추출된 텍스트에 접근합니다.
1using var extractor = new TextExtractor();
2var textExtractorOptions = new TextExtractorOptions();
3
4// 입력 PDF 추가
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
6
7// 텍스트 추출 처리
8var resultContainer = extractor.Process(textExtractorOptions);
9
10// 추출된 텍스트 출력
11var extractedText = resultContainer.ResultCollection[0];
12Console.WriteLine(extractedText);
여러 PDF에서 텍스트 추출하기
이 플러그인은 동시에 여러 PDF에서 텍스트를 추출할 수 있어 빠르고 효율적인 처리를 보장합니다.
1using var extractor = new TextExtractor();
2var textExtractorOptions = new TextExtractorOptions();
3
4// 여러 입력 PDF 추가
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));
7
8// 추출 처리
9var resultContainer = extractor.Process(textExtractorOptions);
10
11// 추출된 텍스트 출력
12foreach (var result in resultContainer.ResultCollection)
13{
14 Console.WriteLine(result);
15}
텍스트 추출 모드
TextExtractor 플러그인은 필요에 따라 유연성을 제공하는 세 가지 추출 모드를 제공합니다.
- 순수 모드: 공백 및 정렬을 포함한 원본 형식을 유지합니다.
- 원시 모드: 형식 없이 텍스트를 추출하여 원시 데이터 처리를 유용하게 합니다.
- 일반 모드: 특수 문자나 추가 형식 없이 텍스트를 추출합니다.
1var textExtractorOptions = new TextExtractorOptions();
2
3// 순수 모드로 설정
4textExtractorOptions.Mode = ExtractionMode.Pure;
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
6
7// 처리 및 출력
8var resultContainer = extractor.Process(textExtractorOptions);
9Console.WriteLine(resultContainer.ResultCollection[0]);
배치 처리 방법
대규모 문서 세트의 경우 배치 처리를 활용하여 여러 PDF에서 동시에 텍스트를 추출할 수 있습니다.
1using var extractor = new TextExtractor();
2var textExtractorOptions = new TextExtractorOptions();
3
4// 여러 입력 PDF 추가
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));
7
8// 각 파일에 대한 출력 정의
9var resultContainer = extractor.Process(textExtractorOptions);
10
11// 추출된 텍스트 처리
12foreach (var result in resultContainer.ResultCollection)
13{
14 Console.WriteLine(result);
15}