PDF 텍스트 추출기
Documentize PDF 텍스트 추출기 for .NET는 PDF 문서에서 텍스트를 추출하는 과정을 간소화합니다. 순수한 텍스트, 원시 텍스트, 또는 일반 텍스트가 필요하든 이 플러그인을 사용하면 요구 사항에 따라 포맷을 유지하거나 생략하면서 텍스트를 효율적으로 추출할 수 있습니다.
주요 기능:
- 순수 모드: 원래의 포맷을 유지하면서 텍스트를 추출합니다.
- 원시 모드: 포맷 없이 텍스트를 추출합니다.
- 일반 모드: 특수 문자나 포맷 없이 텍스트를 추출합니다.
- 일괄 처리: 여러 개의 PDF에서 동시에 텍스트를 추출합니다.
PDF 문서에서 텍스트를 추출하는 방법
PDF 문서에서 텍스트를 추출하려면 다음 단계를 따르십시오:
TextExtractor
클래스의 인스턴스를 생성합니다.- 추출 옵션을 구성하기 위해
TextExtractorOptions
인스턴스를 생성합니다. AddInput
메서드를 사용하여 입력 PDF 파일을 추가합니다.Process
메서드를 실행하여 텍스트를 추출합니다.ResultContainer.ResultCollection
을 사용하여 추출된 텍스트에 접근합니다.
1
2using var extractor = new TextExtractor();
3var textExtractorOptions = new TextExtractorOptions();
4
5// 입력 PDF 추가
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
7
8// 텍스트 추출 처리
9var resultContainer = extractor.Process(textExtractorOptions);
10
11// 추출된 텍스트 출력
12var extractedText = resultContainer.ResultCollection[0];
13Console.WriteLine(extractedText);
여러 PDF에서 텍스트 추출하기
이 플러그인은 여러 개의 PDF에서 동시에 텍스트를 추출할 수 있어 빠르고 효율적인 처리를 보장합니다.
1
2using var extractor = new TextExtractor();
3var textExtractorOptions = new TextExtractorOptions();
4
5// 여러 개의 입력 PDF 추가
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));
7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));
8
9// 추출 처리
10var resultContainer = extractor.Process(textExtractorOptions);
11
12// 추출된 텍스트 출력
13foreach (var result in resultContainer.ResultCollection)
14{
15 Console.WriteLine(result);
16}
텍스트 추출 모드
TextExtractor 플러그인은 귀하의 필요에 따라 유연성을 제공하는 세 가지 추출 모드를 제공합니다.
- 순수 모드: 공간과 정렬을 포함한 원래의 포맷을 유지합니다.
- 원시 모드: 포맷 없이 텍스트를 추출하여 원시 데이터 처리를 용이하게 합니다.
- 일반 모드: 특수 문자나 추가 포맷 없이 텍스트를 추출합니다.
1
2var textExtractorOptions = new TextExtractorOptions();
3
4// 순수 모드로 설정
5textExtractorOptions.Mode = ExtractionMode.Pure;
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
7
8// 처리 및 출력
9var resultContainer = extractor.Process(textExtractorOptions);
10Console.WriteLine(resultContainer.ResultCollection[0]);
배치 처리 방법
대규모 문서 세트의 경우 배치 처리를 활용하여 여러 개의 PDF에서 동시에 텍스트를 추출할 수 있습니다.
1
2using var extractor = new TextExtractor();
3var textExtractorOptions = new TextExtractorOptions();
4
5// 여러 개의 입력 PDF 추가
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));
7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));
8
9// 각 파일에 대한 출력 정의
10var resultContainer = extractor.Process(textExtractorOptions);
11
12// 추출된 텍스트 처리
13foreach (var result in resultContainer.ResultCollection)
14{
15 Console.WriteLine(result);
16}