PDF Metin Çıkarıcı
Documentize PDF Metin Çıkarıcı for .NET, PDF belgelerinden metin çıkarmayı basitleştirir. Saf, ham veya düz metin ihtiyacınız olsun, bu eklenti metni verimli bir şekilde çıkararak biçimlendirmeyi korumanıza veya ihtiyaçlarınıza göre atmanıza olanak tanır.
Ana Özellikler:
- Saf Mod: Metni orijinal biçimlendirmesini koruyarak çıkarın.
- Ham Mod: Biçimlendirme olmadan metni çıkarın.
- Düz Mod: Özel karakterler veya biçimlendirme olmadan metni çıkarın.
- Toplu İşlem: Birden fazla PDF’den aynı anda metin çıkarın.
PDF Belgelerinden Metin Nasıl Çıkarılır
Bir PDF belgesinden metin çıkarmak için şu adımları izleyin:
TextExtractor
sınıfından bir örnek oluşturun.- Çıkarma seçeneklerini yapılandırmak için
TextExtractorOptions
örneği oluşturun. AddInput
yöntemi kullanarak girdi PDF dosyasını ekleyin.- Metni çıkarmak için
Process
yöntemini çalıştırın. - Çıkarılan metne
ResultContainer.ResultCollection
ile erişin.
1using var extractor = new TextExtractor();
2var textExtractorOptions = new TextExtractorOptions();
3
4// Girdi PDF'yi ekle
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
6
7// Metin çıkarımını işle
8var resultContainer = extractor.Process(textExtractorOptions);
9
10// Çıkarılan metni yazdır
11var extractedText = resultContainer.ResultCollection[0];
12Console.WriteLine(extractedText);
Birden Fazla PDF’den Metin Çıkarmak
Eklenti, birden fazla PDF’den aynı anda metin çıkarmanıza olanak tanır, böylece hızlı ve verimli bir işlem sağlanır.
1using var extractor = new TextExtractor();
2var textExtractorOptions = new TextExtractorOptions();
3
4// Birden fazla girdi PDF'yi ekle
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));
7
8// Çıkarımı işle
9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Çıkarılan metni çıktı olarak ver
12foreach (var result in resultContainer.ResultCollection)
13{
14 Console.WriteLine(result);
15}
Metin Çıkarım Modları
TextExtractor eklentisi, ihtiyaçlarınıza bağlı olarak esneklik sağlayan üç çıkarım modu sunar.
- Saf Mod: Boşluklar ve hizalamalar dahil olmak üzere orijinal biçimlendirmeyi korur.
- Ham Mod: Biçimlendirme olmadan metni çıkarır, ham veri işleme için faydalıdır.
- Düz Mod: Özel karakterler veya ek biçimlendirme olmadan metni çıkarır.
1var textExtractorOptions = new TextExtractorOptions();
2
3// Saf moda ayarla
4textExtractorOptions.Mode = ExtractionMode.Pure;
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
6
7// İşlem yap ve çıktıyı ver
8var resultContainer = extractor.Process(textExtractorOptions);
9Console.WriteLine(resultContainer.ResultCollection[0]);
Toplu İşlem Nasıl Yapılır
Büyük belge setleri için, aynı anda birden fazla PDF’den metin çıkarmanıza olanak tanıyan toplu işlemden yararlanabilirsiniz.
1using var extractor = new TextExtractor();
2var textExtractorOptions = new TextExtractorOptions();
3
4// Birden fazla girdi PDF'yi ekle
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));
7
8// Her dosya için çıktı tanımla
9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Çıkarılan metni işle
12foreach (var result in resultContainer.ResultCollection)
13{
14 Console.WriteLine(result);
15}