PDF Metin Çıkartıcı

Documentize PDF Metin Çıkartıcı for .NET, PDF belgelerinden metin çıkarmayı basitleştirir. İster saf, ham, ister düz metin ihtiyacınız olsun, bu eklenti, biçimlendirmeyi korurken veya ihtiyaçlarınıza göre atlayarak metni verimli bir şekilde çıkarmanıza olanak tanır.

Ana Özellikler:

  • Saf Mod: Metni, orijinal biçimlendirmesini koruyarak çıkartır.
  • Ham Mod: Biçimlendirme olmadan metni çıkartır.
  • Düz Mod: Özel karakterler veya biçimlendirme olmadan metni çıkartır.
  • Toplu İşleme: Aynı anda birden fazla PDF’den metin çıkartır.

PDF Belgelerinden Metin Çıkartma Yöntemi

Bir PDF belgesinden metin çıkartmak için bu adımları izleyin:

  1. TextExtractor sınıfının bir örneğini oluşturun.
  2. Çıkarma seçeneklerini yapılandırmak için TextExtractorOptions örneğini oluşturun.
  3. Giriş PDF dosyasını AddInput yöntemiyle ekleyin.
  4. Metni çıkarmak için Process yöntemini çalıştırın.
  5. Çıkarılan metne ResultContainer.ResultCollection kullanarak erişin.
 1  
 2using var extractor = new TextExtractor();  
 3var textExtractorOptions = new TextExtractorOptions();  
 4
 5// Giriş PDF'yi ekle  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));  
 7
 8// Metin çıkarımını işle  
 9var resultContainer = extractor.Process(textExtractorOptions);  
10
11// Çıkarılan metni yazdır  
12var extractedText = resultContainer.ResultCollection[0];  
13Console.WriteLine(extractedText);  

Birden Fazla PDF’den Metin Çıkartma

Eklenti, aynı anda birden fazla PDF’den metin çıkartmanıza olanak tanır; hızlı ve verimli bir işlem sağlar.

 1  
 2using var extractor = new TextExtractor();  
 3var textExtractorOptions = new TextExtractorOptions();  
 4
 5// Birden fazla giriş PDF'sini ekle  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));  
 7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));  
 8
 9// Çıkarımı işle  
10var resultContainer = extractor.Process(textExtractorOptions);  
11
12// Çıkarılan metni çıktı al  
13foreach (var result in resultContainer.ResultCollection)  
14{  
15    Console.WriteLine(result);  
16}  

Metin Çıkartma Modları

TextExtractor eklentisi, ihtiyaçlarınıza göre esneklik sağlayan üç çıkarım modu sunar.

  1. Saf Mod: Boşluklar ve hizalamalar dahil, orijinal biçimlendirmeyi korur.
  2. Ham Mod: Biçimlendirme olmadan metni çıkarır; ham veri işleme için kullanılır.
  3. Düz Mod: Özel karakterler veya ek biçimlendirme olmadan metni çıkarır.
 1  
 2var textExtractorOptions = new TextExtractorOptions();  
 3
 4// Saf moda ayarla  
 5textExtractorOptions.Mode = ExtractionMode.Pure;  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));  
 7
 8// İşle ve çıktıyı al  
 9var resultContainer = extractor.Process(textExtractorOptions);  
10Console.WriteLine(resultContainer.ResultCollection[0]);  

Toplu İşlem Nasıl Yapılır

Büyük belge setleri için, birden fazla PDF’den aynı anda metin çıkarmanıza olanak tanıyan toplu işlemi kullanabilirsiniz.

 1  
 2using var extractor = new TextExtractor();  
 3var textExtractorOptions = new TextExtractorOptions();  
 4
 5// Birden fazla giriş PDF'sini ekle  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));  
 7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));  
 8
 9// Her dosya için çıkışı tanımla  
10var resultContainer = extractor.Process(textExtractorOptions);  
11
12// Çıkarılan metni işle  
13foreach (var result in resultContainer.ResultCollection)  
14{  
15    Console.WriteLine(result);  
16}  
 Türkçe