PDF Metin Çıkarıcı

Documentize PDF Metin Çıkarıcı for .NET, PDF belgelerinden metin çıkarmayı basitleştirir. Saf, ham veya düz metin ihtiyacınız olsun, bu eklenti metni verimli bir şekilde çıkararak biçimlendirmeyi korumanıza veya ihtiyaçlarınıza göre atmanıza olanak tanır.

Ana Özellikler:

  • Saf Mod: Metni orijinal biçimlendirmesini koruyarak çıkarın.
  • Ham Mod: Biçimlendirme olmadan metni çıkarın.
  • Düz Mod: Özel karakterler veya biçimlendirme olmadan metni çıkarın.
  • Toplu İşlem: Birden fazla PDF’den aynı anda metin çıkarın.

PDF Belgelerinden Metin Nasıl Çıkarılır

Bir PDF belgesinden metin çıkarmak için şu adımları izleyin:

  1. TextExtractor sınıfından bir örnek oluşturun.
  2. Çıkarma seçeneklerini yapılandırmak için TextExtractorOptions örneği oluşturun.
  3. AddInput yöntemi kullanarak girdi PDF dosyasını ekleyin.
  4. Metni çıkarmak için Process yöntemini çalıştırın.
  5. Çıkarılan metne ResultContainer.ResultCollection ile erişin.
 1using var extractor = new TextExtractor();
 2var textExtractorOptions = new TextExtractorOptions();
 3
 4// Girdi PDF'yi ekle
 5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
 6
 7// Metin çıkarımını işle
 8var resultContainer = extractor.Process(textExtractorOptions);
 9
10// Çıkarılan metni yazdır
11var extractedText = resultContainer.ResultCollection[0];
12Console.WriteLine(extractedText);

Birden Fazla PDF’den Metin Çıkarmak

Eklenti, birden fazla PDF’den aynı anda metin çıkarmanıza olanak tanır, böylece hızlı ve verimli bir işlem sağlanır.

 1using var extractor = new TextExtractor();
 2var textExtractorOptions = new TextExtractorOptions();
 3
 4// Birden fazla girdi PDF'yi ekle
 5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));
 7
 8// Çıkarımı işle
 9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Çıkarılan metni çıktı olarak ver
12foreach (var result in resultContainer.ResultCollection)
13{
14    Console.WriteLine(result);
15}

Metin Çıkarım Modları

TextExtractor eklentisi, ihtiyaçlarınıza bağlı olarak esneklik sağlayan üç çıkarım modu sunar.

  1. Saf Mod: Boşluklar ve hizalamalar dahil olmak üzere orijinal biçimlendirmeyi korur.
  2. Ham Mod: Biçimlendirme olmadan metni çıkarır, ham veri işleme için faydalıdır.
  3. Düz Mod: Özel karakterler veya ek biçimlendirme olmadan metni çıkarır.
1var textExtractorOptions = new TextExtractorOptions();
2
3// Saf moda ayarla
4textExtractorOptions.Mode = ExtractionMode.Pure;
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
6
7// İşlem yap ve çıktıyı ver
8var resultContainer = extractor.Process(textExtractorOptions);
9Console.WriteLine(resultContainer.ResultCollection[0]);

Toplu İşlem Nasıl Yapılır

Büyük belge setleri için, aynı anda birden fazla PDF’den metin çıkarmanıza olanak tanıyan toplu işlemden yararlanabilirsiniz.

 1using var extractor = new TextExtractor();
 2var textExtractorOptions = new TextExtractorOptions();
 3
 4// Birden fazla girdi PDF'yi ekle
 5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));
 7
 8// Her dosya için çıktı tanımla
 9var resultContainer = extractor.Process(textExtractorOptions);
10
11// Çıkarılan metni işle
12foreach (var result in resultContainer.ResultCollection)
13{
14    Console.WriteLine(result);
15}
 Türkçe