PDF Text Extractor

إن إ extractor PDF للـ Documentize لـ .NET يبسط عملية استخراج النصوص من المستندات PDF. سواء كنت بحاجة إلى نص خام أو نص عادي، يتيح لك هذا المكون الإضافي استخراج النص بكفاءة مع الحفاظ على التنسيق أو إغفاله بناءً على احتياجاتك.

كيفية استخراج النص من PDF

لاستخراج النص من مستند PDF، اتبع هذه الخطوات:

  1. أنشئ نسخة من TextExtractorOptions لتكوين خيارات الاستخراج.
  2. أضف ملف PDF المدخل باستخدام طريقة AddInput.
  3. شغل طريقة Process لاستخراج النص.
  4. الوصول إلى النص المستخرج باستخدام ResultContainer.ResultCollection.
1// إنشاء كائن TextExtractorOptions لوضع التعليمات
2var options = new TextExtractorOptions();
3// إضافة مسار ملف الإدخال
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// تنفيذ العملية
6var results = TextExtractor.Process(options);
7// الحصول على النص المستخرج من كائن ResultContainer
8var textExtracted = results.ResultCollection[0].ToString();

أوضاع استخراج النص

يقدم مكون TextExtractor الإضافي ثلاثة أوضاع للاستخراج، مما يوفر مرونة بناءً على احتياجاتك.

  1. الوضع النقي: يحافظ على التنسيق الأصلي، بما في ذلك الفراغات والمحاذاة.
  2. الوضع الخام: يستخرج النص بدون تنسيق، مفيد لمعالجة البيانات الخام.
  3. الوضع المسطح: يمثل محتوى PDF مع وضع قطع النص بناءً على إحداثياتها.
1// إنشاء كائن TextExtractorOptions لتعيين TextFormattingMode
2var options = new TextExtractorOptions(TextFormattingMode.Pure);
3// إضافة مسار ملف الإدخال
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// تنفيذ العملية
6var results = TextExtractor.Process(options);
7// الحصول على النص المستخرج من كائن ResultContainer
8var textExtracted = results.ResultCollection[0].ToString();

الميزات الرئيسية:

  • الوضع النقي: استخراج النص مع الحفاظ على تنسيقه الأصلي.
  • الوضع الخام: استخراج النص بدون أي تنسيق.
  • الوضع المسطح: Extract نص بدون أحرف خاصة أو تنسيق.
 عربي