Extract Text

يسهل مستخرج PDF من Documentize لـ .NET استخراج النص من مستندات PDF. سواء كنت بحاجة إلى نص نقي، أو خام، أو نص عادي، فإن هذه الإضافة تتيح لك استخراج النص بكفاءة مع الحفاظ على التنسيق أو حذفه بناءً على احتياجاتك.

كيفية استخراج النص من ملف PDF

لاستخراج النص من مستند PDF، اتبع الخطوات التالية:

  1. أنشئ مثيلاً لـ ExtractTextOptions لتكوين خيارات الاستخراج.
  2. أضف ملف PDF المدخل باستخدام طريقة AddInput.
  3. قم بتشغيل طريقة ExtractText لاستخراج النص.
  4. الوصول إلى النص المستخرج باستخدام ResultContainer.ResultCollection.
1// إنشاء كائن ExtractTextOptions لتعيين التعليمات
2var options = new ExtractTextOptions();
3// إضافة مسار ملف الإدخال
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// تنفيذ العملية
6var results = PdfExtractor.ExtractText(options);
7// الحصول على النص المستخرج من كائن ResultContainer
8var textExtracted = results.ResultCollection[0].ToString();

أوضاع استخراج النص

يوفر ExtractTextOptions ثلاث أوضاع للاستخراج، مما يوفر المرونة بناءً على احتياجاتك.

  1. الوضع النقي: يحافظ على التنسيق الأصلي، بما في ذلك المسافات والمحاذاة.
  2. الوضع الخام: يستخرج النص دون تنسيق، وهو مفيد لمعالجة البيانات الخام.
  3. الوضع المفلطح: يمثل محتوى PDF مع تمييز أجزاء النص حسب إحداثياتها.
1// إنشاء كائن ExtractTextOptions لتعيين TextFormattingMode
2var options = new ExtractTextOptions(TextFormattingMode.Pure);
3// إضافة مسار ملف الإدخال
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// تنفيذ العملية
6var results = PdfExtractor.ExtractText(options);
7// الحصول على النص المستخرج من كائن ResultContainer
8var textExtracted = results.ResultCollection[0].ToString();

الميزات الرئيسية:

  • الوضع النقي: استخراج النص مع الحفاظ على تنسيقه الأصلي.
  • الوضع الخام: استخراج النص بدون أي تنسيق.
  • الوضع المفلطح: استخراج النص بدون أحرف خاصة أو تنسيق.
 عربي