Extract Text

The Documentize PDF Extractor for .NET يبسط عملية استخراج النص من مستندات PDF. سواء كنت بحاجة إلى نص نقي، خام، أو بسيط، يتيح لك هذا الملحق استخراج النص بفعالية مع الحفاظ على التنسيق أو إهماله حسب احتياجاتك.

كيفية استخراج النص من PDF

لاستخراج النص من مستند PDF، اتبع الخطوات التالية:

  1. أنشئ مثالًا من ExtractTextOptions لتكوين خيارات الاستخراج.
  2. أضف ملف PDF الإدخال باستخدام طريقة AddInput.
  3. شغّل طريقة Extract لاستخراج النص.
  4. احصل على النص المستخرج عبر ResultContainer.ResultCollection.
1// Create ExtractTextOptions object to set instructions
2var options = new ExtractTextOptions();
3// Add input file path
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Perform the process
6var results = PdfExtractor.Extract(options);
7// Get the extracted text from the ResultContainer object
8var textExtracted = results.ResultCollection[0].ToString();

أوضاع استخراج النص

توفر ExtractTextOptions ثلاث أوضاع للاستخراج، مما يمنحك المرونة حسب احتياجاتك.

  1. الوضع النقي (Pure Mode): يحافظ على تنسيق النص الأصلي بما في ذلك المسافات والمحاذاة.
  2. الوضع الخام (Raw Mode): يستخرج النص دون تنسيق، مفيد لمعالجة البيانات الخام.
  3. الوضع المسطح (Flatten Mode): يمثل محتوى PDF بنصوص موضوعة حسب إحداثياتها.
1// Create ExtractTextOptions object to set TextFormattingMode
2var options = new ExtractTextOptions(TextFormattingMode.Pure);
3// Add input file path
4options.AddInput(new FileDataSource("path_to_your_pdf_file.pdf"));
5// Perform the process
6var results = PdfExtractor.Extract(options);
7// Get the extracted text from the ResultContainer object
8var textExtracted = results.ResultCollection[0].ToString();

الميزات الرئيسية:

  • الوضع النقي: استخراج النص مع الحفاظ على تنسيقه الأصلي.
  • الوضع الخام: استخراج النص دون أي تنسيق.
  • الوضع المسطح: استخراج النص دون أحرف خاصة أو تنسيق.
 عربي