استخراج النص

The Documentize PDF Extractor for .NET يبسط عملية استخراج النص من مستندات PDF. سواء كنت تحتاج إلى نص نقي، خام، أو نص عادي، يتيح لك هذا المكوّن استخراج النص بفاعلية مع الحفاظ على التنسيق أو حذفه حسب احتياجاتك.

كيفية استخراج النص من ملف PDF

لاستخراج النص من ملف PDF، اتبع الخطوات التالية:

أنشئ كائنًا من ExtractTextOptions لتحديد مسار ملف الإدخال.
نفّذ طريقة Extract لاستخراج النص.

1// Create ExtractTextOptions object to set input file path
2var options = new ExtractTextOptions("path_to_your_pdf_file.pdf");
3// Perform the process and get the extracted text
4var textExtracted = PdfExtractor.Extract(options);

كيفية استخراج النص من تدفق PDF

لاستخراج النص من تدفق PDF، اتبع الخطوات التالية:

أنشئ كائنًا من ExtractTextOptions لتحديد تدفق الإدخال.
نفّذ طريقة Extract لاستخراج النص.

1// Create ExtractTextOptions object to set input stream
2var stream = File.OpenRead("path_to_your_pdf_file.pdf");
3var options = new ExtractTextOptions(stream);
4// Perform the process and get the extracted text
5var textExtracted = PdfExtractor.Extract(options);

أوضاع استخراج النص

توفر ExtractTextOptions ثلاثة أوضاع للاستخراج، مما يمنحك مرونة حسب احتياجاتك.

الوضع النقي (Pure Mode): يحافظ على تنسيق النص الأصلي، بما في ذلك المسافات والمحاذاة.
الوضع الخام (Raw Mode): يُستخرج النص دون تنسيق، وهو مفيد لمعالجة البيانات الخام.
الوضع المسطح (Flatten Mode): يمثل محتوى PDF بقطاعات نصية موضعية حسب إحداثياتها.

1// Create ExtractTextOptions object to set input file path and TextFormattingMode
2var options = new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure);
3// Perform the process and get the extracted text
4var textExtracted = PdfExtractor.Extract(options);

كيفية استخراج النص من ملف PDF بأقصر طريقة ممكنة

1// Perform the process and get the extracted text
2var textExtracted = PdfExtractor.Extract(new ExtractTextOptions("path_to_your_pdf_file.pdf", TextFormattingMode.Pure));

الميزات الرئيسية:

الوضع النقي: استخراج النص مع الحفاظ على تنسيقه الأصلي.
الوضع الخام: استخراج النص بدون أي تنسيق.
الوضع المسطح: استخراج النص بدون أحرف خاصة أو تنسيق.