مستخرج النصوص من PDF
يقوم مستخرج النصوص من PDF لـ .NET بتبسيط استخراج النصوص من مستندات PDF. سواء كنت بحاجة إلى نص نقي أو خام أو بسيط، يتيح لك هذا الملحق استخراج النصوص بكفاءة مع الحفاظ على التنسيق أو الامتناع عنه بناءً على احتياجاتك.
الميزات الرئيسية:
- الوضع النقي: استخراج النص مع الحفاظ على تنسيقه الأصلي.
- الوضع الخام: استخراج النص بدون أي تنسيق.
- الوضع البسيط: استخراج النص بدون أي رموز خاصة أو تنسيق.
- المعالجة الدفعة: استخراج النصوص من عدة ملفات PDF في وقت واحد.
كيفية استخراج النص من مستندات PDF
لاستخراج النص من مستند PDF، اتبع الخطوات التالية:
- أنشئ مثيلاً لفئة
TextExtractor
. - أنشئ مثيلاً لـ
TextExtractorOptions
لتكوين خيارات الاستخراج. - أضف ملف PDF المدخل باستخدام طريقة
AddInput
. - قم بتشغيل طريقة
Process
لاستخراج النص. - وصول إلى النص المستخرج باستخدام
ResultContainer.ResultCollection
.
1using var extractor = new TextExtractor();
2var textExtractorOptions = new TextExtractorOptions();
3
4// أضف ملف PDF المدخل
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
6
7// معالجة استخراج النص
8var resultContainer = extractor.Process(textExtractorOptions);
9
10// طباعة النص المستخرج
11var extractedText = resultContainer.ResultCollection[0];
12Console.WriteLine(extractedText);
استخراج النص من عدة ملفات PDF
يسمح لك الملحق باستخراج النص من عدة ملفات PDF في وقت واحد، مما يضمن معالجة سريعة وفعالة.
1using var extractor = new TextExtractor();
2var textExtractorOptions = new TextExtractorOptions();
3
4// أضف عدة ملفات PDF المدخلة
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));
7
8// معالجة الاستخراج
9var resultContainer = extractor.Process(textExtractorOptions);
10
11// إخراج النص المستخرج
12foreach (var result in resultContainer.ResultCollection)
13{
14 Console.WriteLine(result);
15}
أوضاع استخراج النص
يوفر ملحق TextExtractor ثلاثة أوضاع للاستخراج، مما يوفر مرونة بناءً على احتياجاتك.
- الوضع النقي: يحافظ على التنسيق الأصلي، بما في ذلك المسافات والمحاذاة.
- الوضع الخام: يستخرج النص دون تنسيق، مفيد لمعالجة البيانات الخام.
- الوضع البسيط: يستخرج النص بدون رموز خاصة أو تنسيق إضافي.
1var textExtractorOptions = new TextExtractorOptions();
2
3// تعيين الوضع إلى النقي
4textExtractorOptions.Mode = ExtractionMode.Pure;
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
6
7// المعالجة والمخرجات
8var resultContainer = extractor.Process(textExtractorOptions);
9Console.WriteLine(resultContainer.ResultCollection[0]);
كيفية التعامل مع المعالجة الدفعة
لإعداد مجموعات مستندات كبيرة، يمكنك الاستفادة من المعالجة الدفعة، مما يمكنك من استخراج النص من عدة ملفات PDF في وقت واحد.
1using var extractor = new TextExtractor();
2var textExtractorOptions = new TextExtractorOptions();
3
4// أضف عدة ملفات PDF المدخلة
5textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));
7
8// تعريف المخرجات لكل ملف
9var resultContainer = extractor.Process(textExtractorOptions);
10
11// التعامل مع النص المستخرج
12foreach (var result in resultContainer.ResultCollection)
13{
14 Console.WriteLine(result);
15}