ตัวดึงข้อความ PDF

Documentize PDF Text Extractor สำหรับ .NET ทำให้การดึงข้อความจากเอกสาร PDF ง่ายขึ้น ไม่ว่าคุณจะต้องการข้อความบริสุทธิ์ ข้อความดิบ หรือข้อความธรรมดา ปลั๊กอินนี้ช่วยให้คุณดึงข้อความได้อย่างมีประสิทธิภาพในขณะที่รักษาฟอร์แมตหรือไม่ก็ได้ตามความต้องการของคุณ

คุณสมบัติหลัก:

  • โหมดบริสุทธิ์: ดึงข้อความในขณะที่รักษาฟอร์แมตเดิม
  • โหมดดิบ: ดึงข้อความโดยไม่มีฟอร์แมต
  • โหมดธรรมดา: ดึงข้อความโดยไม่มีอักขระพิเศษหรือฟอร์แมต
  • การประมวลผลแบบกลุ่ม: ดึงข้อความจากเอกสาร PDF หลายไฟล์พร้อมกัน

วิธีการดึงข้อความจากเอกสาร PDF

ในการดึงข้อความจากเอกสาร PDF ให้ทำตามขั้นตอนนี้:

  1. สร้างอินสแตนซ์ของคลาส TextExtractor
  2. สร้างอินสแตนซ์ของ TextExtractorOptions เพื่อกำหนดตัวเลือกการดึงข้อมูล
  3. เพิ่มไฟล์ PDF เข้าไปโดยใช้วิธี AddInput
  4. เรียกใช้วิธี Process เพื่อดึงข้อความ
  5. เข้าถึงข้อความที่ถูกดึงโดยใช้ ResultContainer.ResultCollection
 1  
 2using var extractor = new TextExtractor();  
 3var textExtractorOptions = new TextExtractorOptions();  
 4
 5// เพิ่มไฟล์ PDF เข้าไป  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));  
 7
 8// ประมวลผลการดึงข้อความ  
 9var resultContainer = extractor.Process(textExtractorOptions);  
10
11// แสดงข้อความที่ถูกดึง  
12var extractedText = resultContainer.ResultCollection[0];  
13Console.WriteLine(extractedText);  

การดึงข้อความจาก PDF หลายไฟล์

ปลั๊กอินนี้ช่วยให้คุณสามารถดึงข้อความจาก PDF หลายไฟล์พร้อมกัน ทำให้การประมวลผลรวดเร็วและมีประสิทธิภาพ

 1  
 2using var extractor = new TextExtractor();  
 3var textExtractorOptions = new TextExtractorOptions();  
 4
 5// เพิ่มไฟล์ PDF เข้าไปหลายไฟล์  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));  
 7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));  
 8
 9// ประมวลผลการดึง  
10var resultContainer = extractor.Process(textExtractorOptions);  
11
12// แสดงข้อความที่ถูกดึง  
13foreach (var result in resultContainer.ResultCollection)  
14{  
15    Console.WriteLine(result);  
16}  

โหมดการดึงข้อความ

ปลั๊กอิน TextExtractor มีสามโหมดการดึงข้อความ เพื่อให้ความยืดหยุ่นตามความต้องการของคุณ

  1. โหมดบริสุทธิ์: รักษาฟอร์แมตเดิมรวมถึงช่องว่างและการจัดเรียง
  2. โหมดดิบ: ดึงข้อความโดยไม่มีฟอร์แมต เหมาะสำหรับการประมวลผลข้อมูลดิบ
  3. โหมดธรรมดา: ดึงข้อความโดยไม่มีอักขระพิเศษหรือฟอร์แมตเพิ่มเติม
 1  
 2var textExtractorOptions = new TextExtractorOptions();  
 3
 4// ตั้งค่าเป็นโหมดบริสุทธิ์  
 5textExtractorOptions.Mode = ExtractionMode.Pure;  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));  
 7
 8// ประมวลผลและแสดงผล  
 9var resultContainer = extractor.Process(textExtractorOptions);  
10Console.WriteLine(resultContainer.ResultCollection[0]);  

วิธีจัดการการประมวลผลแบบกลุ่ม

สำหรับชุดเอกสารขนาดใหญ่ คุณสามารถใช้การประมวลผลแบบกลุ่ม เพื่อให้คุณสามารถดึงข้อความจาก PDF หลายไฟล์ในครั้งเดียว

 1  
 2using var extractor = new TextExtractor();  
 3var textExtractorOptions = new TextExtractorOptions();  
 4
 5// เพิ่มไฟล์ PDF เข้าไปหลายไฟล์  
 6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));  
 7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));  
 8
 9// กำหนดผลลัพธ์สำหรับแต่ละไฟล์  
10var resultContainer = extractor.Process(textExtractorOptions);  
11
12// จัดการข้อความที่ถูกดึง  
13foreach (var result in resultContainer.ResultCollection)  
14{  
15    Console.WriteLine(result);  
16}  
 แบบไทย