ตัวดึงข้อความ PDF
Documentize PDF Text Extractor สำหรับ .NET ทำให้การดึงข้อความจากเอกสาร PDF ง่ายขึ้น ไม่ว่าคุณจะต้องการข้อความบริสุทธิ์ ข้อความดิบ หรือข้อความธรรมดา ปลั๊กอินนี้ช่วยให้คุณดึงข้อความได้อย่างมีประสิทธิภาพในขณะที่รักษาฟอร์แมตหรือไม่ก็ได้ตามความต้องการของคุณ
คุณสมบัติหลัก:
- โหมดบริสุทธิ์: ดึงข้อความในขณะที่รักษาฟอร์แมตเดิม
- โหมดดิบ: ดึงข้อความโดยไม่มีฟอร์แมต
- โหมดธรรมดา: ดึงข้อความโดยไม่มีอักขระพิเศษหรือฟอร์แมต
- การประมวลผลแบบกลุ่ม: ดึงข้อความจากเอกสาร PDF หลายไฟล์พร้อมกัน
วิธีการดึงข้อความจากเอกสาร PDF
ในการดึงข้อความจากเอกสาร PDF ให้ทำตามขั้นตอนนี้:
- สร้างอินสแตนซ์ของคลาส
TextExtractor
- สร้างอินสแตนซ์ของ
TextExtractorOptions
เพื่อกำหนดตัวเลือกการดึงข้อมูล - เพิ่มไฟล์ PDF เข้าไปโดยใช้วิธี
AddInput
- เรียกใช้วิธี
Process
เพื่อดึงข้อความ - เข้าถึงข้อความที่ถูกดึงโดยใช้
ResultContainer.ResultCollection
1
2using var extractor = new TextExtractor();
3var textExtractorOptions = new TextExtractorOptions();
4
5// เพิ่มไฟล์ PDF เข้าไป
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
7
8// ประมวลผลการดึงข้อความ
9var resultContainer = extractor.Process(textExtractorOptions);
10
11// แสดงข้อความที่ถูกดึง
12var extractedText = resultContainer.ResultCollection[0];
13Console.WriteLine(extractedText);
การดึงข้อความจาก PDF หลายไฟล์
ปลั๊กอินนี้ช่วยให้คุณสามารถดึงข้อความจาก PDF หลายไฟล์พร้อมกัน ทำให้การประมวลผลรวดเร็วและมีประสิทธิภาพ
1
2using var extractor = new TextExtractor();
3var textExtractorOptions = new TextExtractorOptions();
4
5// เพิ่มไฟล์ PDF เข้าไปหลายไฟล์
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input1.pdf"));
7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input2.pdf"));
8
9// ประมวลผลการดึง
10var resultContainer = extractor.Process(textExtractorOptions);
11
12// แสดงข้อความที่ถูกดึง
13foreach (var result in resultContainer.ResultCollection)
14{
15 Console.WriteLine(result);
16}
โหมดการดึงข้อความ
ปลั๊กอิน TextExtractor มีสามโหมดการดึงข้อความ เพื่อให้ความยืดหยุ่นตามความต้องการของคุณ
- โหมดบริสุทธิ์: รักษาฟอร์แมตเดิมรวมถึงช่องว่างและการจัดเรียง
- โหมดดิบ: ดึงข้อความโดยไม่มีฟอร์แมต เหมาะสำหรับการประมวลผลข้อมูลดิบ
- โหมดธรรมดา: ดึงข้อความโดยไม่มีอักขระพิเศษหรือฟอร์แมตเพิ่มเติม
1
2var textExtractorOptions = new TextExtractorOptions();
3
4// ตั้งค่าเป็นโหมดบริสุทธิ์
5textExtractorOptions.Mode = ExtractionMode.Pure;
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\input.pdf"));
7
8// ประมวลผลและแสดงผล
9var resultContainer = extractor.Process(textExtractorOptions);
10Console.WriteLine(resultContainer.ResultCollection[0]);
วิธีจัดการการประมวลผลแบบกลุ่ม
สำหรับชุดเอกสารขนาดใหญ่ คุณสามารถใช้การประมวลผลแบบกลุ่ม เพื่อให้คุณสามารถดึงข้อความจาก PDF หลายไฟล์ในครั้งเดียว
1
2using var extractor = new TextExtractor();
3var textExtractorOptions = new TextExtractorOptions();
4
5// เพิ่มไฟล์ PDF เข้าไปหลายไฟล์
6textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch1.pdf"));
7textExtractorOptions.AddInput(new FileDataSource(@"C:\Samples\batch2.pdf"));
8
9// กำหนดผลลัพธ์สำหรับแต่ละไฟล์
10var resultContainer = extractor.Process(textExtractorOptions);
11
12// จัดการข้อความที่ถูกดึง
13foreach (var result in resultContainer.ResultCollection)
14{
15 Console.WriteLine(result);
16}