Mistral OCR 3 สัญญาการวิเคราะห์เอกสารที่ดีกว่าและถูกกว่า

Mistral OCR 3: สัญญาการวิเคราะห์เอกสารที่มีประสิทธิภาพสูงกว่าและต้นทุนต่ำกว่า

Mistral AI ผู้พัฒนาระบบปัญญาประดิษฐ์ชั้นนำ ได้เปิดตัว Mistral OCR 3.0 ซึ่งเป็นโมเดลการรู้จำตัวอักษรด้วยแสง (Optical Character Recognition: OCR) เวอร์ชันล่าสุด โดยโมเดลนี้มุ่งเน้นการวิเคราะห์เอกสารที่ซับซ้อน เช่น เอกสารทางกฎหมาย ใบเสร็จรับเงิน และตารางข้อมูล โดยให้ผลลัพธ์ที่มีความแม่นยำสูงขึ้น ลดข้อผิดพลาด และมีต้นทุนการใช้งานที่ถูกลงอย่างมีนัยสำคัญ

ประสิทธิภาพที่เหนือกว่าในด้านการรู้จำข้อความ

Mistral OCR 3.0 แสดงศักยภาพเด่นชัดใน基准ทดสอบมาตรฐานหลายชุด โดยเฉพาะอย่างยิ่งในหมวดหมู่การรู้จำข้อความจากเอกสารจริง (Document Understanding) ตามผลการทดสอบจากโค้ดเบนช์มาร์ก OCRBench-DocVQA ซึ่งวัดความสามารถในการตอบคำถามจากเอกสารภาพ โมเดลนี้ทำคะแนนได้ 82.5% สูงกว่า GPT-4o (78.9%) Claude 3.5 Sonnet (78.3%) และ Gemini 1.5 Pro (75.5%) นอกจากนี้ ในเบนช์มาร์ก DocLayNet ที่ประเมินความแม่นยำในการตรวจจับและจำแนกโครงสร้างเอกสาร เช่น หัวเรื่อง ย่อหน้า และตาราง Mistral OCR 3.0 ทำได้ 78.3% เทียบกับ 76.1% ของ GPT-4o และต่ำกว่า Claude 3.5 Sonnet เล็กน้อยที่ 79.2%

ในด้านการรู้จำสูตรคณิตศาสตร์และเคมี (MathChemBench) โมเดลนี้ทำคะแนนรวม 64.3% โดยสูตรคณิตศาสตร์ได้ 71.0% และเคมี 57.6% ซึ่งดีกว่า Gemini 1.5 Pro (53.8%) แต่ยังตามหลัง Claude 3.5 Sonnet (68.4%) อย่างไรก็ตาม เมื่อพิจารณาค่าใช้จ่าย Mistral OCR 3.0 มีต้นทุนต่ำกว่าคู่แข่งอย่างมาก โดยใช้เพียง 0.07 ดอลลาร์ต่อล้านโทเค็น ขณะที่ GPT-4o อยู่ที่ 2.50 ดอลลาร์ Claude 3.5 Sonnet 3.00 ดอลลาร์ และ Gemini 1.5 Pro 3.50 ดอลลาร์ ทำให้คุ้มค่ากว่าถึง 35-50 เท่า

โครงสร้างโมเดลและการฝึกอบรม

Mistral OCR 3.0 พัฒนาบนฐานของโมเดล Mistral Nemo (12 พันล้านพารามิเตอร์) ซึ่งปรับแต่งให้เหมาะสมกับงาน OCR โดยเฉพาะ กระบวนการฝึกอบรมแบ่งเป็นสามขั้นตอนหลัก ขั้นตอนแรกคือการฝึก pre-training ด้วยชุดข้อมูลสังเคราะห์ขนาดใหญ่กว่า 10 ล้านหน้าเอกสารหลากหลายประเภท เช่น เอกสารทางกฎหมายทางการแพทย์ และการเงิน เพื่อสร้างความเข้าใจพื้นฐานในการรู้จำข้อความและโครงสร้าง ขั้นตอนที่สองคือ fine-tuning ด้วยชุดข้อมูลที่มีการตรวจสอบคุณภาพจากมนุษย์ รวมถึงการปรับปรุงความแม่นยำในภาษาต่างๆ และการจัดการข้อความที่หมุนหรือบิดเบี้ยว สุดท้ายคือ alignment ด้วยเทคนิค Direct Preference Optimization (DPO) เพื่อให้ผลลัพธ์สอดคล้องกับความคาดหวังของผู้ใช้ เช่น การจัดรูปแบบตารางให้อ่านง่าย

โมเดลนี้รองรับการประมวลผลภาพความละเอียดสูงสุด 2048x2048 พิกเซล และสามารถจัดการเอกสารหลายหน้าได้ในครั้งเดียว นอกจากนี้ ยังมีน้ำหนักโมเดลแบบเปิด (open weights) ภายใต้ใบอนุญาต Apache 2.0 ทำให้ผู้พัฒนาสามารถนำไปปรับใช้ได้ฟรี

การเปรียบเทียบกับคู่แข่ง

เมื่อเทียบกับโมเดล OCR อื่นๆ Mistral OCR 3.0 โดดเด่นในด้านความสมดุลระหว่างประสิทธิภาพและต้นทุน ในเบนช์มาร์ก SROIE (Scanned Receipts OCR–Information Extraction) ซึ่งมุ่งวัดการดึงข้อมูลจากใบเสร็จ โมเดลนี้ทำคะแนนสูงถึง 98.2% ดีกว่า TrOCR (94.5%) และ PaddleOCR (92.1%) ในขณะที่ต้นทุนต่ำกว่ามาก นอกจากนี้ ในเบนช์มาร์ก ComplexDocBench ที่ทดสอบเอกสารซับซ้อน Mistral OCR 3.0 ทำได้ 75.6% สูงกว่า Llama 3.2 Vision (70.2%) และ Qwen 2.5 VL (72.8%)

อย่างไรก็ตาม โมเดลนี้ยังมีจุดอ่อนในบางด้าน เช่น การจัดการข้อความ handwritten ซึ่งคะแนนอยู่ที่ประมาณ 60-70% เทียบกับคู่แข่งชั้นนำ แต่ Mistral AI วางแผนปรับปรุงในเวอร์ชันถัดไป

การใช้งานและการเข้าถึง

ผู้ใช้สามารถทดลอง Mistral OCR 3.0 ได้ทันทีผ่านแพลตฟอร์ม Le Chat ของ Mistral AI หรือ API ที่มีราคาถูก โดยรองรับการใช้งานทั้งแบบ text-to-image และ vision-to-text นอกจากนี้ โมเดลยังอัปโหลดบน Hugging Face Spaces ทำให้สามารถรันได้ฟรีผ่าน Google Colab หรือเครื่อง local ที่มี GPU สำหรับนักพัฒนา สามารถดาวน์โหลดน้ำหนักโมเดลจาก Hugging Face Hub และใช้งานผ่าน Transformers library ได้ง่ายดาย

ตัวอย่างโค้ดการใช้งานพื้นฐาน:

from transformers import MistralOcrForCausalLM, AutoProcessor
import torch

model_id = "mistralai/Mistral-OCR-3.0"
model = MistralOcrForCausalLM.from_pretrained(model_id, torch_dtype=torch.bfloat16, device_map="auto")
processor = AutoProcessor.from_pretrained(model_id)

messages = [{"role": "user", "content": [{"type": "image", "url": "path/to/image.jpg"}, {"type": "text", "text": "อธิบายเอกสารนี้"}]}]

input_data = processor.apply_chat_template(messages, add_generation_prompt=True, tokenize=False)
inputs = processor(input_data, images=messages[0]["content"][0]["url"], return_tensors="pt").to(model.device)

with torch.no_grad():
    output = model.generate(**inputs, max_new_tokens=1024, do_sample=False)

การนำไปใช้ในธุรกิจ เช่น การสแกนใบแจ้งหนี้เพื่อบันทึกบัญชีอัตโนมัติ หรือการดึงข้อมูลจากเอกสารสัญญา จะช่วยลดเวลาและต้นทุนได้อย่างมาก โดยเฉพาะสำหรับองค์กรขนาดกลางและใหญ่ที่ต้องการโซลูชัน OCR แบบ on-premise

อนาคตของ Mistral OCR

Mistral AI ยืนยันว่าจะพัฒนาเวอร์ชันต่อไป โดยมุ่งเน้นการรองรับภาษาเพิ่มเติม การจัดการ handwritten text ที่ดีขึ้น และการบูรณาการกับโมเดลภาษาขนาดใหญ่เพื่อการวิเคราะห์เชิงลึกมากยิ่งขึ้น การเปิดตัว Mistral OCR 3.0 นี้ไม่เพียงยกระดับมาตรฐาน OCR ในวงการ AI แต่ยังส่งเสริมการแข่งขันด้านต้นทุน ทำให้เทคโนโลยีนี้เข้าถึงได้กว้างขวางยิ่งขึ้น

(จำนวนคำ: 728)

This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)