ทีม Bing ของ Microsoft เปิดโอเพ่นซอร์สโมเดล embedding "Harrier"

ทีม Bing ของ Microsoft เปิดซอร์สโมเดลฝังตัว Harrier: นวัตกรรมสำหรับการค้นหาและการฝังข้อความข้ามภาษา

ทีมพัฒนา Bing ของ Microsoft ได้ประกาศเปิดซอร์สโมเดลฝังตัวข้อความ (text embedding model) ชื่อ Harrier ซึ่งเป็นโมเดลที่ได้รับการฝึกฝนอย่างพิถีพิถันเพื่อรองรับการใช้งานในหลากหลายภาษา โดยโมเดลนี้มีพารามิเตอร์ทั้งหมด 335 ล้านตัว และถูกออกแบบมาเพื่อการประมวลผลภาษาธรรมชาติ (NLP) โดยเฉพาะ โดยเฉพาะอย่างยิ่งในงานที่เกี่ยวข้องกับการค้นคืนข้อมูล (retrieval) และการค้นหาเชิงความหมาย (semantic search) ซึ่งเป็นหัวใจสำคัญของระบบปัญญาประดิษฐ์สมัยใหม่

Harrier ถือเป็นโมเดลฝังตัวแบบหลายภาษา (multilingual embedding model) ที่ครอบคลุมภาษามากกว่า 100 ภาษา โดยเฉพาะอย่างยิ่งรองรับภาษา 117 ภาษาในการฝึกฝน ทำให้เหมาะสมสำหรับการใช้งานในสภาพแวดล้อมธุรกิจที่ต้องจัดการข้อมูลข้ามภาษา เช่น การค้นหาข้อมูลในฐานข้อมูลขนาดใหญ่ การจัดหมวดหมู่เอกสาร หรือการพัฒนาระบบ Retrieval-Augmented Generation (RAG) ที่ช่วยเพิ่มประสิทธิภาพให้กับโมเดลภาษาขนาดใหญ่ (LLM) ในการตอบคำถามจากฐานความรู้ที่หลากหลาย

กระบวนการฝึกฝนของ Harrier ใช้ข้อมูลขนาดมหาศาลจาก CommonCrawl กว่า 2 ล้านล้านโทเค็น (2T tokens) โดยอาศัยเทคนิคการเรียนรู้แบบคอนทราสติฟ (contrastive learning) ซึ่งช่วยให้โมเดลสามารถแยกแยะความคล้ายคลึงของข้อความได้อย่างแม่นยำยิ่งขึ้น กระบวนการนี้แบ่งออกเป็นสองขั้นตอนหลัก ขั้นตอนแรกคือการฝึกเบื้องต้นด้วยข้อมูลสังเคราะห์ (synthetic data) เพื่อสร้างฐานความรู้ที่แข็งแกร่ง จากนั้นจึงทำการปรับแต่งละเอียด (fine-tuning) ด้วยข้อมูลที่มีคุณภาพสูงและติดป้ายกำกับ (labeled data) เพื่อเพิ่มประสิทธิภาพในการใช้งานจริง โดยเฉพาะการจัดการกับตัวอย่างลบที่ยาก (hard negatives) ซึ่งช่วยลดปัญหาการสับสนระหว่างข้อความที่คล้ายคลึงกัน

ในด้านประสิทธิภาพ Harrier โดดเด่นอย่างมาก โดยทำคะแนนสูงสุดในหมู่โมเดลโอเพ่นซอร์สบนบ enchmark Massive Text Embedding Benchmark (MTEB) ในหมวดการค้นคืนข้อมูล (retrieval) ด้วยคะแนน 64.07 ซึ่งสูงกว่าโมเดลชั้นนำอื่นๆ เช่น BGE-large-en-v1.5 (62.17) และ Snowflake/snowflake-arctic-embed-m (62.47) นอกจากนี้ ในภาพรวมของ MTEB Harrier ยังทำคะแนนได้ถึง 60.65 ซึ่งติดอันดับต้นๆ ของโมเดลโอเพ่นซอร์สที่มีขนาดใกล้เคียงกัน แม้จะมีขนาดเล็กกว่าโมเดล proprietary บางตัว แต่ประสิทธิภาพโดยรวมยังคงแข่งขันได้ดี โดยเฉพาะในงาน classification, clustering และ semantic textual similarity (STS)

จุดเด่นอีกประการของ Harrier คือความสามารถในการประมวลผลลำดับยาวสูงสุด 512 โทเค็น ซึ่งเพียงพอสำหรับประโยคและย่อหน้าการใช้งานทั่วไป โดยโมเดลนี้ใช้สถาปัตยกรรม Transformer ที่ปรับแต่งให้เหมาะสมกับงาน embedding ทำให้สามารถรันบนฮาร์ดแวร์ทั่วไปได้อย่างมีประสิทธิภาพ ไม่ว่าจะเป็น CPU หรือ GPU ทีม Bing ยังได้เผยแพร่โค้ดและน้ำหนักโมเดล (model weights) บน Hugging Face Hub ที่ https://huggingface.co/microsoft/harrier-7b-mm-335m ซึ่งผู้ใช้งานสามารถดาวน์โหลดและนำไปใช้งานได้ทันที โดยมีตัวอย่างโค้ดสำหรับการคำนวณ embedding และการค้นหาความคล้ายคลึงแบบ cosine similarity

การเปิดซอร์ส Harrier สะท้อนถึงแนวโน้มของ Microsoft ในการส่งเสริมระบบนิเวศโอเพ่นซอร์ส โดยเฉพาะในทีม Bing ที่มีประสบการณ์ในการพัฒนาเครื่องมือค้นหาขั้นสูง โมเดลนี้ไม่เพียงช่วยนักพัฒนาในการสร้างแอปพลิเคชัน RAG ที่มีประสิทธิภาพ แต่ยังเป็นเครื่องมือสำคัญสำหรับองค์กรธุรกิจที่ต้องการลดต้นทุนในการฝึกโมเดลเอง เนื่องจาก Harrier สามารถนำไปปรับแต่งต่อ (fine-tune) ได้ง่าย โดยใช้ไลบรารี Sentence Transformers ซึ่งรองรับการใช้งานในภาษา Python

นอกจากนี้ ทีมพัฒนายังได้เผยแพร่บล็อกโพสต์อย่างละเอียดที่ https://huggingface.co/blog/microsoft/harrier ซึ่งอธิบายถึงรายละเอียดทางเทคนิคเพิ่มเติม เช่น การเลือกข้อมูลฝึกฝน การประเมินผลด้วยเมตริก MIRACL และ MKQA สำหรับงานข้ามภาษา รวมถึงกราฟเปรียบเทียบประสิทธิภาพกับโมเดลอื่นๆ ผู้สนใจสามารถศึกษาวิธีการใช้งานขั้นสูง เช่น การรวมเข้ากับฐานข้อมูลเวกเตอร์ (vector database) อย่าง FAISS หรือ Pinecone เพื่อสร้างระบบค้นหาแบบ semantic search ที่สมบูรณ์

Harrier จึงเป็นก้าวสำคัญในการทำให้เทคโนโลยี embedding เข้าถึงได้มากขึ้น โดยเฉพาะสำหรับธุรกิจที่ดำเนินงานในตลาดเอเชียและภูมิภาคที่มีภาษาหลากหลาย ด้วยขนาดที่กะทัดรัดและประสิทธิภาพสูง โมเดลนี้ช่วยให้องค์กรสามารถพัฒนาผลิตภัณฑ์ AI ได้อย่างรวดเร็วและมีประสิทธิภาพ โดยไม่ต้องพึ่งพาโมเดลแบบปิดที่อาจมีข้อจำกัดด้านต้นทุนและการเข้าถึง

(จำนวนคำประมาณ 728 คำ)

This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)