การฝึกโมเดลภาษาปัจจุบันปล่อยให้ส่วนใหญ่ของอินเทอร์เน็ตหลุดลอยไป

การฝึกโมเดลภาษาปัจจุบันปล่อยให้ส่วนใหญ่ของอินเทอร์เน็ตไม่ได้ใช้ประโยชน์

ในยุคที่โมเดลภาษาขนาดใหญ่ (Large Language Models: LLMs) กำลังขับเคลื่อนปัญญาประดิษฐ์ (AI) ไปสู่ขอบเขตใหม่ ๆ การฝึกโมเดลเหล่านี้ยังคงเผชิญกับความท้าทายสำคัญอย่างหนึ่ง คือ การใช้ข้อมูลจากอินเทอร์เน็ตอย่างมีประสิทธิภาพ ข้อมูลบนเว็บทั่วโลกมีปริมาณมหาศาล โดยเฉพาะอย่างยิ่งจาก Common Crawl ซึ่งเป็นคลังข้อมูลเว็บที่ใหญ่ที่สุดและเป็นแหล่งหลักสำหรับการฝึก LLMs เช่น GPT-3, Llama และโมเดลอื่น ๆ อย่างไรก็ตาม กระบวนการฝึกโมเดลปัจจุบันมักทิ้งข้อมูลส่วนใหญ่ไว้ข้างทาง ส่งผลให้โอกาสในการพัฒนาโมเดลให้ดียิ่งขึ้นถูกละเลยไป

Common Crawl เป็นโครงการที่ไม่แสวงหาผลกำไรซึ่งรวบรวมข้อมูลเว็บทั้งหมดโดยการคลาน (crawl) ทุกเดือน ปัจจุบันมีข้อมูลสะสมกว่า 400 เพตะไบต์ (petabytes) จากการคลานมากกว่า 300 ล้านหน้าเว็บต่อเดือน ข้อมูลเหล่านี้ครอบคลุมภาษาต่าง ๆ กว่า 150 ภาษา และเป็นรากฐานของชุดข้อมูลยอดนิยม เช่น C4 ของ Google, The Pile และ FineWeb ของ Hugging Face กระบวนการฝึก LLMs เริ่มต้นจากข้อมูลดิบเหล่านี้ แต่ต้องผ่าน “ท่อกรองข้อมูล” (data funnel) ที่เข้มงวดเพื่อกำจัดข้อมูลคุณภาพต่ำ สแปม เนื้อหาซ้ำซ้อน และข้อมูลที่ไม่เหมาะสม

นักวิจัยจาก École Polytechnique Fédérale de Lausanne (EPFL) และพันธมิตร ได้ตีพิมพ์ผลการศึกษาบน arXiv ชื่อ “Data Funnel: From Raw Web Data to LLM Training Data” ซึ่งวิเคราะห์กระบวนการกรองข้อมูลอย่างละเอียด พวกเขาพบว่า กระบวนการกรองปัจจุบันลดปริมาณข้อมูลลงอย่างมาก จากข้อมูลดิบหลายเพตะไบต์ เหลือเพียงไม่กี่เทราไบต์ (terabytes) ที่ใช้จริงในการฝึกโมเดล ตัวอย่างเช่น ชุดข้อมูล C4 ซึ่งใช้ฝึก T5 ของ Google กรองข้อมูล Common Crawl เหลือเพียง 5% สำหรับภาษาอังกฤษ ในขณะที่ข้อมูลภาษาอื่น ๆ ถูกลดทอนมากกว่านั้นอีก

กระบวนการกรองประกอบด้วยหลายขั้นตอนหลัก ขั้นตอนแรกคือการกำจัดข้อมูลซ้ำ (deduplication) โดยใช้เทคนิคเช่น MinHash เพื่อระบุเนื้อหาซ้ำซ้อน ซึ่งช่วยลดข้อมูลลง 30-50% จากนั้นคือตัวกรองคุณภาพ เช่น classifiers ที่ตรวจสอบไวยากรณ์ ความยาวประโยค ความซับซ้อนทางภาษา และการปรากฏของคำต้องห้าม (toxicity classifiers) ตัวอย่างเช่น FineWeb ใช้โมเดลไบนารี 40 ตัวเพื่อให้คะแนนคุณภาพ โดยเลือกเฉพาะข้อมูลที่ได้คะแนนสูงสุด 10% นอกจากนี้ ยังมีการกรองตามโดเมน เช่น กีดกันโซเชียลมีเดีย ฟอรัม หรือเว็บไซต์ที่มุ่งเน้นโฆษณา เพื่อหลีกเลี่ยงสแปมและเนื้อหาที่ไม่น่าเชื่อถือ

ผลจากการศึกษานี้เผยให้เห็นว่า กระบวนการเหล่านี้แม้จะจำเป็น แต่ก็ทำให้ข้อมูลที่มีคุณค่าถูกละเลยไปมากมาย โดยเฉพาะข้อมูลจากแหล่งที่ไม่เป็นที่นิยม เช่น ฟอรัมเก่า บล็อกส่วนตัว เอกสาร PDF และเว็บไซต์ภาษาไม่ใช่อังกฤษ นักวิจัยประเมินว่า สำหรับข้อมูลภาษาอังกฤษคุณภาพสูง ปัจจุบันใช้เพียง 15% ของข้อมูลที่มีศักยภาพทั้งหมด ในขณะที่สำหรับภาษาอื่น ๆ ตัวเลขนี้ต่ำกว่านั้นมาก เช่น ภาษาเยอรมันหรือฝรั่งเศสใช้เพียง 1-5% ข้อมูลจาก Common Crawl ถูกทิ้งไปประมาณ 90-99% ขึ้นอยู่กับภาษาและเกณฑ์กรอง

เหตุผลหลักของการกรองที่เข้มงวดคือการป้องกันปัญหาในโมเดล เช่น การเกิด hallucination (ข้อมูลเท็จ) หรือ bias จากเนื้อหาคุณภาพต่ำ อย่างไรก็ตาม นักวิจัยชี้ว่า มีช่องว่างให้ปรับปรุง เช่น การพัฒนาตัวกรองที่ละเอียดอ่อนยิ่งขึ้นเพื่อเก็บข้อมูลเฉพาะเจาะจง เช่น เอกสารทางวิชาการจาก arXiv หรือฟอรัมเทคนิคอย่าง Stack Overflow ที่ถูกละเลยไปบ้าง นอกจากนี้ การใช้เทคนิค synthetic data generation หรือ self-supervised filtering สามารถช่วยเพิ่มปริมาณข้อมูลคุณภาพโดยไม่ต้องพึ่งพาเว็บดิบเพียงอย่างเดียว

สำหรับภาษาไม่ใช่อังกฤษ ปัญหายิ่งรุนแรง เนื่องจากตัวกรองส่วนใหญ่ถูกฝึกด้วยข้อมูลภาษาอังกฤษ ทำให้ประสิทธิภาพต่ำลง Common Crawl มีข้อมูลภาษาอังกฤษราว 50-60% ของทั้งหมด แต่หลังกรองเหลือมากกว่า 90% ข้อมูลที่เหลือเป็นภาษาอังกฤษ ส่งผลให้ LLMs มีความสามารถสูงในภาษาอังกฤษแต่ด้อยกว่าในภาษาอื่น การศึกษานี้เสนอแนะให้พัฒนาตัวกรองแบบ multilingual และใช้เมตริกคุณภาพที่ปรับตามภาษา เช่น perplexity จากโมเดล multilingual

ในภาพรวม ผลการศึกษานี้เน้นย้ำถึง “โอกาสที่ถูกละเลย” (leaving large parts on the table) บนโต๊ะข้อมูลอินเทอร์เน็ต หากสามารถปรับปรุงท่อกรองให้มีประสิทธิภาพมากขึ้น LLMs อาจเข้าถึงข้อมูลคุณภาพสูงเพิ่มอีกหลายเท่า ส่งผลให้โมเดลฉลาดขึ้น ลด bias และรองรับหลายภาษาดีกว่า นักวิจัยแนะนำให้ชุมชน AI ลงทุนในเครื่องมือกรองแบบเปิด (open-source) และการประเมินข้อมูลหลังกรอง เพื่อเร่งนวัตกรรมด้านนี้

การฝึก LLMs ในอนาคตจึงไม่ใช่แค่เรื่องขนาดโมเดลหรือพลังประมวลผล แต่รวมถึงการใช้ข้อมูลเว็บอย่างชาญฉลาดยิ่งขึ้น หากปล่อยให้ส่วนใหญ่ของอินเทอร์เน็ตถูกละเลยต่อไป โอกาสในการพัฒนา AI ที่ครอบคลุมและมีประสิทธิภาพสูงสุดก็จะถูกจำกัดไว้เช่นกัน

(จำนวนคำประมาณ 720 คำ)

This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)