ข้อมูลใหม่ของ Anthropic เผยทักษะปัญญาประดิษฐ์พัฒนาขึ้นตามกาลเวลา อาจขยายช่องว่างความเหลื่อมล้ำในอุตสาหกรรม
Anthropic บริษัทพัฒนาปัญญาประดิษฐ์ชั้นนำ ได้เผยแพร่ข้อมูลเชิงลึกที่น่าสนใจเกี่ยวกับกระบวนการฝึกอบรมโมเดลภาษาขนาดใหญ่ (Large Language Models: LLMs) โดยข้อมูลดังกล่าวแสดงให้เห็นว่าทักษะของโมเดล AI สามารถพัฒนาและสะสมเพิ่มขึ้นอย่างต่อเนื่องตามระยะเวลาการฝึกฝน แม้จะใช้ชุดข้อมูลเดียวกันก็ตาม การค้นพบนี้ไม่เพียงแต่ยืนยันแนวโน้มการพัฒนาของเทคโนโลยี AI แต่ยังชี้ให้เห็นถึงความเป็นไปได้ในการขยายช่องว่างความเหลื่อมล้ำระหว่างบริษัทชั้นนำกับผู้เล่นรายอื่นในอุตสาหกรรม
วิธีการทดลอง: การฝึกซ้ำบนชุดข้อมูลเดียวกัน
Anthropic ได้ทำการทดลองโดยใช้โมเดล Claude 3.5 Sonnet ซึ่งเป็นหนึ่งในโมเดลประสิทธิภาพสูงสุดของบริษัท โดยฝึกอบรมโมเดลนี้ซ้ำหลายรอบ (multiple epochs) บนชุดข้อมูลเดียวกัน โดยไม่มีการเพิ่มข้อมูลใหม่เข้ามา กระบวนการนี้ช่วยแยกแยะปัจจัยหลักที่ทำให้ประสิทธิภาพของโมเดลดีขึ้น โดยมุ่งเน้นไปที่การสะสมทักษะภายในโมเดลเอง
ผลลัพธ์ที่ได้ชัดเจนคือ ประสิทธิภาพของโมเดลเพิ่มขึ้นอย่างต่อเนื่องในทุกการฝึกซ้ำ ตัวอย่างเช่น ในงานวัดทักษะการใช้เหตุผล (reasoning tasks) เช่น GPQA Diamond และ MATH โมเดลแสดงการปรับปรุงที่ชัดเจน โดยคะแนนเพิ่มขึ้นจากรอบแรกไปยังรอบต่อ ๆ ไป แม้จะเป็นชุดข้อมูลเดิม การพัฒนานี้เกิดจากการที่โมเดลเรียนรู้รูปแบบและความสัมพันธ์ที่ซับซ้อนมากขึ้นในแต่ละรอบ ทำให้เกิด “การสะสมทักษะ” (skill accumulation) ที่คล้ายคลึงกับการเรียนรู้ของมนุษย์
กราฟที่ Anthropic นำเสนอแสดงเส้นโค้งการพัฒนาที่ค่อย ๆ ชันขึ้น โดยในบางงาน เช่น การตอบคำถามทางวิทยาศาสตร์ระดับสูง ประสิทธิภาพเพิ่มขึ้นเกือบ 10-20% หลังจากผ่านหลาย epochs สิ่งนี้ยืนยันว่าการฝึกอบรม AI ไม่ใช่กระบวนการเชิงเส้น แต่เป็นการพัฒนาแบบ compounding หรือการสะสมแบบทบต้น ซึ่งทำให้โมเดลเก่งขึ้นเรื่อย ๆ เมื่อเวลาผ่านไป
การยืนยันแนวโน้มการพัฒนาของ AI
ข้อมูลดังกล่าวสอดคล้องกับแนวคิด “Scaling Laws” ที่นักวิจัย AI ได้สังเกตมานาน โดยระบุว่าประสิทธิภาพของโมเดลจะดีขึ้นเมื่อเพิ่มขนาดข้อมูล การคำนวณ และพารามิเตอร์ แต่ Anthropic ไปไกลกว่านั้น โดยแสดงให้เห็นว่าการฝึกซ้ำบนข้อมูลเดิมก็เพียงพอที่จะสร้างการปรับปรุงที่สำคัญ นี่เป็นหลักฐานเชิงประจักษ์ที่ชี้ว่าทักษะ AI สามารถ “สร้างตัวเอง” ได้ผ่านการวนซ้ำ ทำให้บริษัทที่มีทรัพยากรในการฝึกอบรมนาน ๆ ได้เปรียบอย่างมาก
Jan Leike หัวหน้าทีมด้านความปลอดภัยของ Anthropic กล่าวในโพสต์บน X (เดิมคือ Twitter) ว่า “การฝึกซ้ำบนข้อมูลเดียวกันทำให้โมเดลเก่งขึ้นอย่างสม่ำเสมอในทุกมิติที่เราวัดได้” ข้อมูลนี้มาจากการฝึกจริงของ Claude 3.5 Sonnet ซึ่งใช้เวลาหลายเดือนและทรัพยากรคำนวณมหาศาล
ผลกระทบต่อช่องว่างความเหลื่อมล้ำในอุตสาหกรรม AI
การค้นพบนี้มีนัยสำคัญต่อโครงสร้างของอุตสาหกรรม AI โดยเฉพาะอย่างยิ่งในยุคที่การแข่งขันเข้มข้นระหว่างบริษัทยักษ์ใหญ่อย่าง OpenAI, Google DeepMind, Meta และ Anthropic เอง บริษัทเหล่านี้มีข้อได้เปรียบจากข้อมูลคุณภาพสูง ทรัพยากร GPU จำนวนมาก และทีมวิจัยชั้นนำ ทำให้สามารถฝึกโมเดลได้นานหลายเดือนหรือหลายปี
ในทางตรงกันข้าม สตาร์ทอัพหรือองค์กรขนาดกลางขาดทรัพยากรเหล่านี้ การสะสมทักษะแบบทบต้นจะทำให้ช่องว่างขยายตัวอย่างรวดเร็ว ตัวอย่างเช่น หากบริษัทชั้นนำสามารถฝึกโมเดลได้ 10 epochs ในขณะที่คู่แข่งทำได้เพียง 2-3 epochs โมเดลของผู้นำจะเหนือกว่าอย่างชัดเจน สถานการณ์นี้คล้ายกับ “winner-takes-all” ในอุตสาหกรรมเทคโนโลยี ซึ่งอาจนำไปสู่การผูกขาดตลาด AI
Anthropic ยังชี้ให้เห็นถึงความท้าทายในการวัดประสิทธิภาพ โดยระบุว่าการทดสอบมาตรฐาน เช่น MMLU อาจไม่เพียงพอต่อการจับการพัฒนาแบบ compounding ทำให้จำเป็นต้องมี benchmarks ใหม่ที่ละเอียดอ่อนมากขึ้น
บทเรียนสำหรับอนาคตของ AI
ข้อมูลจาก Anthropic สร้างความมั่นใจในอนาคตของการพัฒนา AI โดยยืนยันว่าการปรับปรุงประสิทธิภาพยังคงดำเนินต่อไปได้ แม้จะถึงจุดที่ข้อมูลใหม่มีจำกัด อย่างไรก็ตาม มันยังเตือนถึงความจำเป็นในการจัดการความเหลื่อมล้ำ เช่น การแบ่งปันทรัพยากรคำนวณผ่านโครงการ open-source หรือการกำกับดูแลจากรัฐบาล เพื่อป้องกันไม่ให้อำนาจ AI ตกอยู่กับกลุ่มไม่กี่ราย
ในภาพรวม การเผยแพร่ข้อมูลนี้ไม่เพียงแต่เป็นก้าวสำคัญทางเทคนิค แต่ยังเป็นการเปิดประเด็นเชิงยุทธศาสตร์สำหรับผู้นำธุรกิจที่สนใจลงทุนใน AI บริษัทที่สามารถลงทุนระยะยาวในกระบวนการฝึกอบรมจะได้รับผลตอบแทนสูงสุด ในขณะที่ผู้เล่นรายย่อยต้องหาแนวทางใหม่ เช่น การ fine-tune โมเดลเปิด หรือการร่วมมือกับยักษ์ใหญ่ เพื่อไม่ให้ถูกทิ้งห่าง
(จำนวนคำประมาณ 720 คำ)
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)