ข้อโต้แย้งต่อการทำนายโทเค็นเพื่อสร้าง agi

ข้อโต้แย้งต่อการคาดการณ์โทเค็นเพื่อสร้างปัญญาประดิษฐ์ทั่วไป (AGI)

ในยุคที่โมเดลภาษาขนาดใหญ่ (Large Language Models: LLMs) กำลังได้รับความนิยมอย่างแพร่หลาย ผู้คนจำนวนมากเชื่อว่าการขยายขนาดการฝึกโมเดลโดยอาศัยการคาดการณ์โทเค็นถัดไป (next-token prediction) จะนำไปสู่ปัญญาประดิษฐ์ทั่วไป (Artificial General Intelligence: AGI) ซึ่งสามารถคิดและแก้ปัญหาได้เหมือนมนุษย์ อย่างไรก็ตาม ข้อโต้แย้งนี้ชี้ให้เห็นว่าวิธีการดังกล่าวมีข้อจำกัดพื้นฐานที่ทำให้ไม่น่าจะประสบความสำเร็จในการบรรลุเป้าหมายดังกล่าว

โทเค็นไม่ใช่หน่วยพื้นฐานของความคิด

โทเค็นคือหน่วยย่อยของคำที่ถูกแบ่งโดยกระบวนการ tokenization ซึ่งมักใช้ Byte-Pair Encoding (BPE) หรือวิธีการคล้ายคลึงกัน โทเค็นเหล่านี้ไม่ใช่หน่วยที่มีความหมายเชิงเซมานติก (semantic units) แต่เป็นเพียงส่วนย่อยของข้อความที่เกิดจากการบีบอัดข้อมูลเพื่อลดขนาดพจนานุกรม เช่น คำว่า “unhappiness” อาจถูกแบ่งเป็น “un”, “happi”, “ness” ซึ่งเป็นการแบ่งแบบ任意 ไม่สะท้อนโครงสร้างทางภาษาหรือความหมายที่แท้จริง

การคาดการณ์โทเค็นถัดไปจึงเป็นเพียงการทำนายลำดับทางสถิติจากข้อมูลฝึก ซึ่งคล้ายกับการบีบอัดข้อมูลแบบสูญเสีย (lossy compression) แม้จะเก่งในการเลียนแบบรูปแบบภาษา แต่ก็ไม่สามารถสร้างความเข้าใจที่แท้จริงได้ Gary Marcus นักวิทยาศาสตร์ด้าน AI ชื่อดัง เปรียบเทียบว่ามันเหมือนกับการคาดเดาคำถัดไปในประโยคโดยอาศัยบริบททางสถิติเท่านั้น ไม่ใช่การเข้าใจเนื้อหา

การคาดการณ์ไม่เท่ากับความเข้าใจหรือเหตุผล

โมเดลที่ฝึกด้วยการคาดการณ์โทเค็นอาจให้คำตอบที่ดูฉลาดในบางกรณี แต่ล้มเหลวอย่างสิ้นเชิงในสถานการณ์ที่ต้องการเหตุผลเชิงนามธรรม (abstract reasoning) หรือการจัดการกับข้อมูลใหม่ เช่น ในงาน ARC (Abstraction and Reasoning Corpus) ที่ François Chollet สร้างขึ้น โมเดล LLMs ทำคะแนนได้ต่ำมาก แสดงให้เห็นว่าพวกมันขาดความสามารถในการสร้างกฎเกณฑ์ใหม่จากตัวอย่างน้อยนิด (few-shot learning) อย่างแท้จริง

ปัญหาการหลอนประสาท (hallucinations) เป็นตัวอย่างชัดเจน โมเดลมักสร้างข้อมูลเท็จที่ฟังดูน่าเชื่อถือเพราะอาศัยรูปแบบสถิติ ไม่ใช่ความรู้ที่ถูกต้อง เช่น การอ้างอิงเอกสารที่ไม่มีจริง หรือการคำนวณผิดพลาดแม้บริบทจะชัดเจน นอกจากนี้ โมเดลยังเปราะบางต่อการโจมตีด้วย prompt ที่ออกแบบมาเพื่อหลอกลวง (adversarial prompts) ซึ่งแสดงถึงการขาดรากฐานทางกายภาพหรือโมเดลโลก (world model)

ข้อจำกัดของการประเมินผลและการปนเปื้อนข้อมูล

การวัดประสิทธิภาพของ LLMs มักใช้บ enchmarks เช่น MMLU หรือ HumanEval ซึ่งประสบปัญหาการปนเปื้อนข้อมูล (data contamination) ข้อมูลฝึกของโมเดลมักรวมคำตอบที่ถูกต้องจาก benchmarks เหล่านี้ไว้แล้ว ทำให้คะแนนสูงเกินจริงเมื่อทดสอบ ตัวอย่างเช่น GPT-4 ทำคะแนนสูงในหลาย benchmarks แต่เมื่อทดสอบกับเวอร์ชันที่ควบคุมการปนเปื้อน คะแนนจะลดลงอย่างมาก

Yann LeCun ผู้ชนะรางวัล Turing Award กล่าวว่า “LLMs ไม่สามารถเรียนรู้โมเดลโลกที่ซับซ้อนได้จากข้อความเท่านั้น” ในขณะที่ Yoshua Bengio ชี้ว่าการคาดการณ์โทเค็นเป็นเพียงจุดเริ่มต้น ไม่ใช่เป้าหมายปลายทาง การขยายขนาด (scaling) อาจปรับปรุงประสิทธิภาพ แต่ไม่แก้ปัญหาการขาดเหตุผลเชิงนัยยะ (latent reasoning) หรือความสามารถในการวางแผนระยะยาว

ทางเลือกอื่นสำหรับ AGI

เพื่อบรรลุ AGI จริง ต้องผสมผสานวิธีการแบบสถิติเข้ากับแนวทางสัญลักษณ์ (symbolic AI) หรือ neurosymbolic AI ซึ่งรวมการเรียนรู้เชิงลึกกับกฎตรรกะและโครงสร้างข้อมูล เช่น AlphaGo ที่ใช้ tree search ร่วมกับ neural networks หรือโมเดลที่ใช้ world models เพื่อจำลองสถานะโลกและทำนายผลลัพธ์ของการกระทำ

แนวคิดเหล่านี้เน้นการสร้างตัวแทนที่สามารถวางแผน (planning agents) เรียนรู้จากปฏิสัมพันธ์กับสภาพแวดล้อมจริง และจัดการความไม่แน่นอน (uncertainty) แทนที่จะพึ่งพาการคาดการณ์ลำดับข้อความเท่านั้น OpenAI กำลังทดลองกับ o1 model ที่ใช้ chain-of-thought prompting เพื่อจำลองการคิดขั้นตอน แต่แม้กระนั้น มันยังคงยึดติดกับการคาดการณ์โทเค็นเป็นแกนหลัก

สรุปข้อโต้แย้งหลัก

การคาดการณ์โทเค็นเป็นนวัตกรรมที่ยอดเยี่ยมสำหรับงานภาษา แต่ไม่ใช่เส้นทางสู่ AGI มันขาดความเข้าใจเชิงลึก ความสามารถในการเหตุผล และการ grounding ในโลกจริง การพึ่งพาวิธีนี้เพียงอย่างเดียวอาจนำไปสู่ “AI winter” ใหม่ หากไม่พัฒนาแนวทางใหม่ที่หลากหลาย นักพัฒนา AI ควรหันไปสู่ระบบไฮบริดที่รวมจุดแข็งของ LLMs เข้ากับเทคนิคอื่นๆ เพื่อสร้างปัญญาที่แท้จริง

(จำนวนคำประมาณ 720 คำ)

This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)