ตัวแทน RL พัฒนาจากการล้มหน้าควยสู่การฝึกพาร์กูร์ เมื่อนักวิจัยเพิ่มชั้นเครือข่ายอย่างต่อเนื่อง
ในวงการปัญญาประดิษฐ์ โดยเฉพาะการเรียนรู้แบบเสริมกำลัง (Reinforcement Learning: RL) นักวิจัยจาก Google DeepMind และพันธมิตร ได้ค้นพบหลักการสำคัญที่ช่วยยกระดับสมรรถนะของตัวแทน RL ในการจัดการงานที่ซับซ้อน ผ่านการทดลองกับหุ่น humanoid ที่ต้องฝึกทักษะพาร์กูร์ โดยผลลัพธ์น่าทึ่งคือ เมื่อเพิ่มจำนวนชั้น (layers) ในเครือข่ายประสาทเทียมของนโยบาย (policy network) ตัวแทนที่เคยล้มเหลวอย่างน่าอับอายกลับสามารถแสดงท่าทางที่สง่างามและมีประสิทธิภาพสูงสุด
งานวิจัยล่าสุดนี้ตีพิมพ์ในรูปแบบบทความทางวิชาการ ชี้ให้เห็นถึงพลังของการขยายขนาดเครือข่ายเชิงลึก (depth scaling) ซึ่งแตกต่างจากการขยายความกว้าง (width scaling) แบบดั้งเดิม โดยนักวิจัยได้พัฒนาเบนช์มาร์กใหม่ชื่อ “Parkour” สำหรับการทดสอบตัวแทน RL บนแพลตฟอร์ม DeepMind Control Suite (DM Control) เบนช์มาร์กนี้ประกอบด้วยอุปสรรค 9 ประการที่ท้าทาย เช่น การกระโดดข้ามหลุม การปีนกำแพง การหมุนตัวหลบสิ่งกีดขวาง และการเคลื่อนไหวแบบไดนามิกอื่นๆ ซึ่งจำลองสถานการณ์พาร์กูร์ในโลกจริง
ความล้มเหลวเริ่มต้นด้วยเครือข่ายตื้น
ในขั้นตอนเริ่มต้น นักวิจัยใช้ตัวแทน humanoid ที่มีโครงสร้างพื้นฐาน โดยอาศัยอัลกอริทึม Proximal Policy Optimization (PPO) ซึ่งเป็นมาตรฐานใน RL การฝึกฝนด้วยเครือข่ายนโยบายที่มีชั้น MLP (Multi-Layer Perceptron) เพียง 2 ชั้น และขนาดซ่อน (hidden size) 256 หน่วย ทำให้ตัวแทนแสดงพฤติกรรมที่ล้มเหลวอย่างสิ้นเชิง วิดีโอตัวอย่างเผยให้เห็นภาพตัวแทนล้มหน้าควยซ้ำๆ เมื่อเผชิญอุปสรรคแรก เช่น การกระโดดข้ามบล็อกต่ำ แม้จะฝึกนานหลายล้านขั้นตอน (millions of steps) คะแนนรวมในเบนช์มาร์ก Parkour ยังคงต่ำมาก ไม่เกินระดับพื้นฐาน สาเหตุหลักมาจากความสามารถในการแสดงนโยบาย (policy expressivity) ที่จำกัด ทำให้ตัวแทนไม่สามารถเรียนรู้ลำดับการเคลื่อนไหวที่ซับซ้อนได้
การยกระดับด้วยการเพิ่มชั้นเครือข่าย
จุดเปลี่ยนเกิดขึ้นเมื่อนักวิจัยทดลองเพิ่มจำนวนชั้นในเครือข่ายนโยบาย โดยคงขนาดหน่วยซ่อนไว้เท่าเดิม ผลลัพธ์ชัดเจนทันที:
- 4 ชั้น: ตัวแทนเริ่มแสดงความก้าวหน้า สามารถกระโดดข้ามอุปสรรคต่ำได้บ้าง แต่ยังล้มบ่อย
- 6 ชั้น: ประสิทธิภาพพุ่งสูงขึ้น ผ่านอุปสรรคได้มากกว่า 50% ของชุดทดสอบ
- 10 ชั้น: ตัวแทนบรรลุระดับ “มนุษย์” (human-level) สามารถทำพาร์กูร์ทั้งหมดได้อย่างคล่องแคล่ว วิดีโอแสดงภาพการกระโดด ปีน และหมุนตัวที่สมบูรณ์แบบ โดยไม่ล้มแม้แต่ครั้งเดียว
กราฟผลการทดลองยืนยันแนวโน้มนี้ โดยคะแนนเฉลี่ยใน Parkour เพิ่มขึ้นแบบทวีคูณตามจำนวนชั้น (scaling law) นอกจากนี้ การเปรียบเทียบกับการขยายความกว้าง (เช่น เพิ่ม hidden size เป็น 1024 โดยชั้น 2 ชั้น) พบว่าการเพิ่มชั้นมีประสิทธิภาพสูงกว่าในการใช้ทรัพยากรคำนวณ (compute-optimal) ตัวอย่างเช่น เครือข่าย 10 ชั้น (ประมาณ 1 ล้านพารามิเตอร์) ให้ผลดีกว่าเครือข่ายกว้าง 2 ชั้น (หลายล้านพารามิเตอร์) ในงานที่ต้องการการวางแผนระยะยาว
วิธีการทางเทคนิคและการออกแบบการทดลอง
นักวิจัยใช้โครงสร้าง actor-critic แบบมาตรฐาน โดย actor เป็นนโยบายที่ scaling ชั้น และ critic เป็น value function ที่ปรับขนาดตามสัดส่วน การสังเกตการณ์ (observation) รวมข้อมูลเซ็นเซอร์ เช่น ตำแหน่งข้อต่อ ความเร็ว และข้อมูลกล้องจากระยะไกล (proprioceptive และ exteroceptive states) การฝึกใช้ frame stacking เพื่อจับการเคลื่อนไหวแบบ temporal นอกจากนี้ ยังปรับ hyperparameters เช่น learning rate และ entropy coefficient เพื่อให้เหมาะสมกับขนาดเครือข่ายที่ใหญ่ขึ้น
การทดลองครอบคลุมหลายรอบ โดยใช้ seed หลายตัวเพื่อความน่าเชื่อถือ ผลปรากฏว่าการ scaling ชั้นช่วยลด variance ในการฝึก และเพิ่ม robustness ต่อสภาพแวดล้อมที่เปลี่ยนแปลง พวกเขายังทดสอบบนงานอื่นๆ ใน DM Control เช่น quadruped run และ humanoid stand เพื่อยืนยันว่าผลนี้ไม่จำกัดเฉพาะ Parkour โดยพบแนวโน้มคล้ายคลึงกัน
นัยยะต่ออนาคตของ RL
ผลงานนี้เน้นย้ำถึง “scaling laws” ใน RL คล้ายกับใน supervised learning ที่เพิ่มขนาดโมเดลนำไปสู่ประสิทธิภาพสูงขึ้น แต่ที่นี่เน้น depth มากกว่า โดยเฉพาะในงาน locomotion ที่ต้องการ hierarchical representation (การแทนค่าตามลำดับชั้น) ซึ่งช่วยให้ตัวแทนเรียนรู้ primitive actions และ high-level planning ได้ดีขึ้น นักวิจัยชี้ว่า การ scaling นี้สามารถนำไปประยุกต์กับหุ่นยนต์จริงในอนาคต เช่น warehouse robots หรือ humanoid assistants ที่ต้องนำทางในสภาพแวดล้อมซับซ้อน
อย่างไรก็ตาม ยังมีข้อจำกัด เช่น การใช้ compute สูง (สั่งการ GPU หลายตัวนานหลายวัน) และความท้าทายในการถ่ายโอน (transfer) สู่ hardware จริง สุดท้าย งานวิจัยนี้เปิดประตูสู่การพัฒนาตัวแทน RL ที่ฉลาดและ agile มากขึ้น โดยพิสูจน์ว่าการเพิ่มชั้นเครือข่ายไม่ใช่แค่ทางเลือก แต่เป็นกุญแจสู่พฤติกรรมขั้นสูง
(จำนวนคำประมาณ 720 คำ)
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)