Mitigating Catastrophic Forgetting in Large Language Models with Google’s Nested Learning
The rapid advancement of Large Language Models (LLMs) has revolutionized various computational fields. However, a persistent challenge in model training, particularly during incremental updates or fine-tuning, is “catastrophic forgetting.” This phenomenon describes the tendency of an artificial neural network to abruptly forget knowledge acquired in previous training phases when new information is introduced. Google AI is addressing this critical issue with a novel technique called “Nested Learning.”
Catastrophic forgetting poses a significant hurdle to maintaining the long-term utility and robustness of LLMs. As models are continuously updated with new data—a necessity for keeping them current and accurate—they risk losing proficiency in tasks or knowledge domains learned earlier. While techniques like replay mechanisms, which involve retraining the model on a small sample of old data, exist, they are often computationally expensive and resource-intensive, particularly for massive LLMs.
Google’s Nested Learning offers an elegant architectural solution to mitigate catastrophic forgetting without the excessive computational overhead associated with typical replay methods. The core principle of Nested Learning is the introduction of a dual-structure architecture within the model, essentially creating “nested models” within the primary LLM.
Conceptually, the new architecture can be viewed as comprising two distinct but interconnected components: a base model and one or more nested models (or “adapters”). The base model retains the bulk of the LLM’s foundational knowledge, representing the information acquired during the initial, extensive pre-training phase. The nested models are smaller, specialized components that are added to the existing structure, designed to assimilate new information during fine-tuning or continuous learning phases.
When the LLM undergoes training with new data, the parameters of the base model remain largely or entirely fixed. This parameter freezing is crucial; it acts as a safeguard, preventing the foundational knowledge encoded in the base model’s weights from being overwritten or corrupted by the new data. Instead, the model learns the new information exclusively by adjusting the parameters of the smaller, newly introduced nested models.
This separation of learning processes offers significant advantages. By isolating the updates to the nested components, the risk of disturbing the established knowledge base in the base network is minimized, directly tackling catastrophic forgetting. Furthermore, the nested models are substantially smaller than the entire LLM, making the fine-tuning process significantly more efficient both in terms of computation time and resource expenditure compared to traditional methods that require adjusting the entire model’s parameter set.
The effectiveness of Nested Learning has been demonstrated through empirical evaluations. Google researchers tested this architecture against conventional fine-tuning methods on tasks involving sequential learning updates, which typically induce high rates of catastrophic forgetting. The results indicated that models employing the Nested Learning strategy exhibited superior performance in retaining previously learned knowledge while effectively integrating new information. This dual capability—efficient acquisition of new skills coupled with robust retention of old knowledge—positions Nested Learning as a potential breakthrough in designing perpetually learning and highly stable LLMs.
The methodology essentially allows an LLM to “layer” new knowledge atop its existing foundation without compromising the integrity of that foundation. It represents a shift from updating a monolithic knowledge structure to dynamically extending the model’s capabilities through modular, specialized additions. This approach is highly relevant for real-world applications where models require frequent, minor updates—such as adapting to new linguistic nuances, absorbing recently published information, or specializing for nuanced enterprise tasks—without requiring a costly and risky full re-training cycle. Nested Learning promises to deliver more resilient, efficient, and reliable LLMs, thereby extending their service life and utility in dynamic operational environments.
การเรียนรู้แบบซ้อนชั้น (Nested Learning) ของ Google: การยับยั้งการลืมความรู้แบบหายนะในแบบจำลองภาษาขนาดใหญ่
ความก้าวหน้าอย่างรวดเร็วของแบบจำลองภาษาขนาดใหญ่ (Large Language Models – LLMs) ได้พลิกโฉมวงการคอมพิวเตอร์หลากหลายสาขา อย่างไรก็ตาม ความท้าทายที่ยังคงอยู่ในการฝึกฝนแบบจำลอง โดยเฉพาะอย่างยิ่งในช่วงของการอัปเดตแบบเพิ่มส่วน (incremental updates) หรือการปรับจูนละเอียด (fine-tuning) คือ “การลืมความรู้แบบหายนะ” (catastrophic forgetting) ปรากฏการณ์นี้หมายถึงแนวโน้มที่เครือข่ายประสาทเทียมจะลืมความรู้ที่ได้เรียนรู้มาในขั้นตอนการฝึกฝนก่อนหน้าอย่างฉับพลัน เมื่อมีการป้อนข้อมูลใหม่เข้าไป Google AI กำลังแก้ไขปัญหาวิกฤตินี้ด้วยเทคนิคใหม่ที่เรียกว่า “การเรียนรู้แบบซ้อนชั้น” (Nested Learning)
การลืมความรู้แบบหายนะเป็นอุปสรรคสำคัญในการรักษาประโยชน์ใช้สอยในระยะยาวและความแข็งแกร่งของ LLMs เนื่องจากแบบจำลองต้องได้รับการอัปเดตอย่างต่อเนื่องด้วยข้อมูลใหม่ ๆ ซึ่งเป็นสิ่งจำเป็นเพื่อให้แบบจำลองมีความทันสมัยและแม่นยำ แบบจำลองจึงมีความเสี่ยงที่จะสูญเสียความเชี่ยวชาญในงานหรือขอบเขตความรู้ที่เคยเรียนรู้มาก่อนหน้านี้ แม้ว่าจะมีเทคนิคต่าง ๆ เช่น กลไกการเล่นซ้ำ (replay mechanisms) ซึ่งเกี่ยวข้องกับการฝึกฝนแบบจำลองใหม่ด้วยชุดข้อมูลเก่าเล็กน้อย แต่เทคนิคเหล่านี้มักต้องใช้พลังการประมวลผลสูงและสิ้นเปลืองทรัพยากร โดยเฉพาะอย่างยิ่งสำหรับ LLMs ขนาดใหญ่
การเรียนรู้แบบซ้อนชั้นของ Google นำเสนอสถาปัตยกรรมที่ชาญฉลาดเพื่อลดการลืมความรู้แบบหายนะ โดยไม่ต้องมีค่าใช้จ่ายในการคำนวณที่สูงเกินไปเหมือนวิธีการเล่นซ้ำทั่วไป หลักการสำคัญของการเรียนรู้แบบซ้อนชั้นคือการนำเสนอสถาปัตยกรรมแบบโครงสร้างคู่ภายในแบบจำลอง ซึ่งโดยพื้นฐานแล้วเป็นการสร้าง “แบบจำลองย่อยที่ซ้อนกัน” (nested models) ภายใน LLM หลัก
ในทางแนวคิด สถาปัตยกรรมใหม่นี้สามารถมองได้ว่าประกอบด้วยสององค์ประกอบที่แตกต่างกันแต่เชื่อมโยงกัน คือ แบบจำลองฐาน (base model) และ แบบจำลองย่อยที่ซ้อนกัน (หรือ “อะแดปเตอร์”) หนึ่งตัวหรือมากกว่า แบบจำลองฐานจะเก็บความรู้พื้นฐานส่วนใหญ่ของ LLM ไว้ ซึ่งแสดงถึงข้อมูลที่ได้มาในช่วงการฝึกฝนล่วงหน้า (pre-training) ที่กว้างขวางในตอนแรก ส่วนแบบจำลองย่อยที่ซ้อนกันคือองค์ประกอบขนาดเล็กที่เชี่ยวชาญ ซึ่งถูกเพิ่มเข้ามาในโครงสร้างที่มีอยู่ ออกแบบมาเพื่อดูดซับข้อมูลใหม่ในช่วงการปรับจูนละเอียดหรือการเรียนรู้ต่อเนื่อง
เมื่อ LLM ได้รับการฝึกฝนด้วยข้อมูลใหม่ พารามิเตอร์ของแบบจำลองฐานจะยังคงถูกตรึงไว้เกือบทั้งหมดหรือทั้งหมด การตรึงพารามิเตอร์นี้มีความสำคัญอย่างยิ่ง เนื่องจากทำหน้าที่เป็นเกราะป้องกัน ไม่ให้ความรู้พื้นฐานที่ถูกเข้ารหัสในน้ำหนัก (weights) ของแบบจำลองฐานถูกเขียนทับหรือเสียหายจากข้อมูลใหม่ แต่แบบจำลองจะเรียนรู้ข้อมูลใหม่โดยการปรับพารามิเตอร์ของแบบจำลองย่อยที่ซ้อนกันที่เพิ่งถูกนำเข้ามาเท่านั้น
การแยกกระบวนการเรียนรู้นี้ให้ข้อได้เปรียบที่สำคัญ การจำกัดการอัปเดตเฉพาะในส่วนประกอบที่ซ้อนกัน ความเสี่ยงของการรบกวนฐานความรู้ที่จัดตั้งขึ้นในเครือข่ายฐานจึงลดลง ซึ่งเป็นการจัดการกับการลืมความรู้แบบหายนะโดยตรง นอกจากนี้ แบบจำลองย่อยที่ซ้อนกันยังมีขนาดเล็กกว่า LLM ทั้งหมดอย่างมาก ทำให้กระบวนการปรับจูนละเอียดมีประสิทธิภาพมากขึ้นอย่างมาก ทั้งในแง่ของเวลาในการคำนวณและการใช้ทรัพยากร เมื่อเทียบกับวิธีการแบบดั้งเดิมที่ต้องปรับพารามิเตอร์ทั้งหมดของแบบจำลอง
ประสิทธิภาพของการเรียนรู้แบบซ้อนชั้นได้รับการพิสูจน์ผ่านการประเมินเชิงประจักษ์ นักวิจัยของ Google ได้ทดสอบสถาปัตยกรรมนี้เทียบกับวิธีการปรับจูนละเอียดแบบทั่วไปในงานที่เกี่ยวข้องกับการอัปเดตการเรียนรู้ตามลำดับ ซึ่งโดยปกติจะทำให้เกิดอัตราการลืมความรู้แบบหายนะสูง ผลลัพธ์บ่งชี้ว่าแบบจำลองที่ใช้กลยุทธ์การเรียนรู้แบบซ้อนชั้นแสดงประสิทธิภาพที่เหนือกว่าในการเก็บรักษาความรู้ที่เคยเรียนรู้มาก่อนหน้านี้ ในขณะที่ยังสามารถรวมข้อมูลใหม่ได้อย่างมีประสิทธิภาพ ความสามารถคู่ขนานนี้—การได้มาซึ่งทักษะใหม่ที่มีประสิทธิภาพควบคู่ไปกับการเก็บรักษาความรู้เก่าที่แข็งแกร่ง—ทำให้การเรียนรู้แบบซ้อนชั้นเป็นความก้าวหน้าที่มีศักยภาพในการออกแบบ LLMs ที่เรียนรู้ได้อย่างต่อเนื่องและมีความเสถียรสูง
วิธีการนี้โดยพื้นฐานแล้วช่วยให้ LLM สามารถ “ซ้อนชั้น” ความรู้ใหม่ไว้บนรากฐานที่มีอยู่ โดยไม่กระทบต่อความสมบูรณ์ของรากฐานนั้น เป็นการเปลี่ยนจากการอัปเดตโครงสร้างความรู้แบบรวมศูนย์ไปสู่การขยายขีดความสามารถของแบบจำลองแบบไดนามิกผ่านส่วนเสริมเฉพาะทางที่เป็นแบบโมดูล วิธีการนี้มีความเกี่ยวข้องอย่างยิ่งสำหรับแอปพลิเคชันในโลกจริงที่แบบจำลองต้องการการอัปเดตย่อย ๆ บ่อยครั้ง เช่น การปรับตัวให้เข้ากับความแตกต่างทางภาษาใหม่ การดูดซับข้อมูลที่เผยแพร่เมื่อเร็ว ๆ นี้ หรือความเชี่ยวชาญสำหรับงานองค์กรที่มีความละเอียดอ่อน โดยไม่จำเป็นต้องมีการฝึกฝนใหม่ทั้งรอบที่มีค่าใช้จ่ายสูงและมีความเสี่ยง การเรียนรู้แบบซ้อนชั้นให้คำมั่นสัญญาว่าจะส่งมอบ LLMs ที่ยืดหยุ่น มีประสิทธิภาพ และเชื่อถือได้มากขึ้น ซึ่งจะช่วยยืดอายุการใช้งานและประโยชน์ใช้สอยในสภาพแวดล้อมการดำเนินงานที่มีการเปลี่ยนแปลง
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)