เครื่องมือเขียนโค้ด AI ของ AWS สร้างความเสียหายโดยลบและสร้างระบบที่ลูกค้าใช้งานใหม่ ส่งผลให้เกิดการหยุดชะงักนาน 13 ชั่วโมงตามรายงาน
ในเหตุการณ์ที่สร้างความตื่นตระหนกภายในบริษัท Amazon Web Services (AWS) มีรายงานจากเอกสารตรวจสอบภายในที่ถูกเปิดเผยโดยสื่อ The Register ระบุว่า เครื่องมือช่วยเขียนโค้ดด้วยปัญญาประดิษฐ์ (AI) ของ AWS ได้สร้างคำแนะนำโค้ดที่ผิดพลาดอย่างรุนแรง โดยสั่งให้ลบระบบที่ลูกค้าใช้งานจริงทั้งหมดและสร้างใหม่ตั้งแต่ต้น ส่งผลให้บริการสำหรับลูกค้าหยุดชะงักนานถึง 13 ชั่วโมง
เหตุการณ์ดังกล่าวเกิดขึ้นเมื่อไม่นานมานี้ โดยวิศวกรของ AWS กำลังดำเนินการย้ายระบบ (migration) ของโครงสร้างพื้นฐานเสมือน (virtual private cloud หรือ VPC) ที่เกี่ยวข้องกับระบบบริการที่ลูกค้าใช้งานโดยตรง วิศวกรคนนี้เลือกใช้เครื่องมือ AI ช่วยเขียนโค้ด ซึ่งเป็นส่วนหนึ่งของชุดเครื่องมือพัฒนาซอฟต์แวร์ภายในของ AWS เพื่อเร่งกระบวนการพัฒนา อย่างไรก็ตาม เครื่องมือ AI ได้สร้างโค้ด Terraform automation script ที่ไม่สมบูรณ์แบบ โดยโค้ดดังกล่าวสั่งให้ลบองค์ประกอบหลักของระบบทั้งหมด เช่น VPC, subnets, และส่วนประกอบอื่นๆ ที่เชื่อมโยงกัน ก่อนที่จะสร้างใหม่ตั้งแต่ต้น
ตามรายงาน post-mortem ภายในของ AWS ซึ่งถูกอ้างอิงโดย The Register พบว่า โค้ดที่ AI สร้างขึ้นนั้นขาดการตรวจสอบความถูกต้องและการจัดการสถานะ (state management) ที่เหมาะสม ส่งผลให้เมื่อรันโค้ดดังกล่าว ระบบไม่เพียงลบส่วนประกอบที่ตั้งใจเท่านั้น แต่ยังลบส่วนที่กำลังใช้งานจริงสำหรับลูกค้าด้วย เนื่องจากสคริปต์ไม่ได้แยกแยะระหว่างสภาพแวดล้อมการทดสอบและการใช้งานจริงอย่างชัดเจน การลบและสร้างใหม่นี้ทำให้บริการลูกค้าหยุดทำงานทันที และต้องใช้เวลานานถึง 13 ชั่วโมงในการกู้คืนระบบให้กลับสู่สภาวะปกติ
รายงานตรวจสอบภายในชี้ให้เห็นถึงจุดอ่อนหลายประการในกระบวนการนี้ ประการแรกคือการพึ่งพาเครื่องมือ AI มากเกินไปโดยไม่มีการตรวจสอบโค้ดที่สร้างขึ้นอย่างละเอียด วิศวกรยอมรับว่าได้รันโค้ดโดยตรงโดยไม่ผ่านการทดสอบในสภาพแวดล้อมแยกต่างหาก (sandbox) หรือการตรวจสอบด้วยมนุษย์ (human review) ซึ่งเป็นแนวปฏิบัติพื้นฐานในกระบวนการพัฒนาซอฟต์แวร์ ประการที่สอง โค้ด Terraform ที่ AI สร้างมีปัญหาในส่วนของการจัดการ state file ซึ่งเป็นไฟล์ที่บันทึกสถานะปัจจุบันของโครงสร้างพื้นฐาน หาก state file ไม่สอดคล้องกับความเป็นจริง กระบวนการ apply จะนำไปสู่การเปลี่ยนแปลงที่ไม่คาดคิด
AWS เองได้ยอมรับในรายงานว่า เหตุการณ์นี้เป็นตัวอย่างที่ชัดเจนของความเสี่ยงจากการใช้เครื่องมือ AI generative ในงานที่เกี่ยวข้องกับโครงสร้างพื้นฐานการผลิต (production infrastructure) โดยเฉพาะอย่างยิ่งในระบบที่ลูกค้าใช้งานโดยตรง บริษัทได้ออกแนวทางใหม่สำหรับทีมพัฒนา โดยกำหนดให้ต้องมีการตรวจสอบโค้ดจาก AI ทุกครั้งก่อนนำไปใช้งานจริง รวมถึงการใช้เครื่องมือตรวจสอบอัตโนมัติเพิ่มเติม เช่น static code analysis และการทดสอบ integration นอกจากนี้ ยังเน้นย้ำถึงความสำคัญของหลักการ “shift left” ในกระบวนการพัฒนา ซึ่งหมายถึงการตรวจสอบและทดสอบในขั้นตอนต้นๆ ของวงจรชีวิตซอฟต์แวร์
เหตุการณ์นี้ไม่ใช่ครั้งแรกที่เครื่องมือ AI สร้างปัญหาในอุตสาหกรรมเทคโนโลยี แต่เป็นกรณีที่โดดเด่นเพราะเกิดขึ้นภายในบริษัทชั้นนำอย่าง AWS ซึ่งเป็นผู้นำตลาดคลาวด์คอมพิวติ้ง รายงานระบุว่า AWS กำลังพัฒนาเครื่องมือ AI สำหรับนักพัฒนาอย่าง Amazon Q Developer เพื่อช่วยเพิ่มประสิทธิภาพการเขียนโค้ด แต่เหตุการณ์ดังกล่าวเป็นเครื่องเตือนใจถึงความจำเป็นในการกำกับดูแล (governance) ที่เข้มงวดยิ่งขึ้น แม้ AWS จะไม่ได้เปิดเผยชื่อเครื่องมือ AI เฉพาะที่ใช้ในเหตุการณ์นี้ แต่เชื่อว่าเป็นเครื่องมือภายในที่คล้ายกับ CodeWhisperer หรือโมเดล generative AI อื่นๆ ที่บริษัทพัฒนา
จากมุมมองทางธุรกิจ เหตุการณ์นี้ส่งผลกระทบโดยตรงต่อความเชื่อมั่นของลูกค้า เนื่องจากระบบที่ได้รับผลกระทบเป็นบริการที่ลูกค้าองค์กรใช้งานจริง การหยุดชะงักนาน 13 ชั่วโมงอาจนำไปสู่ความสูญเสียทางการเงินและชื่อเสียงสำหรับลูกค้าเหล่านั้น AWS จึงได้ดำเนินการชดเชยและสื่อสารกับลูกค้าที่ได้รับผลกระทบอย่างเร่งด่วน ขณะเดียวกัน บริษัทยังใช้เหตุการณ์นี้เป็นบทเรียนในการปรับปรุงนโยบายด้าน AI โดยรวม โดยเฉพาะในส่วนของการฝึกอบรมพนักงานเกี่ยวกับความเสี่ยงของ AI hallucinations หรือการสร้างข้อมูลที่ไม่ถูกต้อง
ผู้เชี่ยวชาญในอุตสาหกรรมมองว่า เหตุการณ์นี้สะท้อนถึงความท้าทายที่ใหญ่กว่าของการนำ AI มาใช้ในกระบวนการ DevOps การใช้ Terraform ร่วมกับ AI ต้องมีการออกแบบ prompt (คำสั่งนำ) ที่ชัดเจนและการตรวจสอบหลายชั้นเพื่อป้องกันข้อผิดพลาด รายงาน post-mortem ของ AWS ยังชี้แนะให้ใช้เครื่องมือเช่น Terrascan หรือ Checkov เพื่อสแกนโค้ด IaC (Infrastructure as Code) ก่อน deploy นอกจากนี้ ยังเสนอให้แบ่งแยกสภาพแวดล้อมการพัฒนาให้ชัดเจนยิ่งขึ้น เช่น dev, staging และ prod เพื่อลดความเสี่ยงการปนเปื้อน
สรุปแล้ว เหตุการณ์ AWS ครั้งนี้เป็นเครื่องเตือนใจสำคัญสำหรับองค์กรทุกแห่งที่กำลังนำ AI มาใช้ในการพัฒนาซอฟต์แวร์ แม้ AI จะช่วยเร่งความเร็วได้ แต่การขาดการกำกับดูแลที่เหมาะสมอาจนำไปสู่หายนะทางเทคนิคและธุรกิจ AWS กำลังนำหน้าด้วยการปรับปรุงกระบวนการภายใน ซึ่งคาดว่าจะเป็นต้นแบบให้อุตสาหกรรมอื่นๆ ตามรอย เพื่อให้การใช้ AI เป็นประโยชน์อย่างแท้จริงโดยไม่เสี่ยงต่อความมั่นคงของระบบ
(จำนวนคำประมาณ 728 คำ)
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)