เกณฑ์ประเมินเอเจนต์ ai หมกมุ่นกับการเขียนโค้ด ขณะละเลย 92% ของตลาดแรงงานสหรัฐ การศึกษาพบ

เกณฑ์มาตรฐานประสิทธิภาพตัวแทน AI มุ่งเน้นการเขียนโค้ดมากเกินไป โดยละเลย 92% ของตลาดแรงงานสหรัฐฯ ตามผลการศึกษาพบ

นักวิจัยจากมหาวิทยาลัยแคลิฟอร์เนียได้ทำการวิเคราะห์เกณฑ์มาตรฐานประสิทธิภาพยอดนิยมสำหรับตัวแทนปัญญาประดิษฐ์ (AI Agents) พบว่ามาตรฐานเหล่านี้ให้ความสำคัญกับงานเขียนโค้ดอย่างมาก โดยละเลยงานส่วนใหญ่ในตลาดแรงงานจริง โดยเฉพาะในสหรัฐอเมริกาที่งานเขียนโค้ดครอบคลุมเพียง 8% ของอาชีพทั้งหมด แต่เกณฑ์มาตรฐานดังกล่าวกลับจัดสรรงานเขียนโค้ดไว้ถึง 57-100% ของการทดสอบทั้งหมด

ผลการศึกษานี้ตีพิมพ์ในรูปแบบ arXiv ภายใต้ชื่อ “Beyond Coding: Should AI Agents Learn to Navigate the Real Labor Market?” โดยทีมนักวิจัยนำโดย Tz-Kai Chang, Aman Madaan, Gordy Lin, Thomas L. Griffiths และ Subhabrata Mukherjee งานวิจัยชิ้นนี้ชี้ให้เห็นถึงช่องว่างสำคัญระหว่างการพัฒนาตัวแทน AI กับความต้องการในตลาดแรงงานจริง ซึ่งอาจนำไปสู่การพัฒนาโมเดลที่ไม่สอดคล้องกับการใช้งานในโลกธุรกิจและอุตสาหกรรมส่วนใหญ่

การวิเคราะห์เกณฑ์มาตรฐานยอดนิยม

นักวิจัยได้ตรวจสอบเกณฑ์มาตรฐาน 5 ชุดที่ได้รับความนิยม ได้แก่ GAIA, AgentBench, BFCL, WebArena และ VisualWebArena ซึ่งใช้กันอย่างแพร่หลายในการประเมินความสามารถของตัวแทน AI โดยพบว่าทุกชุดมุ่งเน้นไปที่งานที่เกี่ยวข้องกับการเขียนโค้ด เช่น การแก้ปัญหาโค้ด การทดสอบยูนิต และการโต้ตอบกับสภาพแวดล้อมการเขียนโปรแกรม

  • GAIA: เกณฑ์มาตรฐานนี้มุ่งวัดความสามารถทั่วไปของตัวแทน AI แต่ 57% ของงานทดสอบเป็นงานเขียนโค้ด
  • AgentBench: ประกอบด้วยงานหลากหลาย แต่การเขียนโค้ดและงานที่เกี่ยวข้องครอบคลุมถึง 90%
  • BFCL: เกือบทั้งหมด (98%) เป็นงานเขียนโค้ด
  • WebArena: แม้จะเน้นการโต้ตอบเว็บ แต่ 100% ของงานที่ซับซ้อนต้องอาศัยการเขียนโค้ด
  • VisualWebArena: คล้ายกัน โดยงานส่วนใหญ่ต้องใช้โค้ดในการแก้ปัญหา

แนวโน้มนี้เกิดขึ้นเพราะนักพัฒนา AI ส่วนใหญ่มักมีพื้นฐานด้านการเขียนโปรแกรม ทำให้การออกแบบเกณฑ์มาตรฐานสะท้อนมุมมองของตัวเองมากกว่าความเป็นจริงของตลาดแรงงาน ส่งผลให้ตัวแทน AI พัฒนาความสามารถในด้านแคบๆ ที่ไม่ครอบคลุมอาชีพอื่นๆ เช่น การขาย การบริการลูกค้า การจัดการเอกสาร หรืองานธุรการ

สถิติตลาดแรงงานสหรัฐฯ จากสำนักงานสถิติแรงงาน (BLS)

ตามข้อมูลจาก Bureau of Labor Statistics (BLS) ของสหรัฐอเมริกาในปี 2023 ตลาดแรงงานทั้งหมดมีอาชีพหลากหลาย โดยงานที่เกี่ยวข้องกับการเขียนโค้ดอย่างแท้จริง เช่น นักพัฒนาซอฟต์แวร์ มีเพียง 1.5 ล้านตำแหน่ง หรือประมาณ 1% ของแรงงานทั้งหมด หากขยายไปยังงานไอทีที่กว้างขึ้น เช่น ผู้ดูแลระบบและนักวิเคราะห์ข้อมูล จะครอบคลุมเพียง 8% ของตลาดแรงงาน

ในทางตรงกันข้าม อาชีพอื่นๆ ที่ตัวแทน AI ควรเก่งกาจมีสัดส่วนสูงกว่า เช่น:

  • พนักงานขาย: 10% ของตลาดแรงงาน
  • เจ้าหน้าที่ธุรการและสำนักงาน: 7%
  • พนักงานบริการลูกค้า: 6%
  • คนขับรถบรรทุก: 5%
  • พนักงานประกอบอาหาร: 5%

ดังนั้น 92% ของตลาดแรงงานที่เหลือจึงถูกมองข้ามในเกณฑ์มาตรฐานปัจจุบัน สิ่งนี้ทำให้การประเมินประสิทธิภาพของตัวแทน AI ไม่สะท้อนศักยภาพในแอปพลิเคชันธุรกิจจริง ซึ่งส่วนใหญ่ต้องการทักษะการโต้ตอบกับมนุษย์ การจัดการข้อมูลที่ไม่เป็นโครงสร้าง และการตัดสินใจในสถานการณ์จริง

ข้อเสนอใหม่: JobBench

เพื่อแก้ไขปัญหานี้ นักวิจัยได้พัฒนาเกณฑ์มาตรฐานใหม่ชื่อ JobBench ซึ่งออกแบบให้สอดคล้องกับการกระจายอาชีพในตลาดแรงงานสหรัฐฯ โดยตรง JobBench ประกอบด้วยงานทดสอบ 1,000 ชิ้นที่แบ่งตามสัดส่วนจริง เช่น:

  • งานขายและการเจรจา: สูงถึง 10%
  • งานธุรการ: 7%
  • งานบริการลูกค้า: 6%
  • งานเขียนโค้ด: ลดเหลือเพียง 8% เพื่อให้สมจริง

JobBench ใช้เครื่องมือและสภาพแวดล้อมจริง เช่น เว็บไซต์อีคอมเมิร์ซ ระบบ CRM และแอปพลิเคชันธุรกิจ เพื่อทดสอบตัวแทน AI ในสถานการณ์ที่คล้ายคลึงกับงานจริง นอกจากนี้ ยังประเมินด้านความปลอดภัย ความน่าเชื่อถือ และความสามารถในการปรับตัว ซึ่งเป็นปัจจัยสำคัญในธุรกิจ

ผลการทดสอบเบื้องต้นพบว่าตัวแทน AI ชั้นนำ เช่น GPT-4o, Claude 3.5 Sonnet และ Gemini 1.5 Pro มีประสิทธิภาพต่ำใน JobBench เมื่อเทียบกับเกณฑ์มาตรฐานเดิม โดยเฉพาะในงานที่ไม่ใช่โค้ด เช่น การจัดการข้อร้องเรียนลูกค้าหรือการยื่นเอกสาร ซึ่งแสดงให้เห็นว่าตัวแทน AI ยังไม่พร้อมสำหรับตลาดแรงงานกว้างๆ

ความหมายต่ออุตสาหกรรมและธุรกิจ

การค้นพบนี้มีนัยสำคัญต่อบริษัทเทคโนโลยีและองค์กรธุรกิจที่กำลังนำตัวแทน AI มาใช้ เกณฑ์มาตรฐานที่ลำเอียงอาจทำให้เกิดการลงทุนผิดพลาด โดยพัฒนาโมเดลที่เก่งเฉพาะด้านแคบๆ แทนที่จะเป็นตัวแทนที่ใช้งานได้หลากหลาย นักวิจัยแนะนำให้ผู้พัฒนาเกณฑ์มาตรฐานปรับปรุงให้ครอบคลุมอาชีพจริงมากขึ้น และใช้ข้อมูลจาก BLS เป็นแนวทาง เพื่อให้ตัวแทน AI สามารถนำไปประยุกต์ในภาคธุรกิจได้อย่างมีประสิทธิภาพ

ในยุคที่ตัวแทน AI กำลังกลายเป็นเครื่องมือหลักในการเพิ่มผลผลิต การปรับเกณฑ์มาตรฐานให้สอดคล้องกับตลาดแรงงานจริงจะช่วยเร่งการนำไปใช้งานในองค์กรขนาดใหญ่ ลดช่องว่างระหว่างห้องแล็บกับโลกธุรกิจ และสร้างมูลค่าให้กับเศรษฐกิจโดยรวม

(จำนวนคำประมาณ 750 คำ)

This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)