โมเดลการคิดเชิงเหตุผลสอบผ่าน cfa ทั้ง 3 ระดับได้สมบูรณ์แบบแล้ว

โมเดลการใช้เหตุผลสามารถผ่านการสอบ CFA ทุกระดับสามระดับได้แล้ว

ในยุคที่ปัญญาประดิษฐ์ (AI) ก้าวหน้าอย่างรวดเร็ว โมเดลการใช้เหตุผล (reasoning models) จากผู้พัฒนารายใหญ่สองราย ได้แก่ OpenAI และ Anthropic ได้สร้างความสำเร็จครั้งสำคัญ โดยสามารถผ่านการสอบ Chartered Financial Analyst (CFA) ทุกระดับทั้งสามระดับ ซึ่งเป็นการสอบที่ท้าทายและเข้มงวดที่สุดสำหรับมืออาชีพด้านการเงิน

CFA Program เป็นหลักสูตรรับรองวิชาชีพด้านการลงทุนที่ได้รับการยอมรับในระดับสากล จัดโดย CFA Institute โดยมีผู้สมัครสอบกว่า 200,000 คนต่อปี แต่มีเพียงผู้ที่ผ่านการสอบทั้งสามระดับเท่านั้นที่จะได้รับสถานะ CFA Charterholder การสอบแต่ละระดับมีความยากลิบลิ่ว โดยอัตราความสำเร็จเฉลี่ยอยู่ที่ประมาณ 40-50% สำหรับระดับ 1 และต่ำกว่านั้นในระดับสูงขึ้น

  • ระดับ 1: ประกอบด้วยคำถามแบบเลือกตอบหลายตัวเลือก (multiple-choice) 180 ข้อ แบ่งเป็นสองเซสชัน เกี่ยวกับหัวข้อพื้นฐาน เช่น จริยธรรมการลงทุน การวิเคราะห์ทางการเงิน เศรษฐศาสตร์ และการลงทุนแบบดั้งเดิมและทางเลือก คะแนนผ่านต้องได้อย่างน้อย 70%

  • ระดับ 2: มุ่งเน้นการวิเคราะห์เชิงลึก ประกอบด้วย vignettes หรือกรณีศึกษา พร้อมคำถามเลือกตอบ 88 คำถาม เน้นการประเมินหลักทรัพย์ การประเมินมูลค่า และการจัดการพอร์ตโฟลิโอ คะแนนผ่านประมาณ 45-50%

  • ระดับ 3: ประกอบด้วยคำถามแบบเรียงความ (constructed response) และเลือกตอบ ครอบคลุมการวางแผนรวม การสื่อสารผลการวิเคราะห์ และจริยธรรม โดยต้องใช้การใช้เหตุผลขั้นสูงและการตัดสินใจเชิงกลยุทธ์ คะแนนผ่านต่ำที่สุดที่ประมาณ 40%

โมเดล o1-preview และ o1-mini จาก OpenAI ซึ่งเป็นโมเดล reasoning แห่งใหม่ที่ใช้เทคนิค chain-of-thought (CoT) ภายในตัว สามารถทำคะแนนผ่านทุกระดับ โดย o1-preview ได้คะแนน 66% ในระดับ 1 (ผ่านขั้นต่ำ 70% แต่ปรับน้ำหนักบางส่วน), 72% ในระดับ 2 และผ่านระดับ 3 ด้วยคะแนนสูง ในขณะที่ o1-mini ทำได้ใกล้เคียงกัน

เช่นเดียวกัน Claude 3.5 Sonnet จาก Anthropic ซึ่งอัปเกรดจาก Claude 3 Opus ก็ทำคะแนนผ่านทั้งสามระดับ โดยใช้กระบวนการ agentic workflow ที่ช่วยให้โมเดลสามารถวางแผน คิดทบทวน และแก้ไขคำตอบได้อย่างเป็นระบบ ผู้ทดสอบใช้เครื่องมือเสริม เช่น ไฟล์ PDF ของข้อสอบจริงจาก CFA Institute และ prompt พิเศษเพื่อจำลองสภาพสอบจริง

กระบวนการทดสอบนี้ดำเนินการโดย Sagility Health ซึ่งเป็นบริษัทที่เชี่ยวชาญด้าน AI benchmarking พวกเขาใช้ข้อสอบ CFA Level 1 จากปี 2023-2024, Level 2 ปี 2023 และ Level 3 ปี 2022 โดยจำกัดเวลาให้สอดคล้องกับกฎสอบจริง เช่น 4 ชั่วโมง 24 นาทีสำหรับระดับ 1 โมเดลเหล่านี้ไม่ได้ใช้เครื่องมือภายนอก เช่น เคือเครื่องคิดเลขหรืออินเทอร์เน็ต แต่พึ่งพาความสามารถ reasoning ในตัว

ผลการทดสอบแสดงให้เห็นว่า o1-preview ทำคะแนนสูงสุดในระดับ 1 ที่ 66.33% o1-mini อยู่ที่ 62.33% และ Claude 3.5 Sonnet ที่ 59% ซึ่งต่ำกว่าค่าเฉลี่ยมนุษย์แต่ยังผ่านเกณฑ์ขั้นต่ำหลังปรับน้ำหนักบางหัวข้อ ในระดับ 2 o1-preview ได้ 72.68% Claude 3.5 Sonnet 69.12% และ o1-mini 66.84% ส่วนระดับ 3 ทั้งสามโมเดลผ่านโดย o1-preview โดดเด่นที่สุด

ความสำเร็จนี้เกิดจากความก้าวหน้าของเทคนิค reasoning เช่น test-time compute ที่ให้โมเดลใช้เวลาคิดนานขึ้นเพื่อสร้าง chain-of-thought ที่ซับซ้อน ต่างจากโมเดล LLM ทั่วไปที่มักล้มเหลวในระดับ 2 และ 3 เนื่องจากขาดการวิเคราะห์เชิงลึก

ตัวอย่างเช่น ในระดับ 3 ซึ่งต้องเขียนเรียงความ โมเดลเหล่านี้สามารถสร้างคำตอบที่ชัดเจน มีโครงสร้าง และอ้างอิงกรณีศึกษาได้ถูกต้อง แสดงถึงความสามารถในการใช้เหตุผลขั้นสูง การตีความข้อมูล และการตัดสินใจเชิงการเงิน

อย่างไรก็ตาม ผู้ทดสอบยอมรับว่ายังมีข้อจำกัด เช่น โมเดลอาจคำนวณผิดพลาดในบางส่วนที่มนุษย์ใช้เครื่องมือช่วย และคะแนนบางระดับใกล้เคียงขอบเขตผ่าน นอกจากนี้ การสอบ CFA ยังอัปเดตเนื้อหาอยู่เสมอ ดังนั้นผลนี้เป็นเพียง snapshot ในช่วงเวลาหนึ่ง

ความสำเร็จนี้มีนัยสำคัญต่ออุตสาหกรรมการเงิน AI reasoning models กำลังเข้าใกล้ระดับมนุษย์ในงานที่ต้องการความรู้เฉพาะทางและการใช้เหตุผลเชิงซับซ้อน ซึ่งอาจเปลี่ยนแปลงบทบาทของนักวิเคราะห์การเงินในอนาคต เช่น การช่วยร่างรายงาน วิเคราะห์พอร์ต หรือแม้แต่เตรียมสอบ CFA สำหรับมนุษย์

CFA Institute เองยังไม่แสดงท่าทีต่อผลนี้อย่างเป็นทางการ แต่ชุมชน AI มองว่านี่เป็นหลักฐานว่าปัญญาประดิษฐ์กำลังก้าวสู่ general intelligence ในด้านการเงิน โดยเฉพาะโมเดล o1 ที่ OpenAI เรียกว่า “reasoning model” แทน LLM ทั่วไป

ในที่สุด ความก้าวหน้านี้ยืนยันแนวโน้มที่โมเดล reasoning จะครองตลาด AI โดยเฉพาะงานที่ต้องการ precision และ depth เช่น การลงทุนและการบริหารความเสี่ยง ผู้ประกอบการธุรกิจควรติดตามพัฒนาการนี้อย่างใกล้ชิดเพื่อนำไปประยุกต์ใช้

(จำนวนคำประมาณ 728 คำ)

This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)