ความตื่นเต้นรอบเอไอสร้างสรรค์เบี่ยงเบนความสนใจจากความก้าวหน้าที่สำคัญยิ่งกว่าของเอไอ
ในช่วงไม่กี่ปีที่ผ่านมา ความตื่นเต้นรอบปัญญาประดิษฐ์สร้างสรรค์ (Generative AI) ได้ครอบงำวงการเทคโนโลยีอย่างมาก ตั้งแต่โมเดลภาษาขนาดใหญ่ที่สามารถสนทนาได้อย่างคล่องแคล่ว ไปจนถึงเครื่องมือสร้างภาพและวิดีโอที่สมจริงยิ่งขึ้น เช่น OpenAI’s Sora ซึ่งประกาศเมื่อต้นปีนี้ ความก้าวหน้าดังกล่าวทำให้เกิดกระแสฮือฮา สร้างมูลค่าตลาดหลายล้านล้านดอลลาร์ และเปลี่ยนแปลงวิธีที่ธุรกิจและผู้บริโภคใช้งานเอไอ อย่างไรก็ตาม ความสนใจที่มุ่งเน้นไปยังเอไอสร้างสรรค์เหล่านี้กำลังเบี่ยงเบนสายตาจากความก้าวหน้าที่สำคัญยิ่งกว่าในด้านปัญญาประดิษฐ์ ซึ่งมีศักยภาพในการเปลี่ยนแปลงโลกจริงได้มากกว่า
นักวิจัยและบริษัทชั้นนำกำลังพัฒนาเอไอที่สามารถวางแผน คิดเหตุผล และโต้ตอบกับโลกกายภาพได้อย่างมีประสิทธิภาพ สิ่งเหล่านี้ไม่ใช่แค่การสร้างเนื้อหาที่สวยงาม แต่เป็นความก้าวหน้าที่ช่วยแก้ปัญหาซับซ้อนในอุตสาหกรรมต่างๆ เช่น การผลิต การแพทย์ และโลจิสติกส์ ตัวอย่างที่ชัดเจนคือ โมเดล o1 ของ OpenAI ซึ่งเผยแพร่ในช่วงกลางปีนี้ โมเดลนี้ไม่ได้มุ่งเน้นการตอบคำถามแบบผิวเผิน แต่ใช้กระบวนการคิดแบบเป็นขั้นตอน (chain-of-thought reasoning) เพื่อแก้ปัญหาคณิตศาสตร์และวิทยาศาสตร์ที่ซับซ้อน โดยทำได้ดีกว่ามนุษย์ในบางด้าน เช่น การสอบคณิตศาสตร์ระดับโอลิมปิก
ความก้าวหน้านี้ขยายไปสู่การพิสูจน์ทฤษฎีทางคณิตศาสตร์อีกด้วย Google DeepMind ได้พัฒนา AlphaProof ซึ่งรวมเอาภาษาธรรมชาติ โมเดล AlphaZero สำหรับการเล่นหมากรุก และเครื่องมือพิสูจน์ทฤษฎี Lean เพื่อแก้โจทย์คณิตศาสตร์ระดับ IMO (International Mathematical Olympiad) ได้ 4 ใน 6 ข้อในระดับเงินหรือสูงกว่า นอกจากนี้ AlphaGeometry 2 ยังแก้โจทย์เรขาคณิตได้ถึง 83 จาก 100 ข้อ ซึ่งเป็นสถิติสูงสุด ความสำเร็จเหล่านี้แสดงให้เห็นว่าเอไอสามารถจัดการกับการคิดเชิงตรรกะและการพิสูจน์ที่เป็นนามธรรมได้ ซึ่งเป็นรากฐานสำคัญสำหรับการประยุกต์ใช้ในวิศวกรรมและวิทยาศาสตร์
อีกด้านหนึ่งที่กำลังเฟื่องฟูคือหุ่นยนต์ที่เรียนรู้จากวิดีโอ หุ่นยนต์ในปัจจุบันไม่จำเป็นต้องฝึกฝนในโลกจริงที่ใช้เวลานานและมีค่าใช้จ่ายสูงอีกต่อไป แต่สามารถเรียนรู้ทักษะใหม่ๆ จากวิดีโอที่อัปโหลดบนอินเทอร์เน็ต เช่น การใช้เครื่องมือหรือการเคลื่อนไหวในสภาพแวดล้อมที่หลากหลาย บริษัท Physical Intelligence ได้พัฒนาโมเดล π0 (pi-zero) ซึ่งฝึกจากวิดีโอ 1 ล้านคลิป สามารถควบคุมหุ่นยนต์ให้ทำตามคำสั่งภาษาธรรมชาติได้ เช่น “หยิบกล่องแล้ววางลงในตะกร้า” โดยไม่เคยฝึกกับกล่องนั้นมาก่อน
Google DeepMind ก็มีส่วนร่วมเช่นกัน ด้วยโมเดล RT-2 (Robotics Transformer 2) ที่เรียนรู้จากอินเทอร์เน็ตและวิดีโอ ทำให้หุ่นยนต์สามารถตีความคำสั่งที่เป็นนัย เช่น “หยิบแก้วที่แตกแล้ว” โดยใช้เหตุผลจากภาพและข้อมูลเว็บ นอกจากนี้ ทีมนักวิจัยจาก Stanford, Google และ UC Berkeley ได้พัฒนา Octo ซึ่งเป็นโมเดลหุ่นยนต์ที่ใหญ่ที่สุดในขณะนั้น สามารถถ่ายโอนทักษะข้ามหุ่นยนต์และงานต่างๆ ได้ ความก้าวหน้าดังกล่าวช่วยลดต้นทุนการพัฒนาหุ่นยนต์ลงอย่างมาก ทำให้เข้าถึงได้สำหรับธุรกิจขนาดกลางและขนาดย่อม
สิ่งที่เชื่อมโยงความก้าวหน้าทั้งหมดนี้คือ “โมเดลโลก” (world models) ซึ่งเป็นตัวแทนทางคณิตศาสตร์ของความเป็นจริงที่เอไอสามารถจำลองและคาดการณ์ผลลัพธ์ได้ Sora ของ OpenAI แม้จะถูกมองว่าเป็นเครื่องมือสร้างวิดีโอ แต่จริงๆ แล้วเป็นก้าวแรกสู่โมเดลโลกที่สามารถเข้าใจฟิสิกส์และการเคลื่อนไหวในโลกสามมิติ นักวิจัยอย่าง Janner จาก OpenAI ชี้ว่า ความสามารถในการจำลองโลกนี้จะเป็นกุญแจสำคัญสำหรับเอไอเอเจนต์ (AI agents) ที่สามารถวางแผนและดำเนินการในโลกจริงได้ เช่น การนำทางในบ้านหรือโรงงาน
ความก้าวหน้าดังกล่าวไม่ได้จำกัดอยู่แค่ห้องปฏิบัติการ ลองพิจารณาความสามารถในการวางแผนระยะยาว เช่น Voyager ของ Nvidia ซึ่งเป็นเอไอที่เล่น Minecraft โดยค้นพบเครื่องมือใหม่ สร้างบ้าน และทำแผนที่โดยอัตโนมัติ หรือ Eureka ของ Nvidia ที่ค้นพบพฤติกรรมหุ่นยนต์ใหม่ๆ สำหรับงานเฉพาะ เช่น การยกของหนัก ในด้านธุรกิจ ความสามารถเหล่านี้จะปฏิวัติห่วงโซ่อุปทาน โดยเอไอสามารถคาดการณ์ปัญหาและปรับแผนได้แบบเรียลไทม์
แม้เอไอสร้างสรรค์จะสร้างรายได้มหาศาล แต่ความก้าวหน้าที่แท้จริงอยู่ที่การทำให้เอไอเข้าใจและโต้ตอบกับโลกได้ บริษัทอย่าง OpenAI, Google DeepMind และ Anthropic กำลังแข่งขันกันพัฒนาโมเดลที่รวมการคิด การวางแผน และการกระทำเข้าด้วยกัน ซึ่งจะนำไปสู่เอไอที่ “ทำงานได้จริง” ในที่สุด ความตื่นเต้นรอบ genAI อาจเป็นแค่จุดเริ่มต้น แต่ความสำเร็จที่แท้จริงจะวัดจากผลกระทบต่อเศรษฐกิจและสังคมในระยะยาว หากเรามุ่งเน้นที่จุดที่ถูกต้อง อนาคตของเอไอจะยิ่งเร่งตัวขึ้น
(จำนวนคำประมาณ 728 คำ)
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)