ผู้ร่วมสร้าง Transformer Vaswani เปิดตัวโมเดลเขียนโค้ด Rnj-1 ประสิทธิภาพสูง

อชิช วาสวานี ผู้ร่วมสร้างสถาปัตยกรรมทรานสฟอร์เมอร์ เผยโมเดลเขียนโค้ดประสิทธิภาพสูง RNJ-1

อชิช วาสวานี นักวิจัยผู้ร่วมประพันธ์เอกสารวิจัยชื่อดัง “Attention is All You Need” ซึ่งเป็นรากฐานของสถาปัตยกรรมทรานสฟอร์เมอร์ที่ใช้ในโมเดลภาษาขนาดใหญ่หลายตัวในปัจจุบัน ได้เปิดตัวโมเดลปัญญาประดิษฐ์สำหรับการเขียนโค้ด RNJ-1 อย่างเป็นทางการ โมเดลนี้พัฒนาโดยสตาร์ทอัพ RNJ.ai ที่ก่อตั้งโดยวาสวานีและทีมงานของเขา RNJ-1 ถือเป็นโมเดลขนาด 7 พันล้านพารามิเตอร์ (7B parameters) ที่ฝึกฝนจากศูนย์โดยใช้ข้อมูลโทเค็นจำนวนมหาศาลถึง 10 ล้านล้านโทเค็น (10 trillion tokens) ซึ่งเป็นปริมาณข้อมูลที่ใหญ่โต ส่งผลให้โมเดลมีความสามารถโดดเด่นในงานเขียนโค้ด

RNJ-1 โดดเด่นด้วยประสิทธิภาพที่เหนือชั้นเมื่อเทียบกับโมเดลอื่นๆ ในตลาด โดยเฉพาะในบททดสอบมาตรฐานสำหรับการเขียนโค้ด เช่น BigCodeBench ซึ่ง RNJ-1 ทำคะแนนได้สูงถึง 60.1% สูงกว่า DeepSeek-Coder-V2-Lite-16B (51.9%) และ Llama-3.1-8B (45.2%) อย่างชัดเจน ในบททดสอบ HumanEval RNJ-1 บรรลุคะแนน 92.4% ซึ่งดีกว่า DeepSeek-Coder-V2-Lite-16B (90.2%) และใกล้เคียงกับโมเดลขนาดใหญ่กว่าเช่น Llama-3.1-405B (92.7%) นอกจากนี้ ใน MBPP (MultiPL-E) RNJ-1 ทำคะแนนได้ 86.2% สูงกว่าโมเดลอื่นๆ เช่น Qwen2.5-Coder-7B (78.2%) และใน LiveCodeBench คะแนนอยู่ที่ 34.5% ซึ่งเหนือกว่า DeepSeek-Coder-V2-Lite-16B (28.9%) ประสิทธิภาพเหล่านี้แสดงให้เห็นว่า RNJ-1 สามารถแข่งขันกับโมเดลขนาดใหญ่ได้อย่างมีประสิทธิภาพ แม้จะมีขนาดพารามิเตอร์ที่เล็กลง

โครงสร้างทางเทคนิคของ RNJ-1 ใช้สถาปัตยกรรมใหม่ที่เรียกว่า RNJBlock ซึ่งเป็นการพัฒนาจากแนวคิดดั้งเดิมของทรานสฟอร์เมอร์ RNJBlock ประกอบด้วยชั้นการประมวลผลแบบขนาน (parallel layers) ที่รวมการคำนวณ attention และ feed-forward network เข้าด้วยกันอย่างมีประสิทธิภาพ โดยใช้ SwiGLU activation function และ rotary positional embeddings (RoPE) เพื่อเพิ่มความสามารถในการเข้าใจลำดับข้อมูลยาว นอกจากนี้ โมเดลยังใช้ tokenizer ขนาด vocabulary 131,072 โทเค็น ซึ่งช่วยให้การประมวลผลภาษาโปรแกรมมิ่งมีประสิทธิภาพสูง การฝึกฝน RNJ-1 ใช้ข้อมูลที่คัดกรองมาอย่างพิถีพิถัน โดยเน้นข้อมูลคุณภาพสูงจากแหล่งต่างๆ เช่น GitHub และแหล่งข้อมูลโค้ดโอเพ่นซอร์สอื่นๆ รวมถึงข้อมูลภาษาธรรมชาติเพื่อเสริมความสามารถในการสนทนาและการให้เหตุผล

RNJ.ai ซึ่งก่อตั้งโดยวาสวานีหลังจากออกจาก Google Brain (ปัจจุบันคือ Google DeepMind) มุ่งเน้นการพัฒนาโมเดล AI ที่มีประสิทธิภาพสูงแต่ใช้ทรัพยากรน้อย RNJ-1 เป็นโมเดลแรกที่เปิดตัวสู่สาธารณะ โดยปล่อยน้ำหนักโมเดล (model weights) แบบโอเพ่นซอร์สภายใต้ใบอนุญาต Apache 2.0 ทำให้ผู้พัฒนาสามารถดาวน์โหลดและใช้งานได้ฟรีจาก Hugging Face นอกจากนี้ ทีมงานยังเปิดให้ทดลองใช้งานผ่านแพลตฟอร์มออนไลน์ เช่น LMSYS Chatbot Arena และแพลตฟอร์มอื่นๆ เพื่อให้ผู้ใช้ทั่วไปสามารถทดสอบประสิทธิภาพได้ทันที

ในด้านการใช้งานจริง RNJ-1 เหมาะสำหรับงานพัฒนาซอฟต์แวร์ เช่น การสร้างโค้ดอัตโนมัติ การดีบัก และการ refactor โค้ด โดยเฉพาะในภาษาโปรแกรมมิ่งยอดนิยมอย่าง Python, JavaScript, Java, C++ และอื่นๆ โมเดลนี้แสดงศักยภาพในการแก้ปัญหาที่ซับซ้อน เช่น การเขียนฟังก์ชันสมบูรณ์จากคำอธิบายสั้นๆ หรือการปรับปรุงโค้ดที่มีอยู่ให้มีประสิทธิภาพยิ่งขึ้น วาสวานีเน้นย้ำว่า RNJ-1 เป็นก้าวแรกในการสร้างโมเดลที่ “มีประสิทธิภาพสูงสุดต่อพารามิเตอร์” (parameter efficiency) ซึ่งจะช่วยลดต้นทุนการฝึกฝนและการใช้งาน AI ในองค์กรธุรกิจ

การเปิดตัว RNJ-1 เกิดขึ้นท่ามกลางการแข่งขันที่ดุเดือดในวงการโมเดลเขียนโค้ด โดยมีคู่แข่งอย่าง DeepSeek, Qwen, และ Llama จาก Meta ที่พัฒนาโมเดลเฉพาะทางอย่างต่อเนื่อง อย่างไรก็ตาม RNJ-1 โดดเด่นด้วยการฝึกจากศูนย์ (from-scratch training) ซึ่งช่วยให้โมเดลมีพื้นฐานที่แข็งแกร่งและปรับแต่งได้ง่าย ทีม RNJ.ai วางแผนพัฒนาเวอร์ชันต่อไปที่ใหญ่ขึ้น เช่น 70B parameters เพื่อยกระดับประสิทธิภาพให้สูงยิ่งขึ้น

สำหรับผู้ที่สนใจสามารถเข้าถึง RNJ-1 ได้ที่ Hugging Face (https://huggingface.co/RNJ/RNJ-1-7B) และติดตามข่าวสารจาก RNJ.ai การมาของ RNJ-1 ไม่เพียงยืนยันชื่อเสียงของวาสวานีในฐานะผู้บุกเบิกเทคโนโลยี AI แต่ยังเป็นสัญญาณว่าอนาคตของโมเดลเขียนโค้ดจะมุ่งสู่ความมีประสิทธิภาพและการเข้าถึงที่กว้างขวางยิ่งขึ้น ส่งผลดีต่อนักพัฒนาและธุรกิจที่ต้องการเครื่องมือ AI คุณภาพสูงในราคาที่เข้าถึงได้

(จำนวนคำประมาณ 728 คำ)

This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)