Google อวดว่ามีโทเค็นถึง 1.3 ล้านล้านโทเค็นต่อเดือน แต่ตัวเลขนี้ส่วนใหญ่เป็นเพียงภาพหลอกตา

การวิเคราะห์ความโปร่งใสของตัวเลขปริมาณโทเค็น: มุมมองเชิงกลยุทธ์ของ Google

ในโลกของการพัฒนาปัญญาประดิษฐ์ (AI) ขนาดของชุดข้อมูลสำหรับการฝึกฝนโมเดลขนาดใหญ่ (LLMs) ถือเป็นตัวชี้วัดสำคัญที่มักถูกใช้เพื่อแสดงถึงความสามารถและผลกระทบของเทคโนโลยีนั้นๆ เมื่อเร็วๆ นี้ Google ได้เปิดเผยข้อมูลที่น่าประทับใจเกี่ยวกับปริมาณโทเค็นที่ประมวลผลต่อเดือน โดยอ้างว่ามีการประมวลผลสูงถึง 1.3 ควอดริลเลียนโทเค็น (1.3 million billion tokens) ต่อเดือน ตัวเลขนี้ได้ถูกนำเสนอในบริบทของการเปิดตัว Gemini 1.5 Pro ซึ่งเป็นโมเดลที่โดดเด่นด้วยขนาดของบริบท (context window) ที่ใหญ่ที่สุดในอุตสาหกรรมในปัจจุบัน

อย่างไรก็ตาม ในฐานะนักเขียนด้านเทคนิคอาวุโสและผู้สังเกตการณ์ในอุตสาหกรรม การวิเคราะห์เชิงลึกเกี่ยวกับตัวเลขดังกล่าวชี้ให้เห็นว่า ตัวเลขปริมาณโทเค็นนี้อาจเป็นการนำเสนอที่เกินจริง (Window Dressing) และไม่ได้สะท้อนถึงการใช้งานที่แท้จริงของการฝึกฝนโมเดล AI เพียงอย่างเดียว

การตีความปริมาณโทเค็นที่แท้จริง

ตามการวิเคราะห์ของ Google ตัวเลข 1.3 ควอดริลเลียนโทเค็นต่อเดือนนั้น ครอบคลุมการประมวลผลข้อมูลในส่วนต่างๆ ของระบบนิเวศการประมวลผลของ Google ซึ่งรวมถึง:

  1. การฝึกฝนโมเดล (Model Training): นี่คือการใช้งานหลักที่ผู้เชี่ยวชาญด้าน AI มักจะนึกถึง ซึ่งเป็นการใช้ชุดข้อมูลขนาดใหญ่เพื่อสร้างและปรับปรุงโมเดล LLMs

  2. การนำไปใช้งาน (Inference): ซึ่งหมายถึงการประมวลผลโทเค็นในการใช้งานจริงผ่านบริการต่างๆ ของ Google เช่น การตอบคำถามผ่าน Bard (ปัจจุบันคือ Gemini), การสรุปเนื้อหา, หรือการช่วยเหลือในการเขียนโค้ด

  3. บริการพื้นฐานที่ใช้ LLM (LLM-Powered Services): การคิดเลขนี้ยังรวมถึงการประมวลผลที่เกิดขึ้นในผลิตภัณฑ์ของ Google จำนวนมาก เช่น การปรับปรุงการค้นหา (Search), การทำงานร่วมกัน (Workspace), และการดำเนินงานของอุปกรณ์ Android

  4. การดำเนินงานภายใน (Internal Operations): Google ยังนับรวมการใช้งานขององค์กรเองในการพัฒนาเครื่องมือภายในและการทดสอบระบบ

การเปรียบเทียบเชิงกลยุทธ์กับคู่แข่ง

จากข้อมูลที่ตีพิมพ์ Google ชี้ให้เห็นว่ามีการใช้พลังงานการประมวลผลประมาณ 11 ล้าน TFLOPS-Days ต่อสัปดาห์ ซึ่งโดยรวมแล้ว เทียบเท่ากับการประมวลผลข้อมูลในอัตรา 1.3 ควอดริลเลียนโทเค็นต่อเดือน การเปรียบเทียบตัวเลขนี้กับคู่แข่งหลักอย่าง OpenAI และ Microsoft สามารถทำได้ยาก เนื่องจากทั้งสององค์กรไม่ได้เปิดเผยข้อมูลปริมาณโทเค็นของตนอย่างชัดเจน อย่างไรก็ตาม เมื่อพิจารณาจากมุมมองของพลังงานการประมวลผล (Computational Power) และค่าใช้จ่ายในการดำเนินงาน (Operational Expenditure – OpEx):

  • ข้อถกเถียงเรื่องความน่าเชื่อถือของตัวเลข: แม้ว่า Google จะเป็นองค์กรเดียวที่เปิดเผยตัวเลขโทเค็นขนาดมหึมาเช่นนี้ แต่ความชัดเจนของคำจำกัดความ “โทเค็น” ที่ถูกนับยังคงเป็นประเด็น ตั้งแต่การฝึกฝนหลักไปจนถึงการเรียกใช้ API เล็กๆ น้อยๆ

  • บริบทของการแข่งขัน: การเปิดเผยตัวเลขนี้ถือเป็นกลยุทธ์ทางการตลาดและการสื่อสารเพื่อแสดงให้เห็นถึงความได้เปรียบด้านขนาด (Scale Advantage) และการลงทุนที่จริงจังในด้าน AI ซึ่งเป็นสัญญาณที่ส่งไปยังคู่แข่งและนักลงทุน

บทสรุปเชิงวิเคราะห์

ในมุมมองทางธุรกิจ (Business Perspective) ตัวเลข 1.3 ควอดริลเลียนโทเค็นควรถูกพิจารณาในฐานะตัวชี้วัดประสิทธิภาพรวม (Total Throughput Indicator) ของระบบประมวลผล AI ของ Google ทั้งหมด มากกว่าจะเป็นตัวชี้วัดความสามารถในการฝึกฝนโมเดลระดับสูงแต่เพียงอย่างเดียว การขยายขอบเขตการนับโทเค็นไปครอบคลุมการประมวลผลทั้งหมดของการอนุมาน (Inference) และการใช้งานบริการต่างๆ ช่วยให้ Google สามารถนำเสนอตัวเลขที่ส่งผลกระทบและน่าสนใจต่อสาธารณะชนและตลาดได้

การนำเสนอข้อมูลในลักษณะนี้เป็นไปตามแนวโน้มในอุตสาหกรรมเทคโนโลยีที่องค์กรขนาดใหญ่มักจะใช้ตัวเลขที่น่าตกตะลึงเพื่อเน้นย้ำถึงความเป็นผู้นำทางเทคโนโลยีและความสามารถในการจัดการข้อมูลในระดับที่ไม่เคยมีมาก่อน อย่างไรก็ดี จากมุมมองของนักวิทยาศาสตร์ข้อมูลและนักพัฒนา AI ตัวเลขที่เกี่ยวข้องกับการฝึกฝนโมเดลหลัก (Core Training Data) จะมีความสำคัญมากกว่าในการประเมินความก้าวหน้าทางเทคนิคที่แท้จริง

This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)