กูเกิลรวบรวมข้อมูลฝึกปัญญาประดิษฐ์มากกว่า OpenAI สามเท่าผ่านการผูกขาดตลาดค้นหา
กูเกิลกำลังครองความได้เปรียบอย่างมหาศาลในการรวบรวมข้อมูลสำหรับฝึกโมเดลปัญญาประดิษฐ์ (AI) เมื่อเทียบกับคู่แข่งอย่าง OpenAI โดยอาศัยการผูกขาดตลาดเครื่องมือค้นหาอินเทอร์เน็ต ซึ่งช่วยให้บริษัทสามารถเข้าถึงข้อมูลจากผู้ใช้ในปริมาณที่มากกว่าอย่างมีนัยสำคัญ นักวิเคราะห์จาก Epoch AI ประเมินว่ากูเกิลสามารถรวบรวมข้อมูลได้ประมาณ 69 พันล้านคำต่อวันจากกิจกรรมค้นหาของผู้ใช้ ในขณะที่ OpenAI ได้รับข้อมูลประมาณ 20 พันล้านคำต่อวันจากผู้ใช้ ChatGPT ซึ่งหมายความว่ากูเกิลมีข้อมูลมากกว่าถึงสามเท่า
การประเมินนี้มาจากการวิเคราะห์ข้อมูลสาธารณะและรายงานของบริษัทเอง Epoch AI ใช้ตัวเลขการใช้งาน ChatGPT จากรายงานของ OpenAI ที่ระบุว่ามีผู้ใช้รายวันประมาณ 300 ล้านคน โดยแต่ละการสนทนาเฉลี่ยมี 25-50 ข้อความ และแต่ละข้อความมีประมาณ 15 โทเค็น (ซึ่งใกล้เคียงกับคำ) ส่งผลให้คำนวณได้ข้อมูลรวมราว 18.3 พันล้านโทเค็นต่อวัน หรือเทียบเท่า 20 พันล้านคำ สำหรับกูเกิล การค้นหาบน Google Search มีจำนวนประมาณ 8.5 พันล้านครั้งต่อวัน โดยคำค้นหาเฉลี่ย 4 คำ และผลลัพธ์ที่แสดง (เช่น สนิปเพ็ตหรือคำตอบ) เฉลี่ย 10 คำ รวมเป็น 119 พันล้านคำต่อวัน อย่างไรก็ตาม Epoch AI ปรับลดตัวเลขเหลือ 69 พันล้านคำ โดยพิจารณาว่ากูเกิลใช้เฉพาะข้อมูลคุณภาพสูงบางส่วน เช่น คำค้นหาที่ไม่ซ้ำกันและผลลัพธ์ที่เกี่ยวข้อง เพื่อหลีกเลี่ยงปัญหาการฝึกโมเดลจากข้อมูลซ้ำซาก
ความได้เปรียบนี้เกิดจากโครงสร้างตลาดที่กูเกิลครองส่วนแบ่งกว่า 90% ของตลาดค้นหาทั่วโลก ทำให้มีผู้ใช้หลายพันล้านคนป้อนข้อมูลผ่านการค้นหาทุกวัน ข้อมูลเหล่านี้ถูกนำไปใช้ฝึกโมเดล Gemini โดยกูเกิลยืนยันในบล็อกอย่างเป็นทางการว่าข้อมูลจาก Google Search ถูกรวบรวมแบบไม่ระบุชื่อบุคคล (anonymized) และใช้เฉพาะคำค้นหาและผลลัพธ์เพื่อปรับปรุงคุณภาพโมเดล นอกจากนี้ กูเกิลยังใช้ข้อมูลจากบริการอื่นๆ เช่น YouTube และ Android ซึ่งเสริมศักยภาพข้อมูลให้ยิ่งใหญ่ยิ่งขึ้น
ในทางตรงกันข้าม OpenAI พึ่งพาการใช้งาน ChatGPT เป็นหลัก ซึ่งแม้จะเติบโตอย่างรวดเร็ว แต่ยังคงจำกัดอยู่ที่ผู้ใช้โดยตรงประมาณ 300 ล้านรายต่อวัน OpenAI ต้องหาแหล่งข้อมูลอื่นๆ เช่น ข้อมูลจากพันธมิตร Microsoft หรือการขูดเว็บ (web scraping) ซึ่งมีข้อจำกัดทั้งด้านปริมาณและคุณภาพ นอกจากนี้ การฝึกโมเดล GPT-4o ของ OpenAI ใช้ข้อมูลขนาดใหญ่ถึง 12.8 ล้านล้านโทเค็น ซึ่งส่วนใหญ่มาจาก Common Crawl แต่ข้อมูลจากผู้ใช้จริงมีบทบาทสำคัญในการปรับแต่ง (fine-tuning) เพื่อให้โมเดลตอบสนองได้ดีขึ้น
นักวิเคราะห์ชี้ว่าการผูกขาดของกูเกิลไม่เพียงให้ข้อมูลจำนวนมาก แต่ยังครอบคลุมหลากหลายหัวข้อ เนื่องจากผู้ใช้ค้นหาทุกสิ่งตั้งแต่คำถามทั่วไปไปจนถึงปัญหาเฉพาะเจาะจง ทำให้ข้อมูลมีความสมดุลและมีคุณภาพสูง เหตุผลหนึ่งที่กูเกิลสามารถใช้ข้อมูลค้นหาได้คือ ผู้ใช้ยอมรับเงื่อนไขการใช้งานที่อนุญาตให้บริษัทนำข้อมูลไปปรับปรุงบริการ ซึ่งรวมถึง AI ด้วย อย่างไรก็ตาม มีข้อถกเถียงเรื่องความเป็นส่วนตัว เนื่องจากแม้จะ anonymized แล้ว ข้อมูลจำนวนมหาศาลยังเสี่ยงต่อการถูกนำไปใช้ในทางที่ไม่เหมาะสม
Epoch AI ยังเปรียบเทียบกับบริษัทอื่นๆ เช่น Microsoft ที่มี Bing ค้นหาเพียง 100 ล้านครั้งต่อวัน หรือน้อยกว่ากูเกิลถึง 85 เท่า แม้ Microsoft จะเป็นพันธมิตรหลักของ OpenAI แต่ก็ไม่สามารถแข่งขันด้านข้อมูลได้ Perplexity AI ซึ่งเน้นการค้นหาด้วย AI ก็มีผู้ใช้จำกัด ทำให้ข้อมูลน้อยกว่ามาก สถานการณ์นี้ตอกย้ำว่าบริษัทที่ไม่มีฐานผู้ใช้ขนาดใหญ่จะเสียเปรียบในการแข่งขัน AI
กูเกิลเองยอมรับความสำคัญของข้อมูลนี้ โดยในรายงานประจำปีระบุว่าโมเดล Gemini ถูกฝึกด้วยข้อมูลจาก Google Search เพื่อให้มีความรู้รอบด้านและอัปเดตทันเหตุการณ์ นอกจากนี้ กูเกิลยังพัฒนาเครื่องมืออย่าง Google AI Studio เพื่อให้ผู้พัฒนารายอื่นเข้าถึงโมเดลได้ แต่ข้อได้เปรียบหลักยังคงอยู่ที่ข้อมูลภายในบริษัท
สรุปแล้ว การผูกขาดตลาดค้นหาของกูเกิลกลายเป็นกำแพงที่ยากจะทะลุทะลวงสำหรับคู่แข่งอย่าง OpenAI ซึ่งอาจนำไปสู่ความเหลื่อมล้ำในวงการ AI หากไม่มีการกำกับดูแลจากหน่วยงานกำกับดูแล เช่น European Commission ที่กำลังสอบสวนกูเกิลเรื่องการใช้ข้อมูล ในอนาคต ผู้เล่นรายเล็กอาจต้องพึ่งพาการร่วมมือหรือนวัตกรรมใหม่เพื่อลดช่องว่างนี้
(จำนวนคำ: 728)
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)