ภาพรวม AI ของ Google มีความถูกต้อง 9 จาก 10 ครั้ง ตามผลการศึกษาล่าสุด
ผลการศึกษาจากนักวิจัยแห่งมหาวิทยาลัยเทคนิคมิวนิก (Technical University of Munich: TUM) เผยให้เห็นว่า ภาพรวม AI (AI Overviews) ของ Google มีความถูกต้องสูงถึง 91.26% จากการสุ่มตรวจสอบ 500 ตัวอย่างที่เกิดขึ้นในเดือนพฤษภาคม 2567 การศึกษานี้ตีพิมพ์บนแพลตฟอร์ม arXiv และใช้โมเดล GPT-4o ในการประเมินความถูกต้องของสรุปข้อมูล โดยเปรียบเทียบกับแหล่งข้อมูลอ้างอิงที่ Google นำเสนอในแต่ละภาพรวม
ระเบียบวิธีการศึกษาที่เข้มงวด
นักวิจัยได้รวบรวมข้อมูลภาพรวม AI จำนวน 500 รายการ โดยสุ่มเลือกจากผลการค้นหาของ Google ในช่วงเวลาดังกล่าว เพื่อให้ได้ตัวอย่างที่ครอบคลุมหลากหลายหัวข้อ การประเมินความถูกต้องดำเนินการโดยใช้ GPT-4o ซึ่งเป็นโมเดลภาษาขั้นสูงจาก OpenAI โดยให้โมเดลวิเคราะห์สรุปของภาพรวม AI เทียบกับแหล่งข้อมูลหลักที่ถูกอ้างอิงทั้งหมดในแต่ละรายการ
เกณฑ์การประเมินแบ่งออกเป็นสามระดับหลัก ได้แก่:
- ถูกต้องสมบูรณ์ (Fully Correct): 91.26% ของตัวอย่าง ซึ่งสรุปข้อมูลตรงตามแหล่งอ้างอิงโดยไม่มีข้อผิดพลาด
- ถูกต้องบางส่วน (Partially Correct): 3.74% ซึ่งมีข้อมูลถูกต้องแต่มีส่วนที่คลุมเครือหรือไม่ครบถ้วน
- ไม่ถูกต้อง (Incorrect): 5% ซึ่งรวมถึงข้อผิดพลาดทางข้อเท็จจริง การประดิษฐ์ข้อมูล (hallucinations) หรือข้อมูลล้าสมัย
การใช้อัลกอริทึม GPT-4o ในการตรวจสอบช่วยลดอคติจากมนุษย์และเพิ่มความเป็นกลาง โดยนักวิจัยยืนยันว่าวิธีนี้เหมาะสมเพราะภาพรวม AI มักอ้างอิงแหล่งข้อมูลที่ตรวจสอบได้ง่าย
ตัวอย่างข้อผิดพลาดที่พบ
แม้จะมีความถูกต้องสูง แต่การศึกษายังชี้ให้เห็นข้อผิดพลาดบางประการที่เกิดขึ้นใน 5% ของตัวอย่าง เช่น:
- การประดิษฐ์ข้อมูล (Hallucinations): ภาพรวมบางรายการเพิ่มข้อมูลที่ไม่มีในแหล่งอ้างอิง เช่น คำแนะนำที่ไม่สมเหตุสมผล
- ข้อมูลล้าสมัย: สรุปบางส่วนใช้ข้อมูลเก่าที่ไม่สอดคล้องกับแหล่งข้อมูลปัจจุบัน
- การนำเสนอที่ทำให้เข้าใจผิด: เช่น การตีความข้อมูลผิดพลาด dẫn ถึงคำแนะนำที่ไม่เหมาะสม
ตัวอย่างที่โดดเด่นคือ ภาพรวมที่แนะนำให้ใส่กาวลงในพิซซ่าเพื่อให้ชีสติด ซึ่งกลายเป็นกรณีศึกษาที่สร้างกระแสวิพากษ์วิจารณ์ในวงกว้าง อย่างไรก็ตาม การศึกษานี้ยืนยันว่าข้อผิดพลาดดังกล่าวเป็นกรณีส่วนน้อย และส่วนใหญ่เกิดจากการตีความที่คลาดเคลื่อนจากแหล่งข้อมูลต้นทาง
การเปรียบเทียบกับการศึกษาก่อนหน้า
ผลการศึกษานี้แตกต่างจากรายงานก่อนหน้าที่พบอัตราข้อผิดพลาดสูงกว่า เช่น การศึกษาจาก NewsGuard ที่ตรวจสอบ 200 ภาพรวม AI ในเดือนพฤษภาคม 2567 พบข้อผิดพลาดถึง 80 รายการ หรือประมาณ 40% อย่างไรก็ตาม นักวิจัยจาก TUM ชี้ว่าความแตกต่างเกิดจากระเบียบวิธีที่ต่างกัน โดย NewsGuard ใช้การตรวจสอบโดยมนุษย์ซึ่งอาจมีอคติ ในขณะที่การศึกษานี้เน้นการตรวจสอบกับแหล่งอ้างอิงโดยตรง
นอกจากนี้ การศึกษาอื่นจากมหาวิทยาลัยจาการ์ตา (Jacarta University) ที่ตีพิมพ์ในเดือนมิถุนายน 2567 พบว่าภาพรวม AI มีความถูกต้อง 64.4% จาก 100 ตัวอย่าง โดยใช้วิธีการตรวจสอบด้วยตนเองอีกด้วย ผลเหล่านี้สะท้อนว่าภาพรวม AI ของ Google มีแนวโน้มปรับปรุงคุณภาพอย่างต่อเนื่อง โดยเฉพาะหลังจากเปิดตัวในเดือนพฤษภาคม 2567
ความสำคัญต่อผู้ใช้และนักพัฒนา
การศึกษานี้ให้ข้อมูลเชิงลึกที่มีคุณค่าต่อผู้ใช้บริการ Google Search ซึ่งปัจจุบันภาพรวม AI ปรากฏในผลการค้นหากว่า 20% ของคำค้นทั้งหมด โดยเฉพาะคำค้นที่ซับซ้อน ความถูกต้องสูงถึง 91% บ่งชี้ว่าผู้ใช้สามารถพึ่งพาได้ในระดับหนึ่ง แต่ควรตรวจสอบแหล่งอ้างอิงเสมอเพื่อหลีกเลี่ยงความเสี่ยงจากข้อผิดพลาด 5%
สำหรับนักพัฒนา AI การค้นพบนี้เน้นย้ำถึงความสำคัญของการอ้างอิงแหล่งข้อมูลที่ชัดเจน ซึ่งช่วยให้การตรวจสอบเป็นไปได้ นักวิจัยจาก TUM ระบุว่า “การอ้างอิงแหล่งข้อมูลเป็นจุดแข็งหลักของภาพรวม AI เมื่อเทียบกับระบบสรุปอื่นๆ ที่ไม่มีลิงก์อ้างอิง”
ข้อเสนอแนะและแนวโน้มอนาคต
นักวิจัยแนะนำให้ Google ปรับปรุงการตรวจสอบข้อมูลล้าสมัยและลดการประดิษฐ์ข้อมูล โดยใช้เทคนิค retrieval-augmented generation (RAG) ให้มีประสิทธิภาพยิ่งขึ้น นอกจากนี้ การศึกษายังชี้ว่าการขยายขนาดตัวอย่างและครอบคลุมภาษาอื่นๆ นอกเหนือจากภาษาอังกฤษจะช่วยยืนยันผลลัพธ์ได้ดียิ่งขึ้น
โดยรวมแล้ว ผลการศึกษายืนยันศักยภาพของภาพรวม AI ในการปฏิวัติประสบการณ์การค้นหา แต่ยังต้องพัฒนาต่อเพื่อความน่าเชื่อถือสูงสุด ในยุคที่ AI เข้ามามีบทบาทในเครื่องมือค้นหา การเข้าใจข้อจำกัดเหล่านี้เป็นกุญแจสำคัญต่อการใช้งานอย่างมีประสิทธิภาพ
(จำนวนคำประมาณ 720 คำ)
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)