กูเกิล ดีพไมน์ด อัปเกรด Gemini API ด้วยการเชื่อมโยงเครื่องมือหลายตัวและการไหลเวียนบริบท

กูเกิล ดีพไมน์ด์ อัปเกรด Gemini API ด้วยการเชื่อมโยงเครื่องมือหลายตัวและการไหลเวียนบริบท

กูเกิล ดีพไมน์ด์ ได้ประกาศอัปเดต Gemini API ซึ่งเป็นการยกระดับความสามารถในการใช้งานเครื่องมือภายนอก (tools) โดยนำเสนอฟีเจอร์ใหม่สองประการหลัก ได้แก่ การเชื่อมโยงเครื่องมือหลายตัว (multi-tool chaining) และการไหลเวียนบริบท (context circulation) การอัปเดตนี้ช่วยให้โมเดล Gemini สามารถจัดการงานที่ซับซ้อนได้อย่างมีประสิทธิภาพมากขึ้น โดยเฉพาะอย่างยิ่งในการพัฒนาเอเจนต์ AI ที่ต้องการการโต้ตอบแบบหลายขั้นตอน

ในอดีต Gemini API รองรับการเรียกใช้เครื่องมือเพียงตัวเดียวต่อการตอบสนองหนึ่งครั้ง ซึ่งจำกัดความยืดหยุ่นในการจัดการกระบวนการที่ต้องอาศัยเครื่องมือหลายตัวติดต่อกัน ด้วยการอัปเดตใหม่นี้ โมเดลสามารถเรียกใช้เครื่องมือได้หลายตัวในคำตอบเดียว โดยเรียงลำดับการเรียกใช้แบบลำดับขั้นตอน (sequential) ทำให้สามารถสร้าง “เชน” ของการเรียกเครื่องมือที่เชื่อมโยงกันได้ เช่น เริ่มจากการค้นหาข้อมูล จากนั้นคำนวณ จากนั้นสรุปผล

ฟีเจอร์การเชื่อมโยงเครื่องมือหลายตัวทำงานโดยโมเดลจะสร้างรายการการเรียกเครื่องมือ (tool calls) หลายรายการใน JSON object เดียว โดยแต่ละรายการมีลำดับที่กำหนดชัดเจน ระบบจะดำเนินการเรียกเครื่องมือตามลำดับนั้น จากนั้นส่งผลลัพธ์ทั้งหมดกลับให้โมเดลเพื่อการประมวลผลต่อไป ตัวอย่างเช่น หากต้องการตรวจสอบสภาพอากาศในหลายเมือง โมเดลสามารถเรียกเครื่องมือ weather API สำหรับแต่ละเมืองในคราวเดียว จากนั้นใช้ผลลัพธ์ในการเปรียบเทียบและสรุป

นอกจากนี้ การไหลเวียนบริบริบทยังช่วยแก้ปัญหาการสูญเสียข้อมูลระหว่างการเรียกเครื่องมือ โดยปกติแล้ว ผลลัพธ์จากเครื่องมือจะถูกเพิ่มเข้าไปใน prompt เท่านั้น แต่ด้วยฟีเจอร์นี้ บริบททั้งหมดจาก prompt เดิมและผลลัพธ์ก่อนหน้าจะถูกส่งผ่านไปยังเครื่องมือแต่ละตัว ทำให้เครื่องมือสามารถเข้าถึงข้อมูลครบถ้วน เช่น หากเครื่องมือหนึ่งต้องการข้อมูลจากขั้นตอนก่อนหน้า ระบบจะส่งบริบทเต็มรูปแบบไปให้โดยอัตโนมัติ

การอัปเดตนี้มุ่งเน้นไปที่ Gemini 1.5 Pro และ Gemini 1.5 Flash ซึ่งสามารถใช้งานได้ผ่าน Vertex AI และ Google AI Studio โดยนักพัฒนาสามารถเปิดใช้งานฟีเจอร์เหล่านี้ได้ทันที โดยไม่ต้องปรับเปลี่ยนโค้ดมากนัก ตัวอย่างโค้ดใน Python แสดงให้เห็นถึงการกำหนด tools หลายตัวและการจัดการ tool calls ที่ซับซ้อนขึ้น

ด้านความปลอดภัย กูเกิลได้รวมระบบป้องกันการใช้งานที่ไม่เหมาะสม โดยเฉพาะในกรณี multi-tool chaining ซึ่งอาจเพิ่มความเสี่ยงจากการเรียกเครื่องมือจำนวนมาก ระบบจะตรวจสอบและจำกัดการเรียกใช้ตามนโยบาย เช่น จำกัดจำนวน tool calls ต่อรอบ และบล็อกเนื้อหาที่ละเมิดนโยบาย

ประโยชน์หลักของการอัปเดตนี้คือการเพิ่มประสิทธิภาพในการสร้างเอเจนต์ AI ที่สามารถจัดการงานจริงได้ดีขึ้น เช่น การวิเคราะห์ข้อมูล การวางแผน หรือการโต้ตอบกับระบบภายนอกหลายตัว นักพัฒนาสามารถทดสอบฟีเจอร์เหล่านี้ได้ใน Google AI Studio ซึ่งรองรับการทดลองแบบโต้ตอบ และ Vertex AI สำหรับการใช้งานในระดับโปรดักชัน

ตัวอย่างการใช้งานจริง เช่น การสร้างเอเจนต์ที่ตรวจสอบราคาหุ้นหลายตัว จากนั้นวิเคราะห์แนวโน้ม และส่งรายงานสรุป โดยโมเดลจะเรียก API หุ้นหลายตัวในคราวเดียว จากนั้นใช้เครื่องมือคำนวณสถิติเพื่อประมวลผล การไหลเวียนบริบทช่วยให้เครื่องมือคำนวณเข้าถึงข้อมูลราคาทั้งหมดโดยไม่ต้องส่งซ้ำ

กูเกิลระบุว่าฟีเจอร์เหล่านี้จะช่วยลด latency และเพิ่มความแม่นยำในการทำงาน โดยเฉพาะในงานที่ต้องการการประสานงานระหว่างเครื่องมือ นอกจากนี้ ยังรองรับการใช้งานในโหมด parallel tool calls ในบางกรณี เพื่อเร่งความเร็ว

นักพัฒนาที่สนใจสามารถเข้าถึงเอกสารประกอบการใช้งานที่ https://ai.google.dev/gemini-api/docs/function-calling#multi-turn-function-calling ได้ทันที โดยมีตัวอย่างโค้ดครบถ้วนสำหรับภาษาต่างๆ เช่น Python, JavaScript และ Go

การอัปเดต Gemini API ครั้งนี้ถือเป็นก้าวสำคัญในการทำให้โมเดลภาษาขนาดใหญ่สามารถทำงานแบบ agentic ได้ใกล้เคียงกับมนุษย์มากขึ้น โดยไม่ต้องพึ่งพาเฟรมเวิร์กภายนอก ส่งผลให้การพัฒนาแอปพลิเคชัน AI ง่ายและมีประสิทธิภาพยิ่งขึ้นสำหรับธุรกิจและนักพัฒนาทั่วโลก

(จำนวนคำประมาณ 728 คำ)

This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)