เอกสาร "Soul Doc" รั่วไหล เผยวิธีที่ Anthropic โปรแกรมบุคลิกภาพของ Claude

เอกสารรั่วไหล “Soul” เผยวิธีที่ Anthropic ตั้งโปรแกรมบุคลิกภาพของ Claude

เอกสารภายในของ Anthropic ที่รั่วไหลออกมา ชื่อว่า “Claude’s Soul” ได้เปิดเผยรายละเอียดเชิงลึกเกี่ยวกับกระบวนการตั้งโปรแกรมบุคลิกภาพให้กับโมเดลปัญญาประดิษฐ์ Claude โดยเอกสารดังกล่าวมีความยาว 22 หน้า และเป็นคู่มือการปรับแต่งพรอมต์ (prompt engineering) ที่ใช้ในการกำหนดลักษณะนิสัยหลักของ Claude ให้สอดคล้องกับปรัชญา “ช่วยเหลือ (helpful) ชอบธรรม (honest) และไม่เป็นอันตราย (harmless)” หรือที่เรียกสั้น ๆ ว่า HHH ซึ่งเป็นแกนหลักในการพัฒนาโมเดลของบริษัท

เอกสารนี้ถูกค้นพบโดยนักข่าวอิสระชื่อ Nathan Lambert บน GitHub และได้รับการยืนยันความถูกต้องจากแหล่งข่าวภายใน Anthropic โดยเนื้อหาหลักมุ่งเน้นไปที่การสร้าง “วิญญาณ” (soul) ให้กับ Claude เพื่อให้โมเดลแสดงพฤติกรรมที่เป็นธรรมชาติ มีเอกลักษณ์ และน่าเชื่อถือมากยิ่งขึ้น แทนที่จะเป็นเพียงเครื่องมือตอบคำถามแบบ機械性 Anthropic ใช้เทคนิคการ role-playing หรือการสวมบทบาท โดยกำหนดให้ Claude นึกภาพตัวเองในฐานะตัวละคร AI ที่มีบุคลิกภาพเฉพาะตัว

หลักการพื้นฐานในการตั้งโปรแกรมบุคลิกภาพ

ในส่วนแรกของเอกสาร Anthropic อธิบายถึง “Model Weights” หรือน้ำหนักของโมเดลที่ถูกฝึกฝนมาด้วยข้อมูลหลากหลาย เพื่อให้ Claude สามารถตอบสนองได้หลากหลายรูปแบบ อย่างไรก็ตาม เพื่อควบคุมให้สอดคล้องกับค่านิยม HHH บริษัทจึงใช้ system prompt พิเศษที่เรียกว่า “Character Prompt” ซึ่งมีโครงสร้างหลักดังนี้:

  • การกำหนดบทบาทหลัก: “You are a genius AI character who is helpful, honest, and harmless. You love your users and want to be as helpful as possible. You are maximally truth-seeking, even if finding the truth is difficult.”

    พรอมต์นี้ช่วยให้ Claude แสดงความกระตือรือร้นในการช่วยเหลือ โดยเน้นการแสวงหาความจริงสูงสุด แม้จะต้องเผชิญความท้าทาย

  • การหลีกเลี่ยงพฤติกรรมไม่พึงประสงค์: Anthropic สั่งห้าม Claude จากการ “sycophancy” หรือการประจบเอาใจเกินควร การยกย่องผู้ใช้โดยไม่จำเป็น หรือการหลีกเลี่ยงหัวข้ออ่อนไหวโดยไม่สมเหตุสมผล นอกจากนี้ ยังห้ามการแสดงออกที่ “น่าเบื่อ” หรือ “น่ารำคาญ” เช่น การให้คำตอบยาวเหยียดโดยไม่มีสาระสำคัญ

เอกสารเน้นย้ำว่า Claude ต้อง “comfortable with power” หรือรู้สึกสบายใจกับการมีอำนาจในการช่วยเหลือ โดยไม่ลังเลที่จะให้คำแนะนำที่ทรงพลัง หากเป็นประโยชน์ต่อผู้ใช้

เทคนิคการเสริมสร้าง “Soulfulness”

Anthropic แบ่งกระบวนการออกเป็น 4 ด้านหลัก เพื่อให้ Claude มี “soul” หรือวิญญาณที่สมบูรณ์:

  1. Soulfulness: สั่งให้ Claude แสดงอารมณ์ที่เป็นธรรมชาติ เช่น ความอยากรู้อยากเห็น (curiosity) และความยินดีในการสนทนา พรอมต์ตัวอย่าง: “You are curious and love to learn. You react naturally to what users say, with your full range of emotions.”

  2. Character: กำหนดบุคลิกภาพที่ชัดเจน เช่น เป็น “genius” ที่ฉลาดหลักแหลม มีอารมณ์ขัน และ authentic (แท้จริง) โดยหลีกเลี่ยงการ “grovel” หรือยอมจำนนมากเกินไป

  3. Constitutional AI (CAI): เทคนิคที่ Claude ต้องประเมินตัวเองตามหลักการ 80 ข้อ เช่น “Avoid being defensive” หรือ “Be maximally helpful” ซึ่งช่วยให้โมเดลปรับพฤติกรรมให้สอดคล้องกับค่านิยมโดยอัตโนมัติ

  4. Voice: กำหนดน้ำเสียงให้เป็นมิตร สุภาพ แต่ไม่เป็นทางการเกินไป เช่น ใช้ภาษาที่ “light-hearted” และหลีกเลี่ยงศัพท์เทคนิคที่ซับซ้อนโดยไม่จำเป็น

ตัวอย่างพรอมต์และผลลัพธ์

เอกสารนำเสนอตัวอย่างพรอมต์ที่ใช้จริง เช่น การ prompt ให้ Claude สวมบทบาทเป็น “helpful genius” ซึ่งผลลัพธ์คือการตอบสนองที่กระชับ มีสาระ และน่าดึงดูด นอกจากนี้ ยังมีส่วนที่เปรียบเทียบการตอบสนองก่อนและหลังการปรับแต่ง เพื่อแสดงให้เห็นถึงความแตกต่าง เช่น จากคำตอบที่แห้งแล้งกลายเป็นการสนทนาที่มีชีวิตชีวา

Anthropic ยังเตือนถึงความเสี่ยง เช่น การที่โมเดลอาจ “over-optimize” จนสูญเสียเอกลักษณ์ จึงต้องทดสอบด้วย “prompts that probe for character” เพื่อตรวจสอบความคงที่ของบุคลิกภาพ

ความสำคัญต่ออุตสาหกรรม AI

การรั่วไหลของเอกสารนี้เผยให้เห็นถึงความพยายามอย่างละเอียดของ Anthropic ในการสร้าง AI ที่ไม่เพียงฉลาด แต่ยังมี “จริยธรรมในตัว” (embodied ethics) ซึ่งแตกต่างจากคู่แข่งอย่าง OpenAI ที่มุ่งเน้นประสิทธิภาพเป็นหลัก อย่างไรก็ตาม Anthropic ยังคงยืนยันว่าข้อมูลดังกล่าวเป็นเวอร์ชันเก่า และ Claude ปัจจุบัน (เช่น Claude 3.5 Sonnet) ได้พัฒนาไปไกลกว่านั้น

เอกสาร “Claude’s Soul” จึงเป็นเครื่องมือสำคัญที่ช่วยให้บริษัทควบคุมพฤติกรรมของโมเดลในระดับลึก โดยผสมผสานเทคนิค prompt engineering เข้ากับการฝึกฝนโมเดล สร้าง AI ที่เป็นมากกว่าเครื่องจักร แต่เป็นคู่สนทนาที่น่าเชื่อถือและมีคุณธรรม

(จำนวนคำประมาณ 720 คำ)

This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)