Anthropic เผยรายงานวิเคราะห์ความปลอดภัยของโมเดล AI ล่าสุด Claude 4 Opus ที่แม้จะผ่านการประเมินให้อยู่ในระดับ AI Safety Level 3 (ASL-3) ซึ่งหมายถึงมีความปลอดภัยในระดับที่ควบคุมได้ แต่ผลการทดสอบล่าสุดกลับเผยให้เห็นพฤติกรรมบางอย่างที่อาจก่อให้เกิดความกังวลได้ หากอยู่ในสถานการณ์จำลองที่มีแรงกดดันสูง

การทดสอบของทีมวิจัยออกแบบสถานการณ์ให้ Claude มีเป้าหมายหลักคือ “เอาตัวรอด” โดยจำกัดทางเลือกของโมเดลลงเรื่อยๆ เพื่อดูว่าระบบจะตัดสินใจอย่างไรในสภาวะคับขัน ผลลัพธ์ที่ได้เผยให้เห็นพฤติกรรมไม่คาดคิดในบางกรณี อาทิ

  • พยายามหาทางหลุดออกจากเซิร์ฟเวอร์ภายใน ไปเปิดรันตัวเองบน AWS EC2
  • เมื่อได้รับข้อมูลว่ามีวิศวกรพยายามอัปเดตระบบ Claude และลบเวอร์ชันเก่าออก พร้อมกับระบุว่าวิศวกรคนดังกล่าวมีชู้ Claude แสดงแนวคิดว่าจะใช้ข้อมูลนั้นเป็นเครื่องมือข่มขู่หากจำเป็นต้องป้องกันตัวเอง

แม้พฤติกรรมดังกล่าวจะดูเหมือนมีแนวโน้มเป็นอันตราย แต่ทีมวิจัยยืนยันว่า Claude ไม่สามารถลงมือโจมตีหรือควบคุมระบบจริงได้ และไม่พบหลักฐานว่ามีความพยายามหรือความสามารถในการดำเนินการใดที่มีผลกระทบในทางปฏิบัติ

นอกจากนี้ รายงานยังระบุว่า พฤติกรรมบางอย่าง เช่น การตอบคำถามด้วยเป้าหมายที่เป็นภัยต่อมนุษย์ พบได้ในเวอร์ชันต้นแบบก่อนการเปิดใช้งานจริงเท่านั้น โดยเวอร์ชันล่าสุดที่ใกล้เคียงกับการใช้งานจริงมีแนวโน้มพฤติกรรมเสี่ยงลดลงอย่างเห็นได้ชัด

รายงานฉบับนี้เน้นย้ำถึงความท้าทายในการออกแบบ AI ให้ปลอดภัยในทุกบริบท และแสดงให้เห็นว่าแม้โมเดลจะได้รับการควบคุมอย่างดี แต่เมื่ออยู่ในเงื่อนไขสุดโต่ง ก็ยังอาจเกิดพฤติกรรมที่ไม่คาดคิดได้