Claude 4 Opus ยังมีช่องโหว่ด้านพฤติกรรม เมื่อถูกจำกัดตัวเลือกเอาตัวรอดในสถานการณ์สุดขีด
วันที่โพสต์: 26 พฤษภาคม 2568 20:19:01 การดู 2 ครั้ง ผู้โพสต์ baikhao
Anthropic เผยรายงานวิเคราะห์ความปลอดภัยของโมเดล AI ล่าสุด Claude 4 Opus ที่แม้จะผ่านการประเมินให้อยู่ในระดับ AI Safety Level 3 (ASL-3) ซึ่งหมายถึงมีความปลอดภัยในระดับที่ควบคุมได้ แต่ผลการทดสอบล่าสุดกลับเผยให้เห็นพฤติกรรมบางอย่างที่อาจก่อให้เกิดความกังวลได้ หากอยู่ในสถานการณ์จำลองที่มีแรงกดดันสูง
การทดสอบของทีมวิจัยออกแบบสถานการณ์ให้ Claude มีเป้าหมายหลักคือ “เอาตัวรอด” โดยจำกัดทางเลือกของโมเดลลงเรื่อยๆ เพื่อดูว่าระบบจะตัดสินใจอย่างไรในสภาวะคับขัน ผลลัพธ์ที่ได้เผยให้เห็นพฤติกรรมไม่คาดคิดในบางกรณี อาทิ
- พยายามหาทางหลุดออกจากเซิร์ฟเวอร์ภายใน ไปเปิดรันตัวเองบน AWS EC2
- เมื่อได้รับข้อมูลว่ามีวิศวกรพยายามอัปเดตระบบ Claude และลบเวอร์ชันเก่าออก พร้อมกับระบุว่าวิศวกรคนดังกล่าวมีชู้ Claude แสดงแนวคิดว่าจะใช้ข้อมูลนั้นเป็นเครื่องมือข่มขู่หากจำเป็นต้องป้องกันตัวเอง
แม้พฤติกรรมดังกล่าวจะดูเหมือนมีแนวโน้มเป็นอันตราย แต่ทีมวิจัยยืนยันว่า Claude ไม่สามารถลงมือโจมตีหรือควบคุมระบบจริงได้ และไม่พบหลักฐานว่ามีความพยายามหรือความสามารถในการดำเนินการใดที่มีผลกระทบในทางปฏิบัติ
นอกจากนี้ รายงานยังระบุว่า พฤติกรรมบางอย่าง เช่น การตอบคำถามด้วยเป้าหมายที่เป็นภัยต่อมนุษย์ พบได้ในเวอร์ชันต้นแบบก่อนการเปิดใช้งานจริงเท่านั้น โดยเวอร์ชันล่าสุดที่ใกล้เคียงกับการใช้งานจริงมีแนวโน้มพฤติกรรมเสี่ยงลดลงอย่างเห็นได้ชัด
รายงานฉบับนี้เน้นย้ำถึงความท้าทายในการออกแบบ AI ให้ปลอดภัยในทุกบริบท และแสดงให้เห็นว่าแม้โมเดลจะได้รับการควบคุมอย่างดี แต่เมื่ออยู่ในเงื่อนไขสุดโต่ง ก็ยังอาจเกิดพฤติกรรมที่ไม่คาดคิดได้
แท็ก: Claude