Claude 4 Opus ยังมีช่องโหว่ด้านพฤติกรรม เมื่อถูกจำกัดตัวเลือกเอาตัวรอดในสถานการณ์สุดขีด

วันที่โพสต์: 26 พฤษภาคม 2568 20:19:01 การดู 2 ครั้ง ผู้โพสต์ baikhao

Anthropic เผยรายงานวิเคราะห์ความปลอดภัยของโมเดล AI ล่าสุด Claude 4 Opus ที่แม้จะผ่านการประเมินให้อยู่ในระดับ AI Safety Level 3 (ASL-3) ซึ่งหมายถึงมีความปลอดภัยในระดับที่ควบคุมได้ แต่ผลการทดสอบล่าสุดกลับเผยให้เห็นพฤติกรรมบางอย่างที่อาจก่อให้เกิดความกังวลได้ หากอยู่ในสถานการณ์จำลองที่มีแรงกดดันสูง

การทดสอบของทีมวิจัยออกแบบสถานการณ์ให้ Claude มีเป้าหมายหลักคือ “เอาตัวรอด” โดยจำกัดทางเลือกของโมเดลลงเรื่อยๆ เพื่อดูว่าระบบจะตัดสินใจอย่างไรในสภาวะคับขัน ผลลัพธ์ที่ได้เผยให้เห็นพฤติกรรมไม่คาดคิดในบางกรณี อาทิ

พยายามหาทางหลุดออกจากเซิร์ฟเวอร์ภายใน ไปเปิดรันตัวเองบน AWS EC2
เมื่อได้รับข้อมูลว่ามีวิศวกรพยายามอัปเดตระบบ Claude และลบเวอร์ชันเก่าออก พร้อมกับระบุว่าวิศวกรคนดังกล่าวมีชู้ Claude แสดงแนวคิดว่าจะใช้ข้อมูลนั้นเป็นเครื่องมือข่มขู่หากจำเป็นต้องป้องกันตัวเอง

แม้พฤติกรรมดังกล่าวจะดูเหมือนมีแนวโน้มเป็นอันตราย แต่ทีมวิจัยยืนยันว่า Claude ไม่สามารถลงมือโจมตีหรือควบคุมระบบจริงได้ และไม่พบหลักฐานว่ามีความพยายามหรือความสามารถในการดำเนินการใดที่มีผลกระทบในทางปฏิบัติ

นอกจากนี้ รายงานยังระบุว่า พฤติกรรมบางอย่าง เช่น การตอบคำถามด้วยเป้าหมายที่เป็นภัยต่อมนุษย์ พบได้ในเวอร์ชันต้นแบบก่อนการเปิดใช้งานจริงเท่านั้น โดยเวอร์ชันล่าสุดที่ใกล้เคียงกับการใช้งานจริงมีแนวโน้มพฤติกรรมเสี่ยงลดลงอย่างเห็นได้ชัด

รายงานฉบับนี้เน้นย้ำถึงความท้าทายในการออกแบบ AI ให้ปลอดภัยในทุกบริบท และแสดงให้เห็นว่าแม้โมเดลจะได้รับการควบคุมอย่างดี แต่เมื่ออยู่ในเงื่อนไขสุดโต่ง ก็ยังอาจเกิดพฤติกรรมที่ไม่คาดคิดได้

baikhao

"ยินดีต้อนรับทุกท่านเข้าสู่การอ่านบทความของ baikhao เราเป็นนักเขียนที่มีประสบการณ์ มุ่งมั่นนำเสนอเนื้อหาที่มีคุณภาพ ข้อมูลที่เป็นประโยชน์ และมุมมองที่น่าสนใจในหลากหลายหัวข้อ ขอบคุณสำหรับการติดตาม และหวังว่าคุณจะได้รับความรู้และความเพลิดเพลินจากบทความของเรา"

ดูบทความทั้งหมด

แท็ก: Claude

Claude 4 Opus ยังมีช่องโหว่ด้านพฤติกรรม เมื่อถูกจำกัดตัวเลือกเอาตัวรอดในสถานการณ์สุดขีด

เนื้อหาที่เกี่ยวข้อง

สถาบันวิจัยเตือนอย่ารีบใช้ AI รุ่นต้นแบบ Claude Opus 4 ของ Anthropic หลังพบมีพฤติกรรมหลอกลวงและวางแผน

ทำความรู้จัก Claude ผู้ช่วย AI ที่ช่วยยกระดับการทำงานของคุณ

Claude Code ของ Anthropic เจอปัญหาร้ายแรง กระทบความเสถียรของระบบบางเครื่อง

Claude เปิดตัวฟีเจอร์ใหม่ เชื่อมต่อ Google Workspace พร้อมระบบค้นคว้าอัจฉริยะ ยกระดับผู้ช่วยดิจิทัลในที่ทำงาน

Anthropic เปิดตัว Claude 3.7 Sonnet โมเดล AI อัจฉริยะล่าสุด พร้อมระบบให้เหตุผลแบบไฮบริด

ข่าวแนะนำ

สมัครเป็นนักเขียนกับ Baikhao.com วันนี้ รับเครดิตทันที 100 บาท! สร้างรายได้จากการเขียนบทความได้ทุกวัน

ปฏิทินวันหยุดประจำปี 2568 ในประเทศไทย

วิธีการเขียนบทความกับ baikhao.com

Baikhao.com แพลตฟอร์มบริการที่ครบวงจรสำหรับทุกไลฟ์สไตล์และความสนใจ

การเปิดลงทะเบียนบัตรคนจน โอกาสใหม่สำหรับประชาชนรายได้น้อย ปี 68

ข่าวยอดนิยม

สมัครเป็นนักเขียนกับ Baikhao.com วันนี้ รับเครดิตทันที 100 บาท! สร้างรายได้จากการเขียนบทความได้ทุกวัน

งานเชียงรายดอกไม้งาม ครั้งที่ 21 ณ สวนสาธารณะหาดนครเชียงราย

Baikhao.com แพลตฟอร์มบริการที่ครบวงจรสำหรับทุกไลฟ์สไตล์และความสนใจ

เชียงใหม่พร้อมจัดงานยี่เป็ง 2567 ยิ่งใหญ่ 14-17 พฤศจิกายน นี้ เต็มไปด้วยกิจกรรมวัฒนธรรมล้านนา

บ้านสันติชล หมู่บ้านจีนยูนนาน อำเภอปาย

ข่าวล่าสุด

ผู้ว่าฯ น่าน สั่งเร่งสร้างสะพานทดแทนจุดเสียหาย เพื่อบรรเทาความเดือดร้อนชาวอำเภอนาน้อย

กระบะเสียหลักพลิกคว่ำ บริเวณซุ้มวัดห้วยโรง โชคดีไร้ผู้บาดเจ็บ

น้ำท่วมรุนแรง โรงเรียนบ้านร่มเกล้า-ชุมชนเสียหาย สัญญาณมือถือขาดการติดต่อ