OpenAI อาจใช้ข้อมูลมีลิขสิทธิ์ในการฝึกสอนโมเดล AI ซึ่งอาจเป็นการละเมิดลิขสิทธิ์ ตามที่มีการฟ้องร้องจากเจ้าของผลงาน
วันที่โพสต์: 5 เมษายน 2568 11:08:52 การดู 1 ครั้ง ผู้โพสต์ baikhao
เขียน โปรแกรมเมอร์ และเจ้าของลิขสิทธิ์ที่กล่าวหาว่าบริษัทใช้ผลงานของพวกเขา เช่น หนังสือ โค้ด และอื่นๆ ในการฝึกสอนโมเดล AI โดยไม่ได้รับอนุญาต แม้ว่าบริษัทจะอ้างว่าการใช้ข้อมูลเหล่านี้เป็นไปตามข้อกำหนดของ "การใช้ที่ยุติธรรม" (fair use) แต่ผู้ฟ้องคดีกลับแย้งว่าไม่มีข้อยกเว้นในกฎหมายลิขสิทธิ์สำหรับการฝึกสอนโมเดล AI
การศึกษานี้เขียนร่วมโดยนักวิจัยจากมหาวิทยาลัยวอชิงตัน โคเปนเฮเกน และสแตนฟอร์ด ซึ่งเสนอวิธีการใหม่ในการตรวจสอบว่าโมเดล AI เช่น ของ OpenAI อาจ "จำ" ข้อมูลบางส่วนที่ใช้ในการฝึกสอนหรือไม่
โมเดล AI ทำงานโดยการทำนายผลลัพธ์จากข้อมูลจำนวนมาก ซึ่งทำให้สามารถสร้างข้อความ รูปภาพ หรือสิ่งอื่นๆ ได้ แม้ว่าผลลัพธ์ส่วนใหญ่จะไม่ใช่การคัดลอกตรงๆ แต่บางครั้งก็มีข้อมูลที่เหมือนกับต้นทาง เช่น โมเดลภาพที่สามารถสร้างภาพจากภาพยนตร์ที่ได้รับการฝึกสอน หรือโมเดลภาษาที่อาจลอกเลียนบทความข่าว
วิธีการที่ใช้ในการศึกษาคือการตรวจสอบคำที่หายากและโดดเด่นในข้อความ เช่น คำว่า "radar" ในประโยค “Jack and I sat perfectly still with the radar humming” ซึ่งถือว่าเป็นคำที่หายากเมื่อเทียบกับคำอื่นๆ ที่มักจะมาอยู่ก่อนคำว่า “humming”
นักวิจัยได้ทดสอบโมเดลต่างๆ ของ OpenAI เช่น GPT-4 และ GPT-3.5 โดยการลบคำที่หายากออกจากบทสนทนาในหนังสือและบทความจาก New York Times แล้วให้โมเดลทายคำที่หายไป หากโมเดลทายได้ถูกต้อง ก็แสดงว่าอาจจำข้อมูลจากแหล่งนั้นๆ ได้
ผลการทดสอบพบว่า GPT-4 มีการจดจำข้อมูลจากหนังสือฟิคชั่นบางเล่ม รวมถึงข้อมูลจากชุดข้อมูลที่มีลิขสิทธิ์ชื่อ BookMIA และยังพบว่าโมเดลจดจำข้อมูลบางส่วนจากบทความของ New York Times ด้วย
Abhilasha Ravichander นักศึกษาปริญญาเอกจากมหาวิทยาลัยวอชิงตันที่ร่วมเขียนการศึกษานี้ กล่าวว่า ผลการศึกษาช่วยเปิดเผยข้อมูลเกี่ยวกับแหล่งข้อมูลที่โมเดลอาจใช้ในการฝึกสอน
“เพื่อให้โมเดลภาษาขนาดใหญ่มีความน่าเชื่อถือ เราจำเป็นต้องสามารถตรวจสอบข้อมูลเหล่านี้ได้” Ravichander กล่าว “งานของเราจึงเป็นการพัฒนาเครื่องมือที่ช่วยให้สามารถตรวจสอบโมเดล AI ได้ และยังมีความต้องการที่ชัดเจนในการเพิ่มความโปร่งใสของข้อมูลในการพัฒนาโมเดล”
OpenAI ได้สนับสนุนการใช้ข้อมูลที่มีลิขสิทธิ์ในการฝึกสอนโมเดล โดยเชื่อว่าการใช้ข้อมูลเหล่านี้เป็นไปตามข้อกำหนดของ “การใช้ที่ยุติธรรม” (fair use) และถึงแม้บริษัทจะมีข้อตกลงการอนุญาตเนื้อหาบางประการและมีระบบให้เจ้าของลิขสิทธิ์สามารถยกเลิกการใช้ข้อมูลได้ แต่ OpenAI ยังคงล็อบบี้ให้รัฐบาลหลายประเทศกำหนดกฎเกณฑ์ที่ชัดเจนเกี่ยวกับการใช้ข้อมูลในการฝึกสอนโมเดล AI
ที่มา : techcrunch
แท็ก: OpenAI