Meta งานเข้า! แอบใช้เวอร์ชันทดลอง Llama 4 ขึ้นชาร์ต AI แต่พอปล่อยของจริง คะแนนร่วงยับ
วันที่โพสต์: 14 เมษายน 2568 07:16:51 การดู 2 ครั้ง ผู้โพสต์ baikhao
กลายเป็นดราม่าวงการ AI เมื่อ Meta ถูกจับได้ว่าใช้โมเดล Llama 4 เวอร์ชันทดลอง (ที่ยังไม่ปล่อยให้คนทั่วไปใช้) ไปทดสอบประสิทธิภาพในเว็บ LM Arena ซึ่งเป็นแพลตฟอร์มจัดอันดับ AI ด้วยการให้คนจริงมาเปรียบเทียบคำตอบของโมเดลแบบตาต่อตา — ผลคือได้คะแนนดีเว่อร์ ขึ้นไปติดอันดับบนๆ ท่ามกลางคำชมล้นหลาม
แต่เรื่องไม่จบแค่นั้น เพราะสุดท้ายก็มีคนแฉว่า โมเดลที่ใช้ไม่ได้เป็นเวอร์ชันปล่อยจริง จนทีมงาน LM Arena ต้องออกมาขอโทษ และเปลี่ยนนโยบายจัดอันดับทันที จากนั้นก็นำเวอร์ชันที่ Meta ปล่อยจริงๆ มาใส่เข้าไปแทน
ปรากฏว่า...หืมมม คะแนนร่วงหนักมาก โมเดลเวอร์ชันจริงที่ชื่อว่า Llama-4-Maverick-17B-128E-Instruct ร่วงไปอยู่ อันดับที่ 32 แพ้ให้กับคู่แข่งอย่าง GPT-4o ของ OpenAI, Claude 3.5 ของ Anthropic และ Gemini 1.5 Pro ของ Google ซึ่งบางตัวออกมาก่อนตั้งหลายเดือนด้วยซ้ำ
Meta ออกมาชี้แจงว่า โมเดลทดลองที่ใช้ก่อนหน้านี้มัน “ปรับมาให้เหมาะกับการสนทนา” ซึ่งพอไปเทียบในระบบที่เน้นให้คนเลือกว่าชอบคำตอบไหน มันเลยดูดี — แต่ไม่ได้แปลว่ามันเก่งกว่าในทุกด้าน
ตัวแทนจาก Meta บอกว่า “เราลองหลายเวอร์ชัน แล้วเวอร์ชันที่ทำมาสำหรับแชทมันก็ทำคะแนนดีใน LM Arena แต่ตอนนี้เราปล่อยเวอร์ชันโอเพ่นซอร์สของจริงแล้ว ก็อยากดูว่าชาว dev จะเอาไปปรับใช้ยังไงต่อ”
งานนี้ก็มีเสียงวิจารณ์ตามมาว่า ถ้าบริษัทใหญ่ๆ เริ่ม “จูนโมเดลให้โกยคะแนนในสนามเฉพาะทาง” มันก็อาจทำให้ชาร์ตอันดับเหล่านี้หมดความน่าเชื่อถือไปในที่สุด
ที่มา : techcrunch
แท็ก: Meta