กลายเป็นดราม่าวงการ AI เมื่อ Meta ถูกจับได้ว่าใช้โมเดล Llama 4 เวอร์ชันทดลอง (ที่ยังไม่ปล่อยให้คนทั่วไปใช้) ไปทดสอบประสิทธิภาพในเว็บ LM Arena ซึ่งเป็นแพลตฟอร์มจัดอันดับ AI ด้วยการให้คนจริงมาเปรียบเทียบคำตอบของโมเดลแบบตาต่อตา — ผลคือได้คะแนนดีเว่อร์ ขึ้นไปติดอันดับบนๆ ท่ามกลางคำชมล้นหลาม

แต่เรื่องไม่จบแค่นั้น เพราะสุดท้ายก็มีคนแฉว่า โมเดลที่ใช้ไม่ได้เป็นเวอร์ชันปล่อยจริง จนทีมงาน LM Arena ต้องออกมาขอโทษ และเปลี่ยนนโยบายจัดอันดับทันที จากนั้นก็นำเวอร์ชันที่ Meta ปล่อยจริงๆ มาใส่เข้าไปแทน

ปรากฏว่า...หืมมม คะแนนร่วงหนักมาก โมเดลเวอร์ชันจริงที่ชื่อว่า Llama-4-Maverick-17B-128E-Instruct ร่วงไปอยู่ อันดับที่ 32 แพ้ให้กับคู่แข่งอย่าง GPT-4o ของ OpenAI, Claude 3.5 ของ Anthropic และ Gemini 1.5 Pro ของ Google ซึ่งบางตัวออกมาก่อนตั้งหลายเดือนด้วยซ้ำ

Meta ออกมาชี้แจงว่า โมเดลทดลองที่ใช้ก่อนหน้านี้มัน “ปรับมาให้เหมาะกับการสนทนา” ซึ่งพอไปเทียบในระบบที่เน้นให้คนเลือกว่าชอบคำตอบไหน มันเลยดูดี — แต่ไม่ได้แปลว่ามันเก่งกว่าในทุกด้าน

ตัวแทนจาก Meta บอกว่า “เราลองหลายเวอร์ชัน แล้วเวอร์ชันที่ทำมาสำหรับแชทมันก็ทำคะแนนดีใน LM Arena แต่ตอนนี้เราปล่อยเวอร์ชันโอเพ่นซอร์สของจริงแล้ว ก็อยากดูว่าชาว dev จะเอาไปปรับใช้ยังไงต่อ”

งานนี้ก็มีเสียงวิจารณ์ตามมาว่า ถ้าบริษัทใหญ่ๆ เริ่ม “จูนโมเดลให้โกยคะแนนในสนามเฉพาะทาง” มันก็อาจทำให้ชาร์ตอันดับเหล่านี้หมดความน่าเชื่อถือไปในที่สุด

ที่มา : techcrunch