24 มีนาคม 2025 - ทีม Qwen ประกาศเปิดตัว Qwen2.5-VL-32B-Instruct ซึ่งเป็นโมเดล AI แบบมัลติโหมด (Multimodal) ที่ได้รับการพัฒนาเพิ่มเติมจากรุ่นก่อนหน้าในซีรีส์ Qwen2.5-VL โดยเน้นการปรับปรุงด้านการให้เหตุผลทางคณิตศาสตร์ การเข้าใจภาพอย่างละเอียด และการตอบสนองที่สอดคล้องกับความต้องการของมนุษย์มากขึ้น โดยโมเดลนี้ได้รับการเปิดโอเพ่นซอร์สภายใต้ Apache 2.0 License เพื่อให้ผู้พัฒนาและนักวิจัยสามารถนำไปใช้งานได้อย่างอิสระ

จุดเด่นของ Qwen2.5-VL-32B-Instruct

การเปิดตัว Qwen2.5-VL-32B-Instruct ในครั้งนี้มาพร้อมกับการพัฒนา 3 ด้านสำคัญ ได้แก่:

  1. การตอบสนองที่เหมาะกับมนุษย์มากขึ้น
    • โมเดลถูกปรับให้สามารถตอบคำถามได้ละเอียดขึ้น โดยมีการจัดรูปแบบคำตอบที่อ่านง่ายและสอดคล้องกับความต้องการของมนุษย์มากขึ้น
  2. ความสามารถด้านการให้เหตุผลทางคณิตศาสตร์
    • โมเดลได้รับการฝึกด้วยข้อมูลที่ช่วยให้สามารถแก้ปัญหาคณิตศาสตร์ที่ซับซ้อนได้แม่นยำขึ้น ลดข้อผิดพลาดในกระบวนการคิดคำนวณ
  3. การเข้าใจและวิเคราะห์ภาพอย่างละเอียด
    • โมเดลสามารถวิเคราะห์และให้เหตุผลเกี่ยวกับภาพได้อย่างแม่นยำมากขึ้น ไม่ว่าจะเป็นการอ่านข้อมูลจากภาพ การจดจำวัตถุ หรือการวิเคราะห์เหตุการณ์ในบริบทต่างๆ

ผลการทดสอบและการเปรียบเทียบกับโมเดลอื่นๆ

ทีมพัฒนาได้ทำการทดสอบ Qwen2.5-VL-32B-Instruct โดยเปรียบเทียบกับโมเดล AI อื่นๆ ในระดับเดียวกัน เช่น Mistral-Small-3.1-24B และ Gemma-3-27B-IT รวมถึงเวอร์ชันก่อนหน้าอย่าง Qwen2-VL-72B-Instruct ซึ่งพบว่า:

  • Qwen2.5-VL-32B-Instruct มีประสิทธิภาพเหนือกว่าคู่แข่งในด้าน การให้เหตุผลเชิงภาพและคณิตศาสตร์
  • ได้คะแนนสูงสุดในการทดสอบ MMMU, MMMU-Pro และ MathVista ซึ่งเป็นชุดทดสอบที่ออกแบบมาเพื่อวัดความสามารถของ AI ในการแก้ปัญหาหลายขั้นตอนที่ซับซ้อน
  • ทำคะแนนได้ดีกว่า Qwen2-VL-72B-Instruct ในด้านการประเมินผลเชิงประสบการณ์ของผู้ใช้ (MM-MT-Bench)

จากการเปรียบเทียบเหล่านี้ แสดงให้เห็นว่า Qwen2.5-VL-32B-Instruct มีความสามารถที่สูงขึ้นแม้ว่าจะใช้พารามิเตอร์น้อยกว่ารุ่นก่อนหน้าก็ตาม

ตัวอย่างการใช้งานจริง

หนึ่งในความสามารถที่โดดเด่นของโมเดลนี้คือ การวิเคราะห์ภาพอย่างละเอียดและให้เหตุผลตามตรรกะ ยกตัวอย่างเช่น หากผู้ใช้ต้องการทราบว่า "ถ้าขับรถบรรทุกบนถนนเส้นนี้ จะสามารถเดินทางถึงจุดหมาย 110 กิโลเมตรก่อนเวลา 13:00 น. ได้หรือไม่" โมเดลสามารถทำการคำนวณและวิเคราะห์ข้อมูลจากป้ายจราจรในภาพ พร้อมกับให้คำตอบที่แม่นยำว่า

  • เวลาปัจจุบันคือ 12:00 น.
  • ระยะทางที่ต้องเดินทางคือ 110 กิโลเมตร
  • จำกัดความเร็วสำหรับรถบรรทุกคือ 100 กิโลเมตรต่อชั่วโมง
  • ใช้เวลาเดินทางประมาณ 1 ชั่วโมง 6 นาที
  • ถึงจุดหมายในเวลาประมาณ 13:06 น. ซึ่งเลยกำหนดเวลา 13:00 น. ไปเล็กน้อย

จากตัวอย่างนี้ แสดงให้เห็นว่าโมเดลสามารถใช้ข้อมูลจากภาพและนำมาวิเคราะห์เพื่อให้คำตอบที่มีเหตุผลได้อย่างแม่นยำ ซึ่งเป็นประโยชน์อย่างมากในงานที่ต้องใช้ AI เพื่อช่วยตัดสินใจในสถานการณ์จริง

แผนพัฒนาในอนาคต

ทีม Qwen เปิดเผยว่าการพัฒนาครั้งนี้เป็นเพียงจุดเริ่มต้นของการนำ AI ไปใช้ในงานที่ซับซ้อนมากขึ้น โดยเป้าหมายในอนาคตคือ การพัฒนาโมเดลที่สามารถให้เหตุผลหลายขั้นตอนที่ลึกซึ้งขึ้น เพื่อรองรับงานที่ต้องใช้ตรรกะในการคิดที่ซับซ้อน เช่น การวิเคราะห์ภาพทางการแพทย์ การคาดการณ์ทางการเงิน หรือการตัดสินใจที่ต้องอาศัยข้อมูลจากหลายแหล่ง

เปิดให้ใช้งานโอเพ่นซอร์สแล้ววันนี้

Qwen2.5-VL-32B-Instruct ได้รับการเปิดโอเพ่นซอร์สภายใต้ Apache 2.0 License ซึ่งหมายความว่าผู้พัฒนา นักวิจัย และผู้ที่สนใจสามารถนำโมเดลไปใช้งาน ปรับแต่ง หรือพัฒนาเพิ่มเติมได้อย่างเสรี สามารถเข้าถึงได้ผ่านแพลตฟอร์มต่างๆ เช่น:

🔗 GitHub | Hugging Face | ModelScope | Discord

สำหรับนักพัฒนาที่ต้องการนำโมเดลไปประยุกต์ใช้ในแอปพลิเคชันของตนเอง นี่เป็นโอกาสสำคัญที่จะได้ใช้งาน AI ที่ทรงพลังและพัฒนามาอย่างต่อเนื่อง

Qwen2.5-VL-32B-Instruct เป็นโมเดล AI ที่ได้รับการปรับปรุงให้มีประสิทธิภาพสูงขึ้นทั้งในด้าน การให้เหตุผลเชิงคณิตศาสตร์, การเข้าใจภาพ, และการตอบสนองในรูปแบบที่เป็นธรรมชาติมากขึ้น โดยสามารถเอาชนะโมเดลคู่แข่งหลายตัวในตลาด และพร้อมให้ชุมชนผู้พัฒนาใช้งานผ่านโอเพ่นซอร์ส นี่เป็นอีกหนึ่งก้าวสำคัญของการพัฒนา AI ที่สามารถช่วยเพิ่มประสิทธิภาพในการทำงานและการตัดสินใจในโลกแห่งความจริงได้อย่างแท้จริง