Logo
Qwen2.5 Omni โมเดล AI รุ่นใหม่ที่พัฒนาโดย Alibaba

Articles / ai

Qwen2.5 Omni โมเดล AI รุ่นใหม่ที่พัฒนาโดย Alibaba

Qwen2.5 Omni โมเดล AI รุ่นใหม่ที่พัฒนาโดย Alibaba

Published on April 4, 2025

Qwen2.5 Omni เป็นโมเดล AI รุ่นใหม่ที่พัฒนาโดย Alibaba ซึ่งมีความสามารถในการประมวลผลข้อมูลหลากหลายรูปแบบ เช่น ข้อความ (text), รูปภาพ (images), เสียง (audio) และวิดีโอ (video) พร้อมทั้งสร้างผลลัพธ์ในรูปแบบข้อความและเสียงได้แบบเรียลไทม์

คุณสมบัติเด่น

  1. สถาปัตยกรรม Thinker-Talker

    • โมเดลนี้ใช้สถาปัตยกรรม Thinker-Talker ซึ่งแบ่งการทำงานออกเป็นสองส่วน:
      • Thinker: ทำหน้าที่เหมือนสมองในการประมวลผลข้อมูลจากหลายแหล่ง เช่น ข้อความ เสียง และวิดีโอ
      • Talker: ทำหน้าที่เหมือนปากในการสร้างข้อความและเสียงจากข้อมูลที่ Thinker ประมวลผล
    • มีการใช้ตำแหน่งฝังตัวแบบใหม่ที่ชื่อว่า TMRoPE (Time-aligned Multimodal RoPE) เพื่อซิงโครไนซ์เวลาในวิดีโอและเสียง
  2. การแชทด้วยเสียงและวิดีโอแบบเรียลไทม์

    • รองรับการป้อนข้อมูลแบบแบ่งส่วน (chunked input) และการตอบสนองทันที ช่วยให้การสนทนาเป็นไปอย่างลื่นไหลและมีคุณภาพสูง
  3. การสร้างเสียงที่เป็นธรรมชาติและแข็งแกร่ง

    • แสดงความสามารถเหนือกว่าโมเดลอื่นๆ ทั้งในรูปแบบสตรีมมิ่งและไม่ใช่สตรีมมิ่ง โดยให้เสียงที่มีความเป็นธรรมชาติสูง
  4. ประสิทธิภาพสูงในทุกโหมด

    • โมเดลนี้ทำงานได้ดีในทุกโหมดเมื่อเปรียบเทียบกับโมเดลขนาดใกล้เคียง เช่น Qwen2-Audio และ Qwen2.5-VL-7B รวมถึงสามารถผสานข้อมูลจากหลายแหล่งได้อย่างยอดเยี่ยม
  5. การติดตามคำสั่งเสียงแบบครบวงจร

    • มีความสามารถในการติดตามคำสั่งเสียงได้ดีเทียบเท่ากับการประมวลผลข้อความ โดยผ่านการทดสอบมาตรฐานเช่น MMLU และ GSM8K

การใช้งาน

  • Qwen2.5 Omni สามารถนำไปใช้ในหลากหลายบริบท เช่น:
    • การสนทนาในงานบริการลูกค้า
    • การให้คำแนะนำทีละขั้นตอน เช่น การทำอาหารผ่านวิดีโอ
    • การพัฒนา AI agent ที่ประหยัดต้นทุนสำหรับแอปพลิเคชันอัจฉริยะด้านเสียง

ประสิทธิภาพและการเปรียบเทียบ

Qwen2.5 Omni ได้รับการประเมินว่ามีประสิทธิภาพสูงสุดในงานมัลติโมดอล เช่น OmniBench และยังมีความสามารถโดดเด่นในงานเฉพาะด้าน เช่น:

  • การรู้จำเสียง (Common Voice)
  • การแปลภาษา (CoVoST2)
  • ความเข้าใจเสียง (MMAU)
  • การให้เหตุผลเกี่ยวกับรูปภาพ (MMMU, MMStar)
  • ความเข้าใจวิดีโอ (MVBench)
  • การสร้างเสียง (Seed-tts-eval)

ด้วยขนาดเพียง 7 พันล้านพารามิเตอร์ โมเดลนี้ยังสามารถใช้งานบนสมาร์ทโฟนได้ ทำให้เหมาะสำหรับผู้พัฒนาที่ต้องการสร้างระบบ AI ที่มีต้นทุนต่ำแต่ทรงพลัง

Logo

100/280 Soi 17, Delight Village, Bang Khun Thian - Chaitalay, Phanthai Norasing, Samut Sakhon 74000


Copyright © 2025 DriteStudio All Rights Reserved.

😓 😞 😷
Chat with us.