Qwen2.5 Omni โมเดล AI รุ่นใหม่ที่พัฒนาโดย Alibaba
ai

Qwen2.5 Omni โมเดล AI รุ่นใหม่ที่พัฒนาโดย Alibaba

Qwen2.5 Omni โมเดล AI รุ่นใหม่ที่พัฒนาโดย Alibaba

1 นาทีในการอ่าน
โดย DriteStudio
แชร์บทความ:

Qwen2.5 Omni เป็นโมเดล AI รุ่นใหม่ที่พัฒนาโดย Alibaba ซึ่งมีความสามารถในการประมวลผลข้อมูลหลากหลายรูปแบบ เช่น ข้อความ (text), รูปภาพ (images), เสียง (audio) และวิดีโอ (video) พร้อมทั้งสร้างผลลัพธ์ในรูปแบบข้อความและเสียงได้แบบเรียลไทม์

คุณสมบัติเด่น

  1. สถาปัตยกรรม Thinker-Talker

    • โมเดลนี้ใช้สถาปัตยกรรม Thinker-Talker ซึ่งแบ่งการทำงานออกเป็นสองส่วน:
      • Thinker: ทำหน้าที่เหมือนสมองในการประมวลผลข้อมูลจากหลายแหล่ง เช่น ข้อความ เสียง และวิดีโอ
      • Talker: ทำหน้าที่เหมือนปากในการสร้างข้อความและเสียงจากข้อมูลที่ Thinker ประมวลผล
    • มีการใช้ตำแหน่งฝังตัวแบบใหม่ที่ชื่อว่า TMRoPE (Time-aligned Multimodal RoPE) เพื่อซิงโครไนซ์เวลาในวิดีโอและเสียง
  2. การแชทด้วยเสียงและวิดีโอแบบเรียลไทม์

    • รองรับการป้อนข้อมูลแบบแบ่งส่วน (chunked input) และการตอบสนองทันที ช่วยให้การสนทนาเป็นไปอย่างลื่นไหลและมีคุณภาพสูง
  3. การสร้างเสียงที่เป็นธรรมชาติและแข็งแกร่ง

    • แสดงความสามารถเหนือกว่าโมเดลอื่นๆ ทั้งในรูปแบบสตรีมมิ่งและไม่ใช่สตรีมมิ่ง โดยให้เสียงที่มีความเป็นธรรมชาติสูง
  4. ประสิทธิภาพสูงในทุกโหมด

    • โมเดลนี้ทำงานได้ดีในทุกโหมดเมื่อเปรียบเทียบกับโมเดลขนาดใกล้เคียง เช่น Qwen2-Audio และ Qwen2.5-VL-7B รวมถึงสามารถผสานข้อมูลจากหลายแหล่งได้อย่างยอดเยี่ยม
  5. การติดตามคำสั่งเสียงแบบครบวงจร

    • มีความสามารถในการติดตามคำสั่งเสียงได้ดีเทียบเท่ากับการประมวลผลข้อความ โดยผ่านการทดสอบมาตรฐานเช่น MMLU และ GSM8K

การใช้งาน

  • Qwen2.5 Omni สามารถนำไปใช้ในหลากหลายบริบท เช่น:
    • การสนทนาในงานบริการลูกค้า
    • การให้คำแนะนำทีละขั้นตอน เช่น การทำอาหารผ่านวิดีโอ
    • การพัฒนา AI agent ที่ประหยัดต้นทุนสำหรับแอปพลิเคชันอัจฉริยะด้านเสียง

ประสิทธิภาพและการเปรียบเทียบ

Qwen2.5 Omni ได้รับการประเมินว่ามีประสิทธิภาพสูงสุดในงานมัลติโมดอล เช่น OmniBench และยังมีความสามารถโดดเด่นในงานเฉพาะด้าน เช่น:

  • การรู้จำเสียง (Common Voice)
  • การแปลภาษา (CoVoST2)
  • ความเข้าใจเสียง (MMAU)
  • การให้เหตุผลเกี่ยวกับรูปภาพ (MMMU, MMStar)
  • ความเข้าใจวิดีโอ (MVBench)
  • การสร้างเสียง (Seed-tts-eval)

ด้วยขนาดเพียง 7 พันล้านพารามิเตอร์ โมเดลนี้ยังสามารถใช้งานบนสมาร์ทโฟนได้ ทำให้เหมาะสำหรับผู้พัฒนาที่ต้องการสร้างระบบ AI ที่มีต้นทุนต่ำแต่ทรงพลัง

หมวดหมู่:#ai

ลิขสิทธิ์ © 2025 DriteStudio สงวนสิทธิ์ทั้งหมด

😒 😶 😂
Chat with us.