
Qwen2.5 Omni โมเดล AI รุ่นใหม่ที่พัฒนาโดย Alibaba
Qwen2.5 Omni โมเดล AI รุ่นใหม่ที่พัฒนาโดย Alibaba
Qwen2.5 Omni เป็นโมเดล AI รุ่นใหม่ที่พัฒนาโดย Alibaba ซึ่งมีความสามารถในการประมวลผลข้อมูลหลากหลายรูปแบบ เช่น ข้อความ (text), รูปภาพ (images), เสียง (audio) และวิดีโอ (video) พร้อมทั้งสร้างผลลัพธ์ในรูปแบบข้อความและเสียงได้แบบเรียลไทม์
คุณสมบัติเด่น
-
สถาปัตยกรรม Thinker-Talker
- โมเดลนี้ใช้สถาปัตยกรรม Thinker-Talker ซึ่งแบ่งการทำงานออกเป็นสองส่วน:
- Thinker: ทำหน้าที่เหมือนสมองในการประมวลผลข้อมูลจากหลายแหล่ง เช่น ข้อความ เสียง และวิดีโอ
- Talker: ทำหน้าที่เหมือนปากในการสร้างข้อความและเสียงจากข้อมูลที่ Thinker ประมวลผล
- มีการใช้ตำแหน่งฝังตัวแบบใหม่ที่ชื่อว่า TMRoPE (Time-aligned Multimodal RoPE) เพื่อซิงโครไนซ์เวลาในวิดีโอและเสียง
- โมเดลนี้ใช้สถาปัตยกรรม Thinker-Talker ซึ่งแบ่งการทำงานออกเป็นสองส่วน:
-
การแชทด้วยเสียงและวิดีโอแบบเรียลไทม์
- รองรับการป้อนข้อมูลแบบแบ่งส่วน (chunked input) และการตอบสนองทันที ช่วยให้การสนทนาเป็นไปอย่างลื่นไหลและมีคุณภาพสูง
-
การสร้างเสียงที่เป็นธรรมชาติและแข็งแกร่ง
- แสดงความสามารถเหนือกว่าโมเดลอื่นๆ ทั้งในรูปแบบสตรีมมิ่งและไม่ใช่สตรีมมิ่ง โดยให้เสียงที่มีความเป็นธรรมชาติสูง
-
ประสิทธิภาพสูงในทุกโหมด
- โมเดลนี้ทำงานได้ดีในทุกโหมดเมื่อเปรียบเทียบกับโมเดลขนาดใกล้เคียง เช่น Qwen2-Audio และ Qwen2.5-VL-7B รวมถึงสามารถผสานข้อมูลจากหลายแหล่งได้อย่างยอดเยี่ยม
-
การติดตามคำสั่งเสียงแบบครบวงจร
- มีความสามารถในการติดตามคำสั่งเสียงได้ดีเทียบเท่ากับการประมวลผลข้อความ โดยผ่านการทดสอบมาตรฐานเช่น MMLU และ GSM8K
การใช้งาน
- Qwen2.5 Omni สามารถนำไปใช้ในหลากหลายบริบท เช่น:
- การสนทนาในงานบริการลูกค้า
- การให้คำแนะนำทีละขั้นตอน เช่น การทำอาหารผ่านวิดีโอ
- การพัฒนา AI agent ที่ประหยัดต้นทุนสำหรับแอปพลิเคชันอัจฉริยะด้านเสียง
ประสิทธิภาพและการเปรียบเทียบ
Qwen2.5 Omni ได้รับการประเมินว่ามีประสิทธิภาพสูงสุดในงานมัลติโมดอล เช่น OmniBench และยังมีความสามารถโดดเด่นในงานเฉพาะด้าน เช่น:
- การรู้จำเสียง (Common Voice)
- การแปลภาษา (CoVoST2)
- ความเข้าใจเสียง (MMAU)
- การให้เหตุผลเกี่ยวกับรูปภาพ (MMMU, MMStar)
- ความเข้าใจวิดีโอ (MVBench)
- การสร้างเสียง (Seed-tts-eval)
ด้วยขนาดเพียง 7 พันล้านพารามิเตอร์ โมเดลนี้ยังสามารถใช้งานบนสมาร์ทโฟนได้ ทำให้เหมาะสำหรับผู้พัฒนาที่ต้องการสร้างระบบ AI ที่มีต้นทุนต่ำแต่ทรงพลัง