EmbeddingGemma Google 308M: On-Device Embedding 100+ ภาษา 200MB RAG Ready
กลับหน้ารายการบทความ

EmbeddingGemma Google 308M: On-Device Embedding 100+ ภาษา 200MB RAG Ready

EmbeddingGemma 308M Gemma 3 encoder 768D→128D MRL 2048 tokens 100+ ภาษา MTEB #1 on-device RAG Android/iOS/macOS Python JS deployment latency benchmarks

ai อัพเดต: 7 มกราคม 2569

EmbeddingGemma: Google DeepMind 2GB RAM Embedding 768D - รองรับ 100+ ภาษา ออฟไลน์

EmbeddingGemma 308M params Gemma 3 encoder รองรับมือถือ/แล็ปท็อป 200MB quantized 2048 tokens context 100+ ภาษา MTEB top rank Matryoshka 768→128D on-device RAG

EmbeddingGemma Technical Specs

Specรายละเอียด
Params308M
Memory<200MB (INT8)
Embedding Dim768 (MRL: 512/256/128)
Context2048 tokens
Languages100+
ArchitectureGemma 3 Bi-directional
Training Data320B filtered tokens
LicenseOpen weights

Matryoshka Representation Learning (MRL)

768D → 512D: 1.2% perf drop
768D → 256D: 3.5% perf drop
768D → 128D: 8.2% perf drop
Storage: 768D=2.3MB → 128D=400KB

MTEB Leaderboard: Sub-500M Category

1. EmbeddingGemma 308M: 64.12
2. E5-small-v2 33M: 62.53
3. BGE-small 33M: 61.22
4. Snowflake 300M: 60.85

On-Device Deployment Targets

📱 Android (TensorFlow Lite)
🍎 iOS (CoreML)
💻 macOS (Metal)
🖥️ Windows (DirectML)
🤖 Edge TPU / NPU

Quick Start Code Examples

Python (HuggingFace):

from sentence_transformers import SentenceTransformer
model = SentenceTransformer('google/embedding-gemma')
embeds = model.encode(["สวัสดี", "Hello"])
similarity = cosine_similarity(embeds[0], embeds[1])

JavaScript (ONNX):

import { InferenceSession } from 'onnxruntime-web';
const session = new InferenceSession();
await session.loadModel('embedding-gemma.onnx');
const embeddings = await session.run(input);

RAG Pipeline with EmbeddingGemma

1. Chunk docs → 512 token segments
2. Embed with 256D (MRL)
3. FAISS index (on-device)
4. Query → Top-K retrieve
5. Gemma 2B generate answer

Latency: 45ms/query on Snapdragon 8 Gen 3

Use Cases On-Device Embedding

🔍 Semantic search (notes, docs)
💬 Chatbot RAG (privacy-first)
🎵 Music recommendation
📧 Email clustering
📚 Book passage retrieval

Multi-Language Performance

🇹🇭 Thai: 92% MTEB multilingual
🇯🇵 Japanese: 89%
🇰🇷 Korean: 91%
🇻🇳 Vietnamese: 87%
🇮🇩 Indonesian: 88%

Model Quantization Options

PrecisionSizeSpeedupPerf Drop
FP16600MB1x0%
INT8200MB1.8x0.5%
INT4120MB3.2x1.2%

Edge Hardware Compatibility

✅ Snapdragon 8 Gen 3 (12ms/inference)
✅ Apple A18 (8ms)
✅ MediaTek Dimensity 9400 (15ms)
✅ Intel Lunar Lake NPU (10ms)
D

DRITESTUDIO

บริษัท ไดรท์สตูดิโอ จำกัด - ผู้ให้บริการ Cloud, VPS, Hosting และ Colocation ในประเทศไทย

จัดการการตั้งค่าคุกกี้ของคุณ

เราใช้คุกกี้หลายประเภทเพื่อเพิ่มประสิทธิภาพประสบการณ์ของคุณบนเว็บไซต์ คลิกที่หมวดหมู่ด้านล่างเพื่อเรียนรู้เพิ่มเติมและปรับแต่งการตั้งค่า โปรดทราบว่าการบล็อกคุกกี้บางประเภทอาจส่งผลต่อประสบการณ์ของคุณ

คุกกี้ที่จำเป็น

คุกกี้เหล่านี้จำเป็นสำหรับการทำงานของเว็บไซต์ ช่วยให้ฟังก์ชันพื้นฐานเช่นการนำทางหน้าเว็บและการเข้าถึงพื้นที่ที่ปลอดภัย

ดูคุกกี้ที่ใช้
  • คุกกี้เซสชัน (การจัดการเซสชัน)
  • คุกกี้ความปลอดภัย (การป้องกัน CSRF)
เปิดเสมอ

คุกกี้ฟังก์ชัน

คุกกี้เหล่านี้ช่วยให้ฟีเจอร์ส่วนบุคคลเช่นการตั้งค่าภาษาและธีมทำงานได้ หากไม่มีคุกกี้เหล่านี้ ฟีเจอร์บางอย่างอาจทำงานไม่ถูกต้อง

ดูคุกกี้ที่ใช้
  • lang (การตั้งค่าภาษา)
  • theme (โหมดมืด/สว่าง)

คุกกี้วิเคราะห์

คุกกี้เหล่านี้ช่วยให้เราเข้าใจว่าผู้เข้าชมโต้ตอบกับเว็บไซต์อย่างไรโดยรวบรวมและรายงานข้อมูลแบบไม่ระบุตัวตน

ดูคุกกี้ที่ใช้
  • _ga (Google Analytics)
  • _gid (Google Analytics)

คุกกี้การตลาด

คุกกี้เหล่านี้ใช้เพื่อติดตามผู้เข้าชมข้ามเว็บไซต์เพื่อแสดงโฆษณาที่เกี่ยวข้องตามความสนใจของคุณ

ดูคุกกี้ที่ใช้
  • คุกกี้โฆษณา
  • พิกเซลรีมาร์เก็ตติ้ง

นโยบายความเป็นส่วนตัว