بطاقات النماذج
بطاقات نماذج ثنائية اللغة (عربي/إنجليزي) مع منهجية قابلة لإعادة الإنتاج لقياسات الجودة والتكلفة.
الهدف من هذه الصفحة
استخدم هذه الصفحة لنشر بطاقات نماذج DCP بصيغة موحدة وسهلة المقارنة. يجب أن تشرح كل بطاقة الجودة، وزمن الاستجابة، والتكلفة، ومتطلبات VRAM لأحمال العمل العربية والثنائية اللغة.
مصادر البيانات الرسمية
- سجل النماذج: `GET /api/models`
- تغذية القياسات: `GET /api/models/benchmarks`
- بطاقات ثنائية اللغة: `GET /api/models/cards`
- اسم مجموعة القياس: `saudi-arabic-v1`
مصفوفة المقارنة العامة (Section 3B)
5 of 5 models
Best in class Needs improvementClick rows to compare
| # | النموذج⇅ | Arabic MMLU (%)⇅ | ArabicaQA (%)⇅ | زمن P95 (ms)⇅ | التكلفة لكل 1000 رمز (SAR)⇅ | VRAM (GB)⇅ | التشغيل الأولي (ms)⇅ | |
|---|---|---|---|---|---|---|---|---|
| 🥈 | DeepSeek R1 7B | 63.1BEST | 71.5BEST | 1100BEST | 1.24BEST | 16 | 8900BEST | |
| 🥉 | Llama 3 8B Instruct | 58.7#3 | 66.1#3 | 960#2 | 1.08#2 | 16#3 | 7500#2 | |
| 🥉 | Qwen2 7B Instruct | 61.4#2 | 69.8#2 | 890#3 | 1.02#3 | 16 | 7200#3 | |
| #4 | Mistral 7B Instruct | 54.2 | 62.4 | 860 | 0.95 | 16#2 | 6800 | |
| #4 | Phi-3 Mini | 42.9 | 51.2 | 650 | 0.62 | 6BEST | 4100 |
طريقة تفسير المؤشرات
- `Arabic MMLU` و`ArabicaQA`: كلما ارتفعت القيمة كان أداء العربية أفضل.
- `P95 latency`: كلما انخفضت القيمة كانت تجربة المحادثة أكثر سلاسة.
- `Cost / 1K tokens`: كلما انخفضت كانت التكلفة التشغيلية أفضل.
- `VRAM`: الحد الأدنى العملي لذاكرة GPU المطلوبة.
- `Cold start`: زمن بدء الحاوية قبل أول رمز عند عدم وجود prewarm.
ترتيب التقييم المقترح للمشتري
- ابدأ بفلترة النماذج حسب حد جودة العربية المستهدف.
- استبعد النماذج التي تتجاوز SLO لزمن الاستجابة عند `P95`.
- قارن التكلفة لكل 1000 رمز بين النماذج المتبقية.
- تحقق من توافق VRAM وسياسة prewarm لدى المزود.
سير نشر قابل لإعادة الإنتاج
1) جلب أحدث تغذية قياسات
curl -s https://dcp.sa/api/dc1/models/benchmarks2) جلب الملخصات الثنائية
curl -s https://dcp.sa/api/dc1/models/cards3) التحقق من الحقول المطلوبة قبل النشر
يجب أن تحتوي كل بطاقة منشورة على:
- `model_id` و`display_name` و`family`
- `metrics.latency_ms.p50/p95/p99`
- `metrics.arabic_quality.arabic_mmlu_score`
- `metrics.arabic_quality.arabicaqa_score`
- `metrics.cost_per_1k_tokens_halala` و`metrics.cost_per_1k_tokens_sar`
- `metrics.vram_required_gb`
- `metrics.cold_start_ms`
- `summary.en` و`summary.ar`
- `benchmark_suite` و`measured_at`
قالب البطاقة (EN/AR)
### <Display Name> (`<model_id>`)
- **Arabic quality**: MMLU <x>% · ArabicaQA <y>%
- **Latency**: P50 <x> ms · P95 <y> ms · P99 <z> ms
- **Cost**: <halala> halala / 1K tokens (<sar> SAR)
- **Deployment**: VRAM <x> GB · Cold start <y> ms
- **Best use**: <one sentence>
- **Summary (EN)**: <summary.en>
- **الملخص (AR)**: <summary.ar>ملاحظات سياسة النشر
- انشر النسختين الإنجليزية والعربية ضمن نفس نافذة الإصدار.
- اذكر `benchmark_suite` بشكل واضح لتمييز جيل القياسات.
- عند تغيير المنهجية، أنشئ اسم مجموعة جديد (مثل `saudi-arabic-v2`) بدل خلط أرقام من مجموعات مختلفة.