بنية النموذج

بنية Transformer من نوع decoder-only مخصصة للاستدلال متعدد اللغات في الإنتاج.

تم التخطيط لتاسيلي كعائلة نماذج محسّنة للترميز متعدد اللغات، والتدريب الموزع، ومتطلبات النشر المؤسسي.

  • Transformer decoder-only
  • تدريب GPU موزع
  • دقة مختلطة BF16 / FP16
  • Tokenizer متعدد اللغات

الأحجام المخطط لها

عائلة نماذج تدريجية مع مفاضلات مختلفة للمؤسسات.

Tassili-7B

استدلال مؤسسي فعّال

مخطط له ليقدم تكلفة أقل وسرعة أعلى في أحمال العمل العملية.

Tassili-13B

توازن بين الاستدلال والتكلفة

النسخة الأكثر توازناً للاستدلال متعدد اللغات والكفاءة التشغيلية.

Tassili-34B

استدلال متقدم

مخطط له لفهم أعمق للسياق ولمهام أكثر تعقيداً في التفكير والاستدلال.

استراتيجية التدريب

مسار منظم يبدأ من التدريب المسبق وصولاً إلى التكيّف مع المجالات.

01

التدريب المسبق

  • محتوى متعدد اللغات منقّى بعناية
  • توزيع متوازن بين الفرنسية والعربية والإنجليزية والدارجة
  • إزالة التكرار والفلترة
  • ترجيح البيانات بحسب الجودة

الهدف التقديري: تدريب تدريجي على نطاق متعدد التريليونات من الرموز.

02

الضبط التعليمي

  • حالات استخدام مؤسسية
  • الكتابة الإدارية
  • الأسئلة والأجوبة التقنية
  • الحوار متعدد اللغات
03

المواءمة والسلامة

  • دوائر تغذية راجعة بشرية
  • طبقات الحد من الانحياز
  • ضمانات الإشراف على المحتوى
  • قيود تراعي حساسية المجال
04

طبقة التكيّف مع المجالات

  • Finance DSLM
  • Energy DSLM
  • Legal DSLM
  • Education DSLM
  • Telecom DSLM

استراتيجية الترميز

محسّنة لبنية العربية الصرفية وللنحو الفرنسي.

يستخدم تاسيلي tokenizer متعدد اللغات صُمم لالتقاط التعقيد الصرفي في العربية بشكل أفضل، مع الحفاظ على البنية النحوية للفرنسية والدقة التقنية للإنجليزية.

تم تصميم البنية منذ البداية لدعم الاستدلال متعدد اللغات، والتكيّف مع المجالات، والنشر الإنتاجي.