أوضح ديبندرا ميسرا، الباحث في مختبر أبحاث مايكروسوفت، خلال منتدى أبحاث الشركة في شهر يناير كيف يمكن لتقنية تقليل رتبة الطبقة الانتقائية LASER أن تزيد دقة النماذج اللغوية الكبيرة.
واستطاع الباحثون من خلال استخدام تقنية تقليل رتبة الطبقة الانتقائية التدخل واستبدال مصفوفة وزن كبيرة بمصفوفة وزن صغيرة.
وتعد الأوزان مكونًا هامًا يلعب دورًا أساسيًا في قدرة الشبكات العصبونية الاصطناعية على التعلم وإجراء التنبؤات.
وتشبه الأوزان الموجودة في الشبكات العصبونية الاصطناعية المشابك العصبية الموجودة في الشبكات العصبية البيولوجية.
ويزداد اعتماد النموذج اللغوي الكبير على الوزن كلما كان الوزن كبيرًا. ووفقًا لاختبارات مايكروسوفت، فإن استبدال مصفوفة وزن كبيرة بمصفوفة وزن أخرى صغيرة لا يقلل دقة النموذج اللغوي الكبير.
مقالات ذات صلة
وقال ميسرا: “يتوقع المرء أن ترتفع خسارة النموذج أثناء التدخل باستخدام تقنية تقليل رتبة الطبقة الانتقائية في النموذج اللغوي الكبير، مما يعني أن أداء النموذج اللغوي الكبير قد يتراجع لأننا نقلص معلومات النموذج اللغوي الكبير، الذي تدرب على كميات كبيرة من البيانات”.
وأضاف: “وجدنا أن خسارة النموذج اللغوي الكبير لا ترتفع، بل تنخفض إذا أجرينا النوع الصحيح من التدخل باستخدام تقنية تقليل رتبة الطبقة الانتقائية”.
واستخدم فريق مايكروسوفت تقنية تقليل رتبة الطبقة الانتقائية بنجاح في ثلاثة نماذج لغوية كبيرة مختلفة مفتوحة المصدر، وهي RoBERTa و Llama 2 و GPT-J.
وزاد تحسين النموذج اللغوي الكبير في بعض الأحيان بمقدار 30 نقطة مئوية. وارتفع أداء النموذج اللغوي الكبير المفتوح المصدر GPT-J للتنبؤ بالجنس بناءً على السيرة الذاتية من دقة قدرها 70.9 في المئة إلى دقة قدرها 97.5 في المئة بعد التدخل باستخدام تقنية تقليل رتبة الطبقة الانتقائية.
وترتكب نماذج الذكاء الاصطناعي الكثير من الأخطاء الواقعية، لذا تظل دقة النماذج اللغوية الكبيرة مصدر قلق.
ولا يتعلق الأمر بالخوف من الهلوسة، التي لا تتعلق بفهم الأمور بطريقة خاطئة بقدر ما تتعلق باختلاق الأشياء.
وقد تسبب الهلوسة ونماذج الذكاء الاصطناعي غير الدقيقة ضررًا كبيرًا.
نسخ الرابط تم نسخ الرابط