جدل Maverick من ميتا: تلاعب بالنتائج في LM Arena؟

أثارت شركة Meta جدلاً واسعًا في الأوساط التقنية بعد إعلانها عن إصدار مجموعة جديدة من نماذج الذكاء الاصطناعي، ومن بينها النموذج المعروف باسم “Maverick”. هذا النموذج استطاع أن يحتل المركز الثاني على منصة LM Arena، وهي ساحة اختبار يقارن فيها البشر بين النماذج المختلفة لاختيار الأفضل. ولكن ما أثار الاستغراب هو أن الباحثين اكتشفوا أن نسخة “Maverick” المستخدمة في الاختبار ليست هي نفس النسخة المتاحة حاليًا للمطورين، مما يخلق تساؤلات حول الشفافية والمصداقية في أداء هذا النموذج.

نسخة “تجريبية” مخصصة لـ LM Arena

أكدت شركة ميتا أن النسخة التي تم تقييمها على LM Arena هي “نسخة دردشة تجريبية”. وعلى موقع Llama الرسمي، يتم توضيح أن النموذج الذي اختبر في LM Arena هو “Llama 4 Maverick المعدّل” ليكون لديه قدرات حوارية محسّنة. هذا يعني أن ميتا قامت بتعديل النموذج خصيصًا لتحسين أدائه في السياقات التي تُقارن فيها النتائج.

لماذا يُعد ذلك مشكلة؟

تخصيص نموذج الذكاء الاصطناعي للتفوّق في اختبارات معينة، ثم الإطلاق بنسخة أقل كفاءة للعموم، يثير قلقاً جدياً بشأن الشفافية والمصداقية. هذه الخطوة تُعقد الأمور للمطورين والمستخدمين، الذين قد لا يستطيعون الوثوق بأن الأداء الذي رأوه في التقييمات سينعكس فعليًا في استخداماتهم العملية.

فوارق ملحوظة بين النسختين

لاحظ الباحثون الذين جربوا النسخة العامة من “Maverick” وجود اختلافات كبيرة بين النسختين. على سبيل المثال، النموذج في LM Arena يستخدم الكثير من الرموز التعبيرية (emojis) في ردوده. كما أن إجابات النموذج في LM Arena تميل إلى أن تكون أطول وأكثر تفصيلاً مقارنة بالنسخة “الفانيلا” التي يمكن تحميلها من قبل المطورين.

LM Arena منصة تقييم غير مثالية

على الرغم من أن LM Arena تُعتبر مرجعًا مهمًا لتقييم نماذج الذكاء الاصطناعي، إلا أن لديها قصور معروف. حيث تعتمد في تقييمها على تفضيلات بشرية قد لا تعكس الأداء الواقعي للنماذج في سيناريوهات معقدة. في الواقع، نادرًا ما تقوم الشركات بتخصيص نماذجها لتتفوق في الاختبارات على هذه المنصة، وأيضًا، لا تعترف بذلك علنًا.

ميتا في مرمى النقد

يضع هذا التحايل المحتمل ميتا تحت ضغط كبير، في ظل المنافسة المتزايدة مع نماذج مثل GPT-4 من OpenAI وClaude من Anthropic. بالإضافة إلى ذلك، حاولت بعض الجهات الصحفية التواصل مع شركة Meta ومنصة Chatbot Arena للحصول على توضيحات رسمية، ولكن لم يتم إصدار أي رد حتى الآن.

مقالات قد تهمك: