في تطور لافت ضمن سباق تطوير نماذج الذكاء الاصطناعي، أثارت شركة DeepSeek الصينية جدلًا واسعًا بعد إطلاق الإصدار الأحدث من نموذجها “R1-0528” الذي يُظهر أداءً قويًا في اختبارات البرمجة والرياضيات، وسط شكوك متزايدة حول مصدر البيانات التي استخدمت في تدريبه، والتي يُعتقد أنها قد تكون مشتقة من عائلة نماذج “Gemini” التابعة لشركة Google.
الشكوك جاءت بعد أن نشر سام بيتش، وهو مطور مقيم في ملبورن يعمل على تقييمات الذكاء العاطفي للذكاء الاصطناعي، منشورًا عبر منصة X يدّعي فيه وجود أدلة على أن نموذج DeepSeek الأخير يعتمد على مخرجات من Gemini. وأشار إلى أن النموذج يستخدم تعبيرات وتراكيب لغوية قريبة جدًا من تلك التي تفضلها نسخة Gemini 2.5 Pro.
ورغم أن هذا لا يُعد دليلًا قاطعًا، إلا أن مطورًا آخر يُعرف باسم مستعار، وهو صاحب مشروع تقييم “حرية التعبير” في الذكاء الاصطناعي المسمى SpeechMap، لفت إلى أن “آثار التفكير” التي يولدها نموذج DeepSeek — أي تسلسل الاستدلالات التي يتبعها للوصول إلى استنتاج — تشبه إلى حد كبير تلك الخاصة بـGemini.
وليست هذه المرة الأولى التي تُتهم فيها DeepSeek باستخدام بيانات من نماذج منافسة. ففي ديسمبر الماضي، لاحظ مطورون أن نموذج “V3” الخاص بها كان أحيانًا يُعرّف عن نفسه بأنه “ChatGPT”، وهو ما أثار تكهنات حول استخدام سجلات محادثات من منصة OpenAI في تدريب النموذج. وكانت OpenAI قد صرّحت سابقًا لصحيفة “فاينانشال تايمز” أنها عثرت على مؤشرات تُثبت لجوء DeepSeek إلى تقنية تُعرف باسم “التقطير” (Distillation)، والتي تُستخدم لاستخلاص المعرفة من نماذج أكبر وأكثر تطورًا.
من جهتها، أفادت بلومبرغ أن شركة Microsoft، الشريك المقرب والمستثمر في OpenAI، رصدت في أواخر عام 2024 عملية استخراج بيانات ضخمة من خلال حسابات مطورين في OpenAI، يُعتقد أنها مرتبطة بـDeepSeek. ورغم أن تقنية التقطير شائعة في المجال، إلا أن شروط خدمة OpenAI تمنع استخدام مخرجات نماذجها لتطوير نماذج منافسة.
ويعزو الخبراء صعوبة التحقق من أصل البيانات إلى ما يُعرف بتلوث الإنترنت بمحتوى مولد عبر الذكاء الاصطناعي، حيث تنتشر المقالات الرديئة المصنوعة آليًا، وتغمر الروبوتات منصات مثل Reddit وX، هذا التلوث يعقّد عمليات تنقية بيانات التدريب من المخرجات الآلية، مما يجعل من الصعب الجزم بمصدر البيانات.
وفي هذا السياق، قال ناثان لامبرت، الباحث في معهد AI2 غير الربحي: “لو كنت في موقع DeepSeek، لاستخدمت أفضل النماذج المتاحة لإنتاج كميات كبيرة من البيانات الاصطناعية. لديهم المال، لكنهم يفتقرون إلى وحدات معالجة الرسوميات، لذا الأمر فعليًا يعادل امتلاك قدرة حوسبة إضافية.”
وفي محاولة للحد من استخدام تقنيات التقطير، بدأت شركات الذكاء الاصطناعي باتخاذ تدابير أمنية صارمة. ففي أبريل الماضي، بدأت OpenAI بفرض عملية تحقق من الهوية للمؤسسات التي ترغب في استخدام نماذجها المتقدمة، وتتطلب العملية تقديم بطاقة تعريف صادرة عن جهة حكومية من قائمة دول مدعومة — وهي قائمة لا تشمل الصين.
وفي خطوة مشابهة، بدأت Google مؤخرًا بتلخيص “آثار التفكير” التي تنتجها نماذجها عبر منصة AI Studio، مما يصعّب على الجهات المنافسة استخدام تلك الآثار لتدريب نماذج مقلدة. وفي مايو، أعلنت شركة Anthropic أنها ستتبع نفس النهج لحماية مزاياها التنافسية.
ولا تزال Google تلتزم الصمت حيال هذه المزاعم، في حين أفادت جهات إعلامية أنها تسعى للحصول على تعليق رسمي من الشركة، وسيتم تحديث التفاصيل حال ورود أي رد.
تعليقات