
حقق نموذج GPT-4.5 من شركة “أوبن إيه آي” إنجازاً مهماً في مجال الذكاء الاصطناعي بعد تجاوزه نسخة محدثة من اختبار تورينغ، الذي يعد من أقدم المعايير المستخدمة لقياس قدرة الآلة على محاكاة التفكير البشري أثناء المحادثات. تم طرح اختبار تورينغ في عام 1950 من قبل العالم آلان تورينغ، ويقوم على إجراء محادثة نصية بين إنسان وآلة دون معرفة المُحاور بهوية الطرفين. إذا فشل المُحاور في التمييز بين الإنسان والآلة بدقة، يعد ذلك دليلاً على قدرة الآلة على “التفكير” أو التفاعل بأسلوب مشابه للبشر.
في دراسة حديثة نُشرت ضمن ورقة بحثية أوليّة، خضع المشاركون لمحادثات مزدوجة مع إنسان ونموذج ذكاء اصطناعي، وطُلب إليهم تحديد أيّ الطرفين هو الإنسان. عندما تم توجيه نموذج GPT-4.5 لتقمّص شخصية محددة، مثل شاب ضليع في الثقافة الرقمية، اعتبره المشاركون “الإنسان” في 73% من الحالات، وهي نسبة تتجاوز بكثير مستوى التخمين العشوائي البالغ 50%.
نموذجان آخران، GPT-4o من شركة “أوبن إيه آي”، وLLaMa 3.1 من شركة “ميتا”، خضعا للتجربة أيضاً إلى جانب النموذج الكلاسيكي ELIZA، الذي طُوّر في ستينيات القرن الماضي، فكانت نتائجهما أقلّ إقناعاً، خصوصاً عند استخدام تعليمات عامة من دون تقمّص شخصية محدّدة، إذ لم تتجاوز نسبة نجاح GPT-4o حاجز الـ 21%، بينما حقّق ELIZA نتيجة مفاجئة بلغت 23%.
يُعزى هذا الأداء غير المتوقع لـ ELIZA إلى أسلوبه القائم على الردود العامة والمفتوحة، والتي بدت للبعض كأنها “حيادية بشرية”، مما أدّى إلى خلط لدى المشاركين، رغم بدائية النموذج.
تؤكد هذه النتائج أن قدرة النماذج اللغوية على تقليد السلوك البشري تتأثر بشكل كبير بنمط التوجيه والتعليمات المسبقة المُعطاة لها، مما يعكس مدى أهمية “التقمص السياقي” في اختبارات المحاكاة. لكنها في الوقت ذاته تُعيد طرح السؤال حول مدى صلاحية اختبار تورينغ كمقياس فعلي لـ”الذكاء”، خاصة في ظل التطور المتسارع للنماذج اللغوية التي أصبحت أكثر براعة في المحاكاة والإقناع من دون أن تمتلك بالضرورة فهماً أو وعياً ذاتياً.
على الرغم من أن اجتياز الاختبار لا يُثبت امتلاك الآلة لوعي حقيقي أو نية مستقلّة، فإن تحقيق هذه النسبة العالية من التمويه يشير إلى اقتراب الذكاء الاصطناعي من أداء أدوار بشرية في مواقف تفاعلية متعددة، وهو ما قد تترتب عليه تأثيرات عميقة على مجالات العمل، والتواصل، والأمن السيبراني، والمجتمع عموماً.