.jpg)
أعلنت نتائج دراسة جديدة تدعم الادعاءات بأن “شركة OpenAI” قامت بتدريب بعض نماذج الذكاء الاصطناعي الخاصة بها في استخدام محتوى محمي بحقوق الطبع والنشر. تواجه الشركة بالفعل دعاوى قضائية رفعها مؤلفون ومبرمجون وأصحاب حقوق آخرون، يتهمون “OpenAI” باستخدام أعمالهم – مثل الكتب وقواعد البيانات البرمجية – لتطوير نماذجها دون إذن.
من جانبها، دافعت “OpenAI” عن نفسها بالاستناد إلى “الاستخدام العادل”، لكن المدعين في هذه القضايا يصرون على أنه لا يوجد استثناء في قانون حقوق الطبع والنشر الأميركي يتيح استخدام بيانات التدريب بهذا الشكل.
أظهرت دراسة شارك فيها باحثون من جامعة واشنطن، وجامعة كوبنهاغن، وجامعة ستانفورد، طريقة جديدة لتحديد البيانات التي “تتذكرها” النماذج المدربة عبر واجهات برمجة التطبيقات، مثل نماذج “OpenAI”. ووفقًا لتقرير موقع “TechCrunch”، تتعلم نماذج الذكاء الاصطناعي الأنماط من خلال تدريبها على كميات ضخمة من البيانات، مما يمكّنها من إنتاج مقالات وصور، من بين أمور أخرى.
على رغم من أن معظم النتائج التي تقدمها النماذج ليست نسخاً حرفية للبيانات التي تم تدريبها عليها، إلا أن بعضها يكون كذلك بشكل غير متعمد نظرًا لطريقة تعلم هذه النماذج. فقد اكتشف الباحثون أن بعض نماذج الصور تكرر لقطات من أفلام تدربت عليها، بينما لاحظوا أن بعض نماذج اللغة تنتحل محتوى من مقالات إخبارية.
اعتمدت الدراسة على تحليل كلمات تُسمى “high-surprisal”، وهي كلمات تظهر على نحو غير متوقع في السياق. فحص الباحثون نماذج “OpenAI“، بما في ذلك “GPT-4” و”GPT-3.5″، بحثاً عن مؤشرات على حفظ أجزاء من النصوص. وإذا تمكنت النماذج من “تخمين” الكلمات المفقودة بدقة، فهذا يعني على الأرجح أنها حفظت النص أثناء تدريبها.
توصل الباحثون إلى أن “GPT-4” أظهر علامات لحفظ أجزاء من كتب خيالية مشهورة وأجزاء من مقالات صحيفة “نيويورك تايمز”، رغم أن المعدلات كانت أقل في المقالات الإخبارية. قالت أبيلاشا رافيشاندر، طالبة الدكتوراه في جامعة واشنطن والمشاركة في الدراسة، لموقع “TechCrunch”، إن النتائج تسلط الضوء على “البيانات المثيرة للجدل” التي ربما تم تدريب النماذج عليها، مشيرة إلى الحاجة الماسة إلى مزيد من الشفافية في البيانات المستخدمة في تدريب النماذج اللغوية.