Artificial Intelligence

سقوط یک معیار: چرا اپن‌ای‌ای اعلام کرد SWE-bench Verified دیگر معتبر نیست؟

اپن‌ای‌ای در اقدامی قابل توجه، معیار اصلی سنجش توانایی کدنویسی هوش مصنوعی به نام SWE-bench Verified را فاقد اعتبار اعلام کرده است. این شرکت ادعا می‌کند که این معیار به دلیل آلودگی داده‌های آموزشی و طراحی معیوب تکالیف، دیگر نمی‌تواند توانایی واقعی مدل‌ها در نوشتن نرم‌افزار را بسنجد. در نتیجه، نمرات مدل‌های پیشرو که قبلاً حدود ۷۰٪ بود، در معیار جدید پیشنهادی به حدود ۲۳٪ سقوط کرده است.

نکات کلیدی

– اپن‌ای‌ای به طور رسمی اعلام کرد معیار SWE-bench Verified به دلیل آلودگی داده‌ها و تکالیف معیوب، دیگر معتبر نیست.
– بررسی‌ها نشان داد حدود ۶۰٪ از تکالیفی که مدل‌ها در آن شکست می‌خوردند، خودِ تکالیف مشکل ساختاری داشتند.
– مدل‌های پیشرو مانند GPT، کلود و جیمینی پاسخ برخی سوالات را از قبل در داده‌های آموزشی دیده بودند و واقعاً مسئله را حل نکرده بودند.
– نمرات مدل‌ها در معیار جدید و سخت‌تر به نام SWE-bench Pro به شدت سقوط کرده و به حدود ۲۳٪ رسیده است.
– این اقدام بحث‌برانگیز، رقابت و ادعاهای اخیر تمام آزمایشگاه‌های بزرگ هوش مصنوعی در حوزه کدنویسی را زیر سؤال می‌برد.
– اپن‌ای‌ای در حال توسعه ارزیابی‌های خصوصی و دست‌نویس توسط متخصصان انسانی است تا از آلودگی داده جلوگیری کند.
– این رویداد نشان‌دهنده چالش همیشگی در ساخت معیارهای ارزیابی است که توسط مدل‌ها «حفظ» نشوند.

پایان یک معیار طلایی

برای ماه‌ها، SWE-bench Verified به عنوان معیار طلایی و اصلی برای سنجش توانایی کدنویسی مدل‌های هوش مصنوعی شناخته می‌شد. این معیار که در آگوست ۲۰۲۴ توسط اپن‌ای‌ای به عنوان نسخه‌ای پاک‌سازی‌شده از معیار اصلی ۲۰۲۳ معرفی شد، با کمک ۹۳ مهندس نرم‌افزار طراحی شده بود. هدف، ارائه تکالیفی واقعی از پروژه‌های متن‌باز پایتون در گیت‌هاب بود تا مدل‌ها با دریافت یک issue، بتوانند patch اصلاحی را بدون دیدن تست‌ها ارائه دهند.

این معیار به سرعت به استاندارد صنعت تبدیل شد. زمانی که آنتروپیک مدل Claude Opus 4 را در می ۲۰۲۵ معرفی کرد، نمره ۷۲.۵٪ آن در این معیار، خبرساز شد و از GPT-4.1 و Gemini 2.5 Pro پیشی گرفت. از آن پس، تقریباً تمام آزمایشگاه‌های بزرگ هوش مصنوعی از آمریکا تا چین، برای ادعای برتری در کدنویسی، به نمرات خود در SWE-bench Verified استناد می‌کردند. این معیار، متر و معیار پیشرفت بود.

کشف یک توهم بزرگ

اما حالا اپن‌ای‌ای اعلام می‌کند که این رقابت تا حدی یک سراب بوده است. تیم این شرکت با بررسی ۱۳۸ تکلیفی که مدل GPT-5.2 به طور مداوم در آن‌ها شکست خورده بود، به نتیجه تکان‌دهنده‌ای رسید. پس از بازبینی هر تکلیف توسط شش مهندس، مشخص شد که ۵۹.۴٪ از این تکالیف اساساً «معیوب» هستند.

بخش بزرگی از مشکلات ساختاری است. حدود ۳۵.۵٪ از تکالیف، تست‌هایی دارند که آن‌قدر محدود نوشته شده‌اند که نیازمند استفاده از یک نام تابع خاص هستند، در حالی که این نام هرگز در توضیحات مسئله ذکر نشده است. در ۱۸.۸٪ دیگر، تست‌ها ویژگی‌هایی را بررسی می‌کنند که اصلاً بخشی از مسئله اصلی نبوده و از pull requestهای نامرتبط جمع‌آوری شده‌اند. به عبارت ساده، بسیاری از مسائل از پایگاه غلط طراحی شده بودند.

مشکل آلودگی داده‌های آموزشی

اما مشکل بزرگ‌تر، مسئله «آلودگی» داده‌های آموزشی است. SWE-bench مسائل خود را از مخازن متن‌بازی می‌گیرد که شرکت‌های هوش مصنوعی معمولاً آن‌ها را برای ساخت مجموعه‌های آموزشی خود crawl می‌کنند. اپن‌ای‌ای آزمایش کرد که آیا مدل‌های پیشرو مانند GPT-5.2، Claude Opus 4.5 و Gemini 3 Flash Preview پاسخ‌های این معیار را در طول آموزش دیده‌اند یا خیر. پاسخ مثبت بود.

در آزمایشی جالب، به هر مدل فقط یک شناسه تکلیف و یک اشاره کوتاه داده شد. هر سه مدل توانستند دقیقاً همان کد اصلاحی موجود در مجموعه داده را از حافظه بازتولید کنند، حتی با همان نام متغیرها و کامنت‌های درون خطی که در توضیح مسئله وجود نداشت. در یک مورد خاص، لاگ‌های تفکر زنجیره‌ای GPT-5.2 نشان داد که مدل استدلال می‌کند یک پارامتر خاص «احتمالاً حدود Django 4.1 اضافه شده است»؛ جزئیاتی که فقط در یادداشت‌های انتشار جنگو یافت می‌شود، نه در توضیحات تکلیف. مدل در حال پاسخ دادن به سوالی بود که قبلاً جواب آن را دیده بود.

راه‌حل جدید و سقوط سنگین نمرات

در پاسخ به این بحران اعتبار، اپن‌ای‌ای حالا معیار جدیدی به نام SWE-bench Pro را پیشنهاد می‌کند. این معیار که توسط Scale AI توسعه یافته، از پایگاه‌های کد متنوع‌تر و مجوزهایی استفاده می‌کند که قرار است مواجهه مدل‌ها با داده‌های آموزشی را کاهش دهد. نتایج اولیه، افت عملکردی چشمگیر را نشان می‌دهد.

مدل‌هایی که در معیار قدیمی Verified نمراتی حدود ۷۰٪ کسب می‌کردند، در بخش عمومی SWE-bench Pro به حدود ۲۳٪ سقوط کرده‌اند. عملکرد آن‌ها در تکالیف خصوصی این معیار جدید حتی کمتر است. این کاهش شدید نمره، به وضوح نشان می‌دهد که بخشی از موفقیت قبلی مدل‌ها ناشی از آشنایی با مسائل بوده، نه لزوماً توانایی استدلال و حل مسئله واقعی.

بازنشانی میدان رقابت در لحظه‌ای حساس

این حرکت اپن‌ای‌ای از جنبه‌ای دیگر نیز قابل تأمل است. در حال حاضر، اپن‌ای‌ای در جدول رهبری عمومی SWE-bench Verified در جایگاه بالایی قرار ندارد. بازنشانی کردن معیاری که در آن عقب هستید و تأیید معیاری که همه رقبا در آن از سطح ۲۳٪ شروع می‌کنند، در واقع تابلو امتیازات را در لحظه‌ای مناسب صفر می‌کند و از جلوه ادعاهای رقبای قبلی می‌کاهد.

این موضوع به ویژه با توجه به شایعات قریب‌الوقوع بودن انتشار نسخه جدید DeepSeek اهمیت دوچندان پیدا می‌کند. گفته می‌شود این مدل متن‌باز و رایگان ممکن است در وظایف عاملی و کدنویسی به مدل‌های آمریکایی برسد یا حتی از آن‌ها پیشی بگیرد. در این صورت، SWE-bench Verified می‌توانست معیار کلیدی برای اثبات این برتری باشد. اکنون با بی‌اعتبار شدن این معیار، زمین بازی دوباره تعریف شده است.

جستجوی معیاری که «حفظ» نشود

اپن‌ای‌ای اعلام کرده که در حال ساخت ارزیابی‌های خصوصی است که تکالیف آن‌ها توسط متخصصان حوزه‌های مختلف نوشته و توسط ارزیابان انسانی آموزش‌دیده درجه‌بندی می‌شود. پروژه GDPVal نمونه‌ای از این تلاش‌هاست. هدف، ایجاد تکالیف کاملاً جدیدی است که قبل از آزمایش در دسترس عمق یا مدل‌ها قرار نگیرند تا از آلودگی داده جلوگیری شود.

مشکل معیارهای ارزیابی، مسئله‌ای جدید و محدود به حوزه کدنویسی نیست. آزمایشگاه‌های هوش مصنوعی بارها چرخه‌ای از معیارها را طی کرده‌اند؛ هر معیار تا زمانی مفید است که مدل‌ها روی آن آموزش نبینند یا تا وقتی که محدودیت‌های طراحی آن آشکار نشود. آنچه این مورد را برجسته می‌کند، این است که اپن‌ای‌ای خودش زمانی SWE-bench Verified را تبلیغ و ترویج کرد و اکنون به طور عمومی در حال مستندسازی شکست کامل آن است، حتی با نشان دادن تقلب مدل خودش در این معیار.

این رویداد، چالش بنیادین در اندازه‌گیری هوش واقعی مصنوعی را بیش از پیش نمایان می‌سازد.

مشاهده بیشتر

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا