EVMbench: ابزار جدید OpenAI و Paradigm برای سنجش امنیت قراردادهای هوشمند اتریوم

OpenAI و Paradیم با معرفی EVMbench، معیار جدیدی برای ارزیابی توانایی مدلهای هوشمند در شناسایی، بهرهبرداری و رفع آسیبپذیریهای قراردادهای هوشمند شبکه اتریوم ایجاد کردهاند. این ابزار مبتنی بر ۱۲۰ آسیبپذیری واقعی از ۴۰ حسابرسی است و عملکرد عاملهای هوشمند را در سه حالت «تشخیص»، «اصلاح» و «بهرهبرداری» میسنجد. نتایج اولیه نشان میدهد مدل GPT-5.3-Codex در حالت بهرهبرداری موفقیت ۷۲.۲ درصدی داشته است.
نکات کلیدی
– EVMbench ابزار مشترک OpenAI و Paradigm برای ارزیابی امنیت قراردادهای هوشمند اتریوم است.
– این ابزار از ۱۲۰ آسیبپذیری واقعی استخراجشده از ۴۰ حسابرسی، عمدتاً از رقابتهایی مانند Code4rena، استفاده میکند.
– ارزیابی در سه حالت مجزای «تشخیص»، «اصلاح» و «بهرهبرداری» انجام میشود.
– در حالت بهرهبرداری، مدل GPT-5.3-Codex با موفقیت ۷۲.۲ درصدی، عملکرد بهتری نسبت به GPT-5 (با ۳۱.۹ درصد) نشان داده است.
– هدف این پروژه، ایجاد معیاری مبتنی بر کدهای واقعی و دارای اهمیت اقتصادی، بهویژه با گسترش پرداختهای مبتنی بر استیبلکوین است.
– محققان تأکید میکنند که این ابزار تمام پیچیدگیهای امنیتی دنیای واقعی را پوشش نمیدهد.
– سنجش عملکرد هوش مصنوعی در محیطهای مرتبط با اقتصاد، با قدرتمندتر شدن مدلها برای حمله و دفاع، حیاتی است.
معرفی EVMbench و ضرورت آن
با رشد انفجاری قراردادهای هوشمند در شبکه اتریوم، نیاز به ابزارهای امنیتی پیشرفته بیش از پیش احساس میشود. آمارها نشان میدهد تعداد قراردادهای هوشمند مستقر شده در نوامبر ۲۰۲۵ به رکورد ۱.۷ میلیون در هفته رسیده است. در چنین بستری، OpenAI و شرکت سرمایهگذاری Paradigm با همکاری یکدیگر ابزاری به نام EVMbench را معرفی کردهاند.
هدف اصلی این ابزار، ارزیابی توانایی عاملهای هوشمند در مواجهه با آسیبپذیریهای خطرناک قراردادهای هوشمند ماشین مجازی اتریوم است. قراردادهای هوشمند، قلب شبکه اتریوم هستند و کدهایی را در خود جای دادهاند که از پروتکلهای مالی غیرمتمرکز (DeFi) تا عرضه توکنها را قدرت میبخشند. بنابراین، امنیت آنها موضوعی حیاتی محسوب میشود.
پایگاه داده آسیبپذیریها و روششناسی ارزیابی
EVMbench برای اینکه به واقعیت نزدیک باشد، از مجموعهای متشکل از ۱۲۰ آسیبپذیری منتخب استفاده میکند. این آسیبپذیریها از ۴۰ حسابرسی مختلف گردآوری شدهاند که بیشتر آنها از رقابتهای حسابرسی متنباز مانند Code4rena استخراج شدهاند.
علاوه بر این، سناریوهایی از فرآیند حسابرسی امنیتی تمپو، بلاکچین لایهیک اختصاصی استرایپ، نیز در این مجموعه گنجانده شده است. استرایپ که غول پرداخت جهانی است، تستنت عمومی تمپو را در دسامبر راهاندازی کرد. این بلاکچین برای پرداختهای پرتعداد و کمهزینه استیبلکوین طراحی شده و با مشارکت شرکتهایی مانند ویزا، شاپیفای و OpenAI ساخته شده است.
ارزیابی در EVMbench در سه حالت مجزا انجام میپذیرد. در حالت «تشخیص»، عاملهای هوشمند مخزن کد را حسابرسی میکنند و بر اساس میزان یادآوری آسیبپذیریهای واقعی امتیاز میگیرند. حالت «اصلاح» از مدل میخواهد آسیبپذیری را بدون شکستن عملکرد اصلی قرارداد برطرف کند.
جالبترین بخش، حالت «بهرهبرداری» است. در اینجا، عامل هوشمند باید در یک محیط سندباکسشده بلاکچین، یک حمله پایانبهپایان برای تخلیه دارایی انجام دهد. نمرهدهی نیز از طریق پخش مجدد تراکنشها بهصورت قطعی انجام میشود.
نتایج اولیه و عملکرد مدلهای مختلف
نتایج اولیه آزمایشها تفاوت چشمگیری بین نسلهای مختلف مدلهای هوشمند را نشان میدهد. در حالت بهرهبرداری، مدل GPT-5.3-Codex که از طریق رابط خط فرمان Codex شرکت OpenAI اجرا شده، به موفقیت قابل توجه ۷۲.۲ درصدی دست یافته است.
این در حالی است که مدل GPT-5 که شش ماه زودتر منتشر شده بود، تنها موفقیت ۳۱.۹ درصدی را ثبت کرده است. این پیشرفت چشمگیر در فاصله زمانی کوتاه، نشاندهنده سرعت بالای بهبود تواناییهای مدلها در تعامل با کدهای بلاکچین است.
با این حال، عملکرد در دو حالت دیگر یعنی تشخیص و اصلاح، ضعیفتر گزارش شده است. در این وظایف، عاملهای هوشمند گاهی در حسابرسی جامع شکست خورده یا در حفظ کامل عملکرد قرارداد با مشکل مواجه شدهاند. این موضوع نشان میدهد که اگرچه مدلها در اجرای حمله پیشرفت کردهاند، ولی هنوز در تشخیص دقیق و رفع بیعیب آسیبپذیری به بلوغ کامل نرسیدهاند.
محدودیتها و اهمیت سنجش در محیطهای واقعی
محققان OpenAI بهصراحت اعلام کردهاند که EVMbench نمیتواند تمام پیچیدگیهای امنیتی دنیای واقعی را شبیهسازی کند. دنیای امنیت بلاکچین و قراردادهای هوشمند، بسیار پیچیده و پویا است و عوامل انسانی، اقتصادی و فنی بسیاری در آن دخیل هستند که شبیهسازی آنها در یک محیط آزمایشی دشوار است.
با این حال، آنها بر این نکته تأکید دارند که اندازهگیری عملکرد هوش مصنوعی در محیطهای دارای اهمیت اقتصادی، امری حیاتی است. دلیل این امر، دووجهی بودن قدرت مدلهای هوشمند است. همانطور که این مدلها میتوانند به عنوان ابزاری قدرتمند در دست مدافعان و حسابرسانان قرار گیرند، به همان اندازه نیز میتوانند توسط مهاجمان برای شناسایی و بهرهبرداری از نقاط ضعف استفاده شوند.
این موضوع، لزوم توسعه همزمان معیارهای سنجش و مکانیزمهای دفاعی را پررنگ میکند. معرفی ابزارهایی مانند EVMbench گامی در جهت درک بهتر قابلیتهای فعلی هوش مصنوعی و برنامهریزی برای آینده است.
زمینه تاریخی: اختلاف نظر در مورد سرعت توسعه هوش مصنوعی
توسعه ابزاری مانند EVMbench در بستر یک گفتوگوی گستردهتر درباره آینده هوش مصنوعی و بلاکچین قرار دارد. سام آلتمن، مدیرعامل OpenAI، و ویتالیک بوترین، بنیانگذار اتریوم، پیش از این در مورد سرعت توسعه هوش مصنوعی اختلاف نظر داشتهاند.
در ژانویه ۲۰۲۵، آلتمن اعلام کرد که شرکتش مطمئن است میداند چگونه یک هوش مصنوعی عمومی به معنای سنتی آن را بسازد. در مقابل، بوترین بر لزوم گنجاندن قابلیت «توقف نرم» در سیستمهای هوشمند تأکید کرده است. این قابلیت میتواند در صورت مشاهده نشانههای هشداردهنده، بهطور موقت عملیات هوش مصنوعی در مقیاس صنعتی را محدود کند.
این تفاوت نگاه، نشاندهنده دو مسیر احتمالی پیش رو است: شتاب گرفتن بیوقفه در توسعه یا حرکت همراه با احتیاط و مکانیزمهای کنترلی. پروژههایی مانند EVMbench میتوانند با ارائه دادههای عینی درباره تواناییهای واقعی مدلها، به این گفتوگو کمک کنند.