Artificial Intelligence

EVMbench: ابزار جدید OpenAI و Paradigm برای سنجش امنیت قراردادهای هوشمند اتریوم

OpenAI و Paradیم با معرفی EVMbench، معیار جدیدی برای ارزیابی توانایی مدل‌های هوشمند در شناسایی، بهره‌برداری و رفع آسیب‌پذیری‌های قراردادهای هوشمند شبکه اتریوم ایجاد کرده‌اند. این ابزار مبتنی بر ۱۲۰ آسیب‌پذیری واقعی از ۴۰ حسابرسی است و عملکرد عامل‌های هوشمند را در سه حالت «تشخیص»، «اصلاح» و «بهره‌برداری» می‌سنجد. نتایج اولیه نشان می‌دهد مدل GPT-5.3-Codex در حالت بهره‌برداری موفقیت ۷۲.۲ درصدی داشته است.

نکات کلیدی

– EVMbench ابزار مشترک OpenAI و Paradigm برای ارزیابی امنیت قراردادهای هوشمند اتریوم است.
– این ابزار از ۱۲۰ آسیب‌پذیری واقعی استخراج‌شده از ۴۰ حسابرسی، عمدتاً از رقابت‌هایی مانند Code4rena، استفاده می‌کند.
– ارزیابی در سه حالت مجزای «تشخیص»، «اصلاح» و «بهره‌برداری» انجام می‌شود.
– در حالت بهره‌برداری، مدل GPT-5.3-Codex با موفقیت ۷۲.۲ درصدی، عملکرد بهتری نسبت به GPT-5 (با ۳۱.۹ درصد) نشان داده است.
– هدف این پروژه، ایجاد معیاری مبتنی بر کدهای واقعی و دارای اهمیت اقتصادی، به‌ویژه با گسترش پرداخت‌های مبتنی بر استیبل‌کوین است.
– محققان تأکید می‌کنند که این ابزار تمام پیچیدگی‌های امنیتی دنیای واقعی را پوشش نمی‌دهد.
– سنجش عملکرد هوش مصنوعی در محیط‌های مرتبط با اقتصاد، با قدرتمندتر شدن مدل‌ها برای حمله و دفاع، حیاتی است.

معرفی EVMbench و ضرورت آن

با رشد انفجاری قراردادهای هوشمند در شبکه اتریوم، نیاز به ابزارهای امنیتی پیشرفته بیش از پیش احساس می‌شود. آمارها نشان می‌دهد تعداد قراردادهای هوشمند مستقر شده در نوامبر ۲۰۲۵ به رکورد ۱.۷ میلیون در هفته رسیده است. در چنین بستری، OpenAI و شرکت سرمایه‌گذاری Paradigm با همکاری یکدیگر ابزاری به نام EVMbench را معرفی کرده‌اند.

هدف اصلی این ابزار، ارزیابی توانایی عامل‌های هوشمند در مواجهه با آسیب‌پذیری‌های خطرناک قراردادهای هوشمند ماشین مجازی اتریوم است. قراردادهای هوشمند، قلب شبکه اتریوم هستند و کدهایی را در خود جای داده‌اند که از پروتکل‌های مالی غیرمتمرکز (DeFi) تا عرضه توکن‌ها را قدرت می‌بخشند. بنابراین، امنیت آن‌ها موضوعی حیاتی محسوب می‌شود.

پایگاه داده آسیب‌پذیری‌ها و روش‌شناسی ارزیابی

EVMbench برای اینکه به واقعیت نزدیک باشد، از مجموعه‌ای متشکل از ۱۲۰ آسیب‌پذیری منتخب استفاده می‌کند. این آسیب‌پذیری‌ها از ۴۰ حسابرسی مختلف گردآوری شده‌اند که بیشتر آن‌ها از رقابت‌های حسابرسی متن‌باز مانند Code4rena استخراج شده‌اند.

علاوه بر این، سناریوهایی از فرآیند حسابرسی امنیتی تمپو، بلاک‌چین لایه‌یک اختصاصی استرایپ، نیز در این مجموعه گنجانده شده است. استرایپ که غول پرداخت جهانی است، تست‌نت عمومی تمپو را در دسامبر راه‌اندازی کرد. این بلاک‌چین برای پرداخت‌های پرتعداد و کم‌هزینه استیبل‌کوین طراحی شده و با مشارکت شرکت‌هایی مانند ویزا، شاپیفای و OpenAI ساخته شده است.

ارزیابی در EVMbench در سه حالت مجزا انجام می‌پذیرد. در حالت «تشخیص»، عامل‌های هوشمند مخزن کد را حسابرسی می‌کنند و بر اساس میزان یادآوری آسیب‌پذیری‌های واقعی امتیاز می‌گیرند. حالت «اصلاح» از مدل می‌خواهد آسیب‌پذیری را بدون شکستن عملکرد اصلی قرارداد برطرف کند.

جالب‌ترین بخش، حالت «بهره‌برداری» است. در اینجا، عامل هوشمند باید در یک محیط سندباکس‌شده بلاک‌چین، یک حمله پایان‌به‌پایان برای تخلیه دارایی انجام دهد. نمره‌دهی نیز از طریق پخش مجدد تراکنش‌ها به‌صورت قطعی انجام می‌شود.

نتایج اولیه و عملکرد مدل‌های مختلف

نتایج اولیه آزمایش‌ها تفاوت چشمگیری بین نسل‌های مختلف مدل‌های هوشمند را نشان می‌دهد. در حالت بهره‌برداری، مدل GPT-5.3-Codex که از طریق رابط خط فرمان Codex شرکت OpenAI اجرا شده، به موفقیت قابل توجه ۷۲.۲ درصدی دست یافته است.

این در حالی است که مدل GPT-5 که شش ماه زودتر منتشر شده بود، تنها موفقیت ۳۱.۹ درصدی را ثبت کرده است. این پیشرفت چشمگیر در فاصله زمانی کوتاه، نشان‌دهنده سرعت بالای بهبود توانایی‌های مدل‌ها در تعامل با کدهای بلاک‌چین است.

با این حال، عملکرد در دو حالت دیگر یعنی تشخیص و اصلاح، ضعیف‌تر گزارش شده است. در این وظایف، عامل‌های هوشمند گاهی در حسابرسی جامع شکست خورده یا در حفظ کامل عملکرد قرارداد با مشکل مواجه شده‌اند. این موضوع نشان می‌دهد که اگرچه مدل‌ها در اجرای حمله پیشرفت کرده‌اند، ولی هنوز در تشخیص دقیق و رفع بی‌عیب آسیب‌پذیری به بلوغ کامل نرسیده‌اند.

محدودیت‌ها و اهمیت سنجش در محیط‌های واقعی

محققان OpenAI به‌صراحت اعلام کرده‌اند که EVMbench نمی‌تواند تمام پیچیدگی‌های امنیتی دنیای واقعی را شبیه‌سازی کند. دنیای امنیت بلاک‌چین و قراردادهای هوشمند، بسیار پیچیده و پویا است و عوامل انسانی، اقتصادی و فنی بسیاری در آن دخیل هستند که شبیه‌سازی آن‌ها در یک محیط آزمایشی دشوار است.

با این حال، آن‌ها بر این نکته تأکید دارند که اندازه‌گیری عملکرد هوش مصنوعی در محیط‌های دارای اهمیت اقتصادی، امری حیاتی است. دلیل این امر، دووجهی بودن قدرت مدل‌های هوشمند است. همان‌طور که این مدل‌ها می‌توانند به عنوان ابزاری قدرتمند در دست مدافعان و حسابرسانان قرار گیرند، به همان اندازه نیز می‌توانند توسط مهاجمان برای شناسایی و بهره‌برداری از نقاط ضعف استفاده شوند.

این موضوع، لزوم توسعه همزمان معیارهای سنجش و مکانیزم‌های دفاعی را پررنگ می‌کند. معرفی ابزارهایی مانند EVMbench گامی در جهت درک بهتر قابلیت‌های فعلی هوش مصنوعی و برنامه‌ریزی برای آینده است.

زمینه تاریخی: اختلاف نظر در مورد سرعت توسعه هوش مصنوعی

توسعه ابزاری مانند EVMbench در بستر یک گفت‌وگوی گسترده‌تر درباره آینده هوش مصنوعی و بلاک‌چین قرار دارد. سام آلتمن، مدیرعامل OpenAI، و ویتالیک بوترین، بنیان‌گذار اتریوم، پیش از این در مورد سرعت توسعه هوش مصنوعی اختلاف نظر داشته‌اند.

در ژانویه ۲۰۲۵، آلتمن اعلام کرد که شرکتش مطمئن است می‌داند چگونه یک هوش مصنوعی عمومی به معنای سنتی آن را بسازد. در مقابل، بوترین بر لزوم گنجاندن قابلیت «توقف نرم» در سیستم‌های هوشمند تأکید کرده است. این قابلیت می‌تواند در صورت مشاهده نشانه‌های هشداردهنده، به‌طور موقت عملیات هوش مصنوعی در مقیاس صنعتی را محدود کند.

این تفاوت نگاه، نشان‌دهنده دو مسیر احتمالی پیش رو است: شتاب گرفتن بی‌وقفه در توسعه یا حرکت همراه با احتیاط و مکانیزم‌های کنترلی. پروژه‌هایی مانند EVMbench می‌توانند با ارائه داده‌های عینی درباره توانایی‌های واقعی مدل‌ها، به این گفت‌وگو کمک کنند.

مشاهده بیشتر

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا