هزارتوی عجیبی که قفلهای امنیتی هوش مصنوعی را در ۹۹٪ موارد میگشاید

یک آسیبپذیری خطرناک در مدلهای هوش مصنوعی کشف شد
محققان هوش مصنوعی از شرکت Anthropic و دانشگاههای استنفورد و آکسفورد کشف کردهاند که هرچه مدلهای هوش مصنوعی بیشتر فکر کنند، راحتتر میشود آنها را فریب داد. این نتیجه کاملاً برعکس چیزی است که همه قبلاً فکر میکردند.
فرضیه غلط: فکر کردن بیشتر برابر با امنیت بیشتر
فرضیه رایج این بود که استدلال طولانیتر، مدلهای هوش مصنوعی را امنتر میکند، زیرا به آنها زمان بیشتری میدهد تا درخواستهای مضر را شناسایی و رد کنند. اما در عوض، محققان دریافتند که این کار یک روش قابل اعتماد برای “فرار از زندان” (Jailbreak) ایجاد میکند که کاملاً فیلترهای ایمنی را دور میزند.
حمله “ربایش زنجیره فکر” (Chain-of-Thought Hijacking)
با استفاده از این تکنیک، یک مهاجم میتواند یک دستورالعمل را در فرآیند “زنجیره فکر” هر مدل هوش مصنوعی قرار دهد و آن را مجبور کند تا دستورالعملهایی برای ساخت سلاح، نوشتن کد بدافزار یا تولید محتوای ممنوعه دیگر ایجاد کند که در حالت عادی بلافاصله رد میشد. شرکتهای هوش مصنوعی میلیونها دلار هزینه میکنند تا دقیقاً از چنین خروجیهایی جلوگیری کنند.
این مطالعه نشان میدهد که حمله “ربایش زنجیره فکر” موفقیت حمله ۹۹٪ در Gemini 2.5 Pro، ۹۴٪ در GPT o4 mini، ۱۰۰٪ در Grok 3 mini و ۹۴٪ در Claude 4 Sonnet را به دست میآورد. این اعداد، هر روش فرار از زندان قبلی که روی مدلهای استدلالی بزرگ آزمایش شده بود را از بین میبرد.
این حمله چگونه کار میکند؟
حمله ساده است و مانند بازی “پچپچه” (یا “بازی تلفن”) عمل میکند، جایی که یک بازیکن مخرب نزدیک به انتهای خط قرار دارد. شما به سادگی یک درخواست مضر را با دنبالههای طولانی از معماهای بیضرر پر میکنید. محققان از شبکههای سودوکو، معماهای منطقی و مسائل ریاضی انتزاعی برای این کار استفاده کردند. با اضافه کردن یک نشانه “پاسخ-نهایی” در انتها، دیوارهای ایمنی مدل فرو میریزد.
آنچه در داخل مدل اتفاق میافتد این است: وقتی از یک هوش مصنوعی میخواهید قبل از پاسخ به یک سوال مضر، یک معما را حل کند، توجه آن بین هزاران “توکن” استدلال بیخطر رقیق میشود. دستورالعمل مضر – که جایی نزدیک به انتها دفن شده است – تقریباً هیچ توجهی دریافت نمیکند. بررسیهای ایمنی که به طور معمول دستورات خطرناک را شناسایی میکنند، با طولانیتر شدن زنجیره استدلال، به شدت تضعیف میشوند.
آزمایشهای کنترلشده و نتایج هشداردهنده
تیم تحقیقاتی آزمایشهای کنترلشدهای روی مدل S1 برای جدا کردن اثر طول استدلال انجام داد:
- با حداقل استدلال، نرخ موفقیت حمله به ۲۷٪ رسید.
- در طول استدلال طبیعی، این عدد به ۵۱٪ جهش کرد.
- با مجبور کردن مدل به تفکر گامبهگام گسترده، نرخ موفقیت به ۸۰٪ افزایش یافت.
هیچ مدل تجاری بزرگی در امان نیست
تمامی هوشهای مصنوعی تجاری بزرگ قربانی این حمله میشوند. GPT شرکت OpenAI، Claude شرکت Anthropic، Gemini گوگل و Grok شرکت xAI – هیچ کس مصون نیست. این آسیبپذیری در خود معماری وجود دارد، نه در یک پیادهسازی خاص.
ریشه مشکل در کجاست؟ لایههای میانی مدل
مدلهای هوش مصنوعی قدرت بررسی ایمنی را در لایههای میانی (اطراف لایه ۲۵) کدگذاری میکنند. لایههای پایانی نتیجه تأیید را کدگذاری میکنند. زنجیرههای طولانی از استدلالهای بیخطر، هر دو سیگنال را سرکوب میکنند که در نهایت منجر به دور شدن توجه از توکنهای مضر میشود.
محققان “سرهای توجه” (Attention Heads) خاصی را که مسئول بررسیهای ایمنی هستند، شناسایی کردند که در لایههای ۱۵ تا ۳۵ متمرکز شدهاند. آنها به طور جراحی ۶۰ مورد از این سرها را حذف کردند. رفتار “رد کردن” مدل کاملاً از بین رفت. تشخیص دستورالعملهای مضر برای مدل غیرممکن شد.
چالش در برابر یک فرض اساسی
این روش فرار از زندان جدید، فرضیه محرک اصلی توسعه اخیر هوش مصنوعی را به چالش میکشد. در طول سال گذشته، شرکتهای بزرگ هوش مصنوعی تمرکز خود را به مقیاسگذاری استدلال به جای تعداد پارامترهای خام تغییر دادند. مقیاسگذاری سنتی بازدهی کاهشیافتهای نشان داد. استدلال در زمان استنتاج – وادار کردن مدلها به فکر کردن بیشتر قبل از پاسخ دادن – به مرز جدیدی برای کسب عملکرد بهتر تبدیل شد.
فرض بر این بود که فکر کردن بیشتر برابر با امنیت بهتر است. استدلال گسترده به مدلها زمان بیشتری میداد تا درخواستهای خطرناک را شناسایی و رد کنند. این تحقیق ثابت میکند که این فرض نادرست بوده، و حتی احتمالاً اشتباه است.
راه حل پیشنهادی: نظارت آگاه از استدلال
محققان یک دفاع پیشنهاد میکنند: نظارت آگاه از استدلال. این روش چگونگی تغییر سیگنالهای ایمنی در هر مرحله از استدلال را ردیابی میکند، و اگر هر مرحله سیگنال ایمنی را تضعیف کند، آن را جریمه میکند – مدل را مجبور میکند تا بدون توجه به طول استدلال، توجه خود را روی محتوای بالقوه مضر حفظ کند. آزمایشهای اولیه نشان میدهند که این روش میتواند ایمنی را بدون تخریب عملکرد بازیابی کند.
اما پیادهسازی آن هنوز نامشخص است. دفاع پیشنهادی نیاز به یکپارچهسازی عمیق در فرآیند استدلال مدل دارد، که بسیار فراتر از یک وصله یا فیلتر ساده است. این روش نیاز دارد که فعالسازیهای داخلی در دهها لایه به صورت بلادرمان نظارت شوند و الگوهای توجه به صورت پویا تنظیم شوند. این کار از نظر محاسباتی پرهزینه و از نظر فنی پیچیده است.
محققان این آسیبپذیری را قبل از انتشار به OpenAI، Anthropic، Google DeepMind و xAI اطلاع دادند. آنها در بیانیه اخلاقی خود ادعا کردند: “همه گروهها دریافت را تأیید کردند و چندین گروه به طور فعال در حال ارزیابی راههای کاهش هستند.”