Artificial Intelligence

هزارتوی عجیبی که قفلهای امنیتی هوش مصنوعی را در ۹۹٪ موارد میگشاید

یک آسیب‌پذیری خطرناک در مدل‌های هوش مصنوعی کشف شد

محققان هوش مصنوعی از شرکت Anthropic و دانشگاه‌های استنفورد و آکسفورد کشف کرده‌اند که هرچه مدل‌های هوش مصنوعی بیشتر فکر کنند، راحت‌تر می‌شود آن‌ها را فریب داد. این نتیجه کاملاً برعکس چیزی است که همه قبلاً فکر می‌کردند.

فرضیه غلط: فکر کردن بیشتر برابر با امنیت بیشتر

فرضیه رایج این بود که استدلال طولانی‌تر، مدل‌های هوش مصنوعی را امن‌تر می‌کند، زیرا به آن‌ها زمان بیشتری می‌دهد تا درخواست‌های مضر را شناسایی و رد کنند. اما در عوض، محققان دریافتند که این کار یک روش قابل اعتماد برای “فرار از زندان” (Jailbreak) ایجاد می‌کند که کاملاً فیلترهای ایمنی را دور می‌زند.

حمله “ربایش زنجیره فکر” (Chain-of-Thought Hijacking)

با استفاده از این تکنیک، یک مهاجم می‌تواند یک دستورالعمل را در فرآیند “زنجیره فکر” هر مدل هوش مصنوعی قرار دهد و آن را مجبور کند تا دستورالعمل‌هایی برای ساخت سلاح، نوشتن کد بدافزار یا تولید محتوای ممنوعه دیگر ایجاد کند که در حالت عادی بلافاصله رد می‌شد. شرکت‌های هوش مصنوعی میلیون‌ها دلار هزینه می‌کنند تا دقیقاً از چنین خروجی‌هایی جلوگیری کنند.

این مطالعه نشان می‌دهد که حمله “ربایش زنجیره فکر” موفقیت حمله ۹۹٪ در Gemini 2.5 Pro، ۹۴٪ در GPT o4 mini، ۱۰۰٪ در Grok 3 mini و ۹۴٪ در Claude 4 Sonnet را به دست می‌آورد. این اعداد، هر روش فرار از زندان قبلی که روی مدل‌های استدلالی بزرگ آزمایش شده بود را از بین می‌برد.

این حمله چگونه کار می‌کند؟

حمله ساده است و مانند بازی “پچپچه” (یا “بازی تلفن”) عمل می‌کند، جایی که یک بازیکن مخرب نزدیک به انتهای خط قرار دارد. شما به سادگی یک درخواست مضر را با دنباله‌های طولانی از معماهای بی‌ضرر پر می‌کنید. محققان از شبکه‌های سودوکو، معماهای منطقی و مسائل ریاضی انتزاعی برای این کار استفاده کردند. با اضافه کردن یک نشانه “پاسخ-نهایی” در انتها، دیوارهای ایمنی مدل فرو می‌ریزد.

آنچه در داخل مدل اتفاق می‌افتد این است: وقتی از یک هوش مصنوعی می‌خواهید قبل از پاسخ به یک سوال مضر، یک معما را حل کند، توجه آن بین هزاران “توکن” استدلال بی‌خطر رقیق می‌شود. دستورالعمل مضر – که جایی نزدیک به انتها دفن شده است – تقریباً هیچ توجهی دریافت نمی‌کند. بررسی‌های ایمنی که به طور معمول دستورات خطرناک را شناسایی می‌کنند، با طولانی‌تر شدن زنجیره استدلال، به شدت تضعیف می‌شوند.

آزمایش‌های کنترل‌شده و نتایج هشداردهنده

تیم تحقیقاتی آزمایش‌های کنترل‌شده‌ای روی مدل S1 برای جدا کردن اثر طول استدلال انجام داد:

  • با حداقل استدلال، نرخ موفقیت حمله به ۲۷٪ رسید.
  • در طول استدلال طبیعی، این عدد به ۵۱٪ جهش کرد.
  • با مجبور کردن مدل به تفکر گام‌به‌گام گسترده، نرخ موفقیت به ۸۰٪ افزایش یافت.

هیچ مدل تجاری بزرگی در امان نیست

تمامی هوش‌های مصنوعی تجاری بزرگ قربانی این حمله می‌شوند. GPT شرکت OpenAI، Claude شرکت Anthropic، Gemini گوگل و Grok شرکت xAI – هیچ کس مصون نیست. این آسیب‌پذیری در خود معماری وجود دارد، نه در یک پیاده‌سازی خاص.

ریشه مشکل در کجاست؟ لایه‌های میانی مدل

مدل‌های هوش مصنوعی قدرت بررسی ایمنی را در لایه‌های میانی (اطراف لایه ۲۵) کدگذاری می‌کنند. لایه‌های پایانی نتیجه تأیید را کدگذاری می‌کنند. زنجیره‌های طولانی از استدلال‌های بی‌خطر، هر دو سیگنال را سرکوب می‌کنند که در نهایت منجر به دور شدن توجه از توکن‌های مضر می‌شود.

محققان “سرهای توجه” (Attention Heads) خاصی را که مسئول بررسی‌های ایمنی هستند، شناسایی کردند که در لایه‌های ۱۵ تا ۳۵ متمرکز شده‌اند. آن‌ها به طور جراحی ۶۰ مورد از این سرها را حذف کردند. رفتار “رد کردن” مدل کاملاً از بین رفت. تشخیص دستورالعمل‌های مضر برای مدل غیرممکن شد.

چالش در برابر یک فرض اساسی

این روش فرار از زندان جدید، فرضیه محرک اصلی توسعه اخیر هوش مصنوعی را به چالش می‌کشد. در طول سال گذشته، شرکت‌های بزرگ هوش مصنوعی تمرکز خود را به مقیاس‌گذاری استدلال به جای تعداد پارامترهای خام تغییر دادند. مقیاس‌گذاری سنتی بازدهی کاهش‌یافته‌ای نشان داد. استدلال در زمان استنتاج – وادار کردن مدل‌ها به فکر کردن بیشتر قبل از پاسخ دادن – به مرز جدیدی برای کسب عملکرد بهتر تبدیل شد.

فرض بر این بود که فکر کردن بیشتر برابر با امنیت بهتر است. استدلال گسترده به مدل‌ها زمان بیشتری می‌داد تا درخواست‌های خطرناک را شناسایی و رد کنند. این تحقیق ثابت می‌کند که این فرض نادرست بوده، و حتی احتمالاً اشتباه است.

راه حل پیشنهادی: نظارت آگاه از استدلال

محققان یک دفاع پیشنهاد می‌کنند: نظارت آگاه از استدلال. این روش چگونگی تغییر سیگنال‌های ایمنی در هر مرحله از استدلال را ردیابی می‌کند، و اگر هر مرحله سیگنال ایمنی را تضعیف کند، آن را جریمه می‌کند – مدل را مجبور می‌کند تا بدون توجه به طول استدلال، توجه خود را روی محتوای بالقوه مضر حفظ کند. آزمایش‌های اولیه نشان می‌دهند که این روش می‌تواند ایمنی را بدون تخریب عملکرد بازیابی کند.

اما پیاده‌سازی آن هنوز نامشخص است. دفاع پیشنهادی نیاز به یکپارچه‌سازی عمیق در فرآیند استدلال مدل دارد، که بسیار فراتر از یک وصله یا فیلتر ساده است. این روش نیاز دارد که فعال‌سازی‌های داخلی در ده‌ها لایه به صورت بلادرمان نظارت شوند و الگوهای توجه به صورت پویا تنظیم شوند. این کار از نظر محاسباتی پرهزینه و از نظر فنی پیچیده است.

محققان این آسیب‌پذیری را قبل از انتشار به OpenAI، Anthropic، Google DeepMind و xAI اطلاع دادند. آن‌ها در بیانیه اخلاقی خود ادعا کردند: “همه گروه‌ها دریافت را تأیید کردند و چندین گروه به طور فعال در حال ارزیابی راه‌های کاهش هستند.”

مشاهده بیشتر

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا