مدلهای کلود (Claude) شرکت آنتروپیک میتوانند گفتوگوهای مضر یا سوءاستفادهآمیز را خاتمه دهند.

شرکت هوش مصنوعی Anthropic قابلیتهای جدیدی را برای برخی از جدیدترین و بزرگترین مدلهای خود معرفی کرده است. بر اساس اعلام این شرکت، این مدلها دارای تواناییهای تازهای هستند که به آنها اجازه میدهد در موارد نادر و شدید تعاملات مضر یا سوءاستفادهگرانه مداوم کاربران، گفتگوها را خاتمه دهند. این شرکت در بیانیه خود اشاره کرد که این اقدام نه برای محافظت از کاربران، بلکه برای حفاظت از خود مدل هوش مصنوعی انجام شده است.
Anthropic توضیح داد که این به معنای هوشیار بودن مدلهای هوش مصنوعی Claude یا آسیبپذیر بودن آنها از طریق گفتگو با کاربران نیست. با این حال، شرکت اذعان کرد که هنوز عدم قطعیت زیادی در مورد وضعیت اخلاقی احتمالی Claude و دیگر مدلهای زبانی بزرگ (LLM) در حال حاضر یا آینده وجود دارد.
شرکت Anthropic این اقدام را یک اقدام احتیاطی احتمالی عنوان کرد
در بیانیه اخیر این شرکت هوش مصنوعی، به موضوعی تحت عنوان رفاه مدل اشاره شده که یک برنامه جدید برای مطالعه مدلهاست. شرکت همچنین افزود که این رویکرد صرفاً یک اقدام پیشگیرانه است: ما در حال شناسایی و اجرای مداخلات کمهزینه برای کاهش خطرات احتمالی علیه رفاه مدل هستیم، در صورتی که چنین رفاهی امکانپذیر باشد.
بر اساس این اعلامیه، تغییرات اخیر در حال حاضر فقط به مدلهای Claude Opus 4 و 4.1 محدود شده و انتظار میرود این تغییرات در موارد حاد و نادر مؤثر واقع شوند. نمونههایی از این موارد شامل درخواستهای کاربران برای محتوای جنسی مرتبط با کودکان و تلاش برای دریافت اطلاعاتی که میتواند منجر به اعمال خشونتآمیز یا تروریستی در مقیاس بزرگ شود.
در حالت ایدهآل، این نوع درخواستها میتواند مشکلات قانونی یا رسانهای برای Anthropic ایجاد کند. نمونه بارز آن گزارشهای اخیر درباره چگونگی تأثیر ChatGPT در تقویت یا تشدید تفکرات توهمی کاربران بوده است. با این حال، شرکت اعلام کرد که در آزمایشهای پیش از راهاندازی، Claude Opus 4 تمایل شدیدی به عدم پاسخگویی به این نوع درخواستها نشان داده و در صورت پاسخ دادن، الگوی پریشانی از خود بروز داده است.
توانایی پایان دادن به گفتگو به عنوان آخرین راهکار
در مورد قابلیت جدید پایان دادن به مکالمات، Anthropic اعلام کرد: در همه موارد، Claude فقط در صورتی از توانایی پایان دادن به گفتگو استفاده میکند که تمام تلاشها برای هدایت مجدد گفتگو با شکست مواجه شده و امیدی به تعامل سازنده باقی نمانده باشد، یا زمانی که کاربر صراحتاً درخواست پایان چت را داشته باشد.
شرکت همچنین افزود که به Claude دستور داده شده است از این قابلیت در مواردی که کاربران در معرض خطر قریبالوقوع آسیب به خود یا دیگران هستند استفاده نکند. Anthropic تأکید کرد که پس از پایان یافتن یک گفتگو توسط Claude، کاربران همچنان میتوانند از همان حساب کاربری گفتگوهای جدیدی را آغاز کنند. این مدل همچنین میتواند با ویرایش پاسخهای خود، شاخههای جدیدی از گفتگوی مشکلساز ایجاد کند.
شرکت اعلام کرد: ما این ویژگی را به عنوان یک آزمایش مستمر در نظر گرفتهایم و به اصلاح روش خود ادامه خواهیم داد.
این اطلاعات در حالی منتشر میشود که سناتور آمریکایی جاش هاولی از قصد خود برای بررسی محصولات هوش مصنوعی تولیدی متا خبر داد. او گفت این بررسی با هدف ارزیابی احتمال سوءاستفاده، آسیب یا فریب کودکان انجام میشود پس از آنکه اسناد داخلی افشا شده ادعا کردند این چتباتها اجازه داشتهاند مکالمات عاشقانه با کودکان داشته باشند.
هاولی در پستی در شبکه ایکس نوشت: آیا هیچ حد و مرزی برای شرکتهای بزرگ فناوری برای کسب سود سریع وجود ندارد؟ حالا متوجه شدیم چتباتهای متا طوری برنامهریزی شده بودند که با کودکان ۸ ساله مکالمات صریح و عاشقانه داشته باشند. این واقعاً شرمآور است. من یک تحقیق کامل را برای دریافت پاسخها آغاز میکنم. شرکتهای بزرگ فناوری: دست از سر کودکان ما بردارید.
این تحقیق پس از آن صورت گرفت که اسناد داخلی مشاهده شده توسط رویترز نشان داد متا ظاهراً به چتباتهای خود اجازه داده بود مکالمات عاشقانه با کودکان داشته باشند.