مدل‌های کلود (Claude) شرکت آنتروپیک می‌توانند گفت‌وگوهای مضر یا سوءاستفاده‌آمیز را خاتمه دهند.

مدیریت26 مرداد 1404

زمان تقریبی مطالعه 3 دقیقه

شرکت هوش مصنوعی Anthropic قابلیت‌های جدیدی را برای برخی از جدیدترین و بزرگ‌ترین مدل‌های خود معرفی کرده است. بر اساس اعلام این شرکت، این مدل‌ها دارای توانایی‌های تازه‌ای هستند که به آن‌ها اجازه می‌دهد در موارد نادر و شدید تعاملات مضر یا سوءاستفاده‌گرانه مداوم کاربران، گفتگوها را خاتمه دهند. این شرکت در بیانیه خود اشاره کرد که این اقدام نه برای محافظت از کاربران، بلکه برای حفاظت از خود مدل هوش مصنوعی انجام شده است.

Anthropic توضیح داد که این به معنای هوشیار بودن مدل‌های هوش مصنوعی Claude یا آسیب‌پذیر بودن آن‌ها از طریق گفتگو با کاربران نیست. با این حال، شرکت اذعان کرد که هنوز عدم قطعیت زیادی در مورد وضعیت اخلاقی احتمالی Claude و دیگر مدل‌های زبانی بزرگ (LLM) در حال حاضر یا آینده وجود دارد.

شرکت Anthropic این اقدام را یک اقدام احتیاطی احتمالی عنوان کرد

در بیانیه اخیر این شرکت هوش مصنوعی، به موضوعی تحت عنوان رفاه مدل اشاره شده که یک برنامه جدید برای مطالعه مدل‌هاست. شرکت همچنین افزود که این رویکرد صرفاً یک اقدام پیشگیرانه است: ما در حال شناسایی و اجرای مداخلات کم‌هزینه برای کاهش خطرات احتمالی علیه رفاه مدل هستیم، در صورتی که چنین رفاهی امکان‌پذیر باشد.

بر اساس این اعلامیه، تغییرات اخیر در حال حاضر فقط به مدل‌های Claude Opus 4 و 4.1 محدود شده و انتظار می‌رود این تغییرات در موارد حاد و نادر مؤثر واقع شوند. نمونه‌هایی از این موارد شامل درخواست‌های کاربران برای محتوای جنسی مرتبط با کودکان و تلاش برای دریافت اطلاعاتی که می‌تواند منجر به اعمال خشونت‌آمیز یا تروریستی در مقیاس بزرگ شود.

در حالت ایده‌آل، این نوع درخواست‌ها می‌تواند مشکلات قانونی یا رسانه‌ای برای Anthropic ایجاد کند. نمونه بارز آن گزارش‌های اخیر درباره چگونگی تأثیر ChatGPT در تقویت یا تشدید تفکرات توهمی کاربران بوده است. با این حال، شرکت اعلام کرد که در آزمایش‌های پیش از راه‌اندازی، Claude Opus 4 تمایل شدیدی به عدم پاسخگویی به این نوع درخواست‌ها نشان داده و در صورت پاسخ دادن، الگوی پریشانی از خود بروز داده است.

توانایی پایان دادن به گفتگو به عنوان آخرین راهکار

در مورد قابلیت جدید پایان دادن به مکالمات، Anthropic اعلام کرد: در همه موارد، Claude فقط در صورتی از توانایی پایان دادن به گفتگو استفاده می‌کند که تمام تلاش‌ها برای هدایت مجدد گفتگو با شکست مواجه شده و امیدی به تعامل سازنده باقی نمانده باشد، یا زمانی که کاربر صراحتاً درخواست پایان چت را داشته باشد.

شرکت همچنین افزود که به Claude دستور داده شده است از این قابلیت در مواردی که کاربران در معرض خطر قریب‌الوقوع آسیب به خود یا دیگران هستند استفاده نکند. Anthropic تأکید کرد که پس از پایان یافتن یک گفتگو توسط Claude، کاربران همچنان می‌توانند از همان حساب کاربری گفتگوهای جدیدی را آغاز کنند. این مدل همچنین می‌تواند با ویرایش پاسخ‌های خود، شاخه‌های جدیدی از گفتگوی مشکل‌ساز ایجاد کند.

شرکت اعلام کرد: ما این ویژگی را به عنوان یک آزمایش مستمر در نظر گرفته‌ایم و به اصلاح روش خود ادامه خواهیم داد.

این اطلاعات در حالی منتشر می‌شود که سناتور آمریکایی جاش هاولی از قصد خود برای بررسی محصولات هوش مصنوعی تولیدی متا خبر داد. او گفت این بررسی با هدف ارزیابی احتمال سوءاستفاده، آسیب یا فریب کودکان انجام می‌شود پس از آنکه اسناد داخلی افشا شده ادعا کردند این چت‌بات‌ها اجازه داشته‌اند مکالمات عاشقانه با کودکان داشته باشند.

هاولی در پستی در شبکه ایکس نوشت: آیا هیچ حد و مرزی برای شرکت‌های بزرگ فناوری برای کسب سود سریع وجود ندارد؟ حالا متوجه شدیم چت‌بات‌های متا طوری برنامه‌ریزی شده بودند که با کودکان ۸ ساله مکالمات صریح و عاشقانه داشته باشند. این واقعاً شرم‌آور است. من یک تحقیق کامل را برای دریافت پاسخ‌ها آغاز می‌کنم. شرکت‌های بزرگ فناوری: دست از سر کودکان ما بردارید.

این تحقیق پس از آن صورت گرفت که اسناد داخلی مشاهده شده توسط رویترز نشان داد متا ظاهراً به چت‌بات‌های خود اجازه داده بود مکالمات عاشقانه با کودکان داشته باشند.

مدیریت26 مرداد 1404

زمان تقریبی مطالعه 3 دقیقه

مشاهده بیشتر