هشدار محققان آکسفورد: چتباتهای هوش مصنوعی در ارائه توصیههای پزشکی خطرناک عمل میکنند

یک مطالعه جدید از دانشگاه آکسفورد نشان میدهد که مدلهای زبانی بزرگ در پاسخ به مشکلات پزشکی شخصی کاربران عملکرد ضعیفی دارند و حتی ممکن است خطرناک باشند. این تحقیق تاکید میکند که هوش مصنوعی هنوز آماده جایگزینی پزشکان نیست و استفاده از آن برای خودتشخیصی میتواند به تشخیصهای نادرست و نادیده گرفتن نیاز به کمک فوری منجر شود.
نکات کلیدی
– مطالعه دانشگاه آکسفورد نشان میدهد چتباتهای هوش مصنوعی در سناریوهای پزشکی شخصی میتوانند خطرناک باشند.
– این مدلها در آزمونهای استاندارد دانش پزشکی نمرات بالایی میگیرند، اما در کمک به کاربران عادی شکست میخورند.
– عملکرد آنها در خودتشخیصی بهتر از روشهای سنتی مانند جستجوی آنلاین یا قضاوت شخصی نیست.
– یک شکاف اطلاعاتی وجود دارد؛ کاربران نمیدانند چه دادهای را باید به هوش مصنوعی بدهند تا پاسخ دقیق بگیرند.
– هوش مصنوعی فاقد مهارتهای ضروری پزشکی مانند گوش دادن فعال، سوالپرسیدن و هدایت مکالمه است.
– محققان میگویند نقش فعلی مناسب برای هوش مصنوعی در پزشکی، "منشی" بودن است، نه "پزشک".
– نیاز به سیستمهای ارزیابی جدیدی است قبل از اینکه این فناوری بهطور ایمن در حوزه سلامت به کار گرفته شود.
شکاف خطرناک بین دانش فنی و کاربرد عملی
هوش مصنوعی و به ویژه مدلهای زبانی بزرگ، با شایستگی در آزمونهای استاندارد پزشکی، خود را به عنوان نسل بعدی تحول در مراقبتهای سلامت معرفی کردهاند. با این حال، پژوهشی تازه از دانشگاه آکسفورد که در نشریه Nature Medicine منتشر شده، پرده از یک واقعیت نگرانکننده برمیدارد. این مطالعه نشان میدهد که این فناوری نه تنها راه درازی تا ایفای نقش یک مشاور پزشکی قابل اعتماد دارد، بلکه در شرایط فعلی میتواند عملاً خطرناک باشد.
تیمهای تحقیقاتی آکسفورد یک شکاف آشکار را در عملکرد مدلهای زبانی بزرگ شناسایی کردند. در حالی که این مدلها از نظر فنی و دانش پایه پزشکی پیشرفته به نظر میرسند، در کمک به کاربران برای حل مشکلات پزشکی شخصی خود به شدت ضعیف عمل میکنند. دکتر ربکا پین، پزشک ارشد این مطالعه، تاکید میکند که با وجود تمام تبلیغات، هوش مصنوعی آماده به عهده گرفتن نقش پزشک نیست.
او هشدار میدهد که بیماران باید آگاه باشند پرسش از یک مدل زبانی بزرگ درباره علائم بیماری میتواند خطرناک باشد. این خطر شامل ارائه تشخیصهای نادرست و شکست در شناسایی موقعیتهایی است که بیمار به کمک فوری پزشکی نیاز دارد. این هشدار بر اساس یافتههای عینی تحقیق ارائه شده است.
جزئیات مطالعه: عملکردی ضعیفتر از جستجوی ساده اینترنت
در این مطالعه، ۱۳۰۰ شرکتکننده از مدلهای هوش مصنوعی شرکتهایی مانند OpenAI، Meta و Cohere برای شناسایی شرایط سلامت استفاده کردند. سناریوهای مختلفی که توسط پزشکان طراحی شده بود، به این سیستمها ارائه شد و از آنها خواسته شد تا راهحل یا اقدام بعدی مناسب را پیشنهاد دهند.
نتیجه بهطور قابل توجهی ناامیدکننده بود. عملکرد این مدلهای پیشرفته در کمک به خودتشخیصی، بهتر از روشهای سنتی مانند جستجوی ساده در اینترنت یا حتی اتکا به قضاوت شخصی نبود. یک مشکل اساسی دیگر نیز آشکار شد: شکاف درک متقابل. کاربران اغلب نمیدانستند که برای دریافت یک توصیه دقیق از هوش مصنوعی، باید چه اطلاعاتی را در اختیار آن بگذارند.
خروجی این سیستمها ترکیبی از توصیههای خوب و بد بود که تشخیص گام بعدی صحیح را برای کاربر دشوار میساخت. این عدم قطعیت و تناقض در پاسخها، ریسک بالایی را برای افرادی که به دنبال راهنمایی پزشکی هستند ایجاد میکند. در چنین شرایطی، احتمال نادیده گرفتن یک بیماری جدی یا اقدام بر اساس توصیهای نادرست به شدت افزایش مییابد.
هنر پزشکی: چیزی فراتر از یادآوری اطلاعات
دکتر پین در توضیح علل این شکاف، به ماهیت پیچیده حرفه پزشکی اشاره میکند. او توضیح میدهد که برای یک پزشک، رسیدن به تشخیص درست بسیار فراتر از به خاطر سپردن و یادآوری صرف اطلاعات است. پزشکی ترکیبی از علم و هنر است. مهارتهایی مانند گوش دادن فعال، کاوش در جزئیات، شفافسازی، بررسی درک بیمار و هدایت مکالمه، اجزای ضروری و غیرقابل جایگزین این فرآیند هستند.
پزشکان بهطور فعال علائم مرتبط را استخراج میکنند، زیرا بیماران اغلب نمیدانند کدام جزئیات اهمیت کلیدی دارند. مطالعه آکسفورد نشان داد که مدلهای زبانی بزرگ هنوز بهطور قابل اعتمادی قادر به مدیریت این تعامل پویا با افراد غیرمتخصص نیستند. هوش مصنوعی فاقد آن درک زمینهای و شهود بالینی است که در سالها تجربه مستقیم با بیمار شکل میگیرد.
نقش آینده: منشی هوشمند، نه پزشک دیجیتال
با وجود این نتایج هشداردهنده، محققان به کلی نقش هوش مصنوعی در حوزه سلامت را رد نمیکنند. آنها معتقدند این فناوری قطعاً میتواند جایگاهی در سیستم پزشکی داشته باشد، اما این جایگاه در حال حاضر باید نقش "منشی" باشد، نه "پزشک". نقطه قوت مدلهای زبانی بزرگ در خلاصهسازی و بازبستهبندی اطلاعاتی است که از قبل به آنها داده شده است.
هم اکنون نیز در برخی کلینیکها از این فناوری برای رونویسی از مشاورهها و تبدیل آن اطلاعات به یک نامه برای متخصص، برگه اطلاعات برای بیمار یا ورودی پرونده پزشکی استفاده میشود. این کاربردهای پشتیبان میتوانند کارایی اداری را افزایش دهند، بدون اینکه مستقیماً در فرآیند تشخیص و تصمیمگیری درمانی مداخله کنند. تمرکز بر این حوزههای کمخطرتر، راهبرد منطقیتری برای ادغام تدریجی هوش مصنوعی محسوب میشود.
نیاز فوری به چارچوبهای ارزیابی جدید
نتیجه اصلی این تیم تحقیقاتی این است که هوش مصنوعی در شکل فعلی برای ارائه مشاوره پزشکی مناسب نیست. اگر قرار است این فناوری در آینده بهطور ایمن و موثر در مراقبتهای سلامت به کار گرفته شود، به سیستمهای ارزیابی کاملاً جدیدی نیاز است. معیارهای کنونی که بر اساس دانش محض طراحی شدهاند، کافی نیستند.
ارزیابیها باید توانایی مدل را در تعامل واقعی با بیماران، درک شرایط پیچیده و ارائه توصیههای عملی و ایمن در سناریوهای نامشخص بسنجند. محققان امیدوارند که مطالعه آنها بتواند جهتگیری توسعه هوش مصنوعی در پزشکی را به سمت درست هدایت کند. هدف نهایی، ایجاد استانداردهایی است که ایمنی بیمار را در اولویت قرار دهد و از هیجان زدگی زودهنگام نسبت به قابلیتهای این فناوری جلوگیری کند.