Artificial Intelligence

رونمایی GPT-5.4 در میانه طوفان اعتراضات؛ تمرکز بر کاربران سازمانی

اوپن‌ای‌آی در بحبوحه بحران اعتبار عمومی ناشی از قرارداد بحث‌برانگیز با پنتاگون، از مدل جدید GPT-5.4 رونمایی کرد. این مدل با پنجره متنی یک میلیون توکنی و قابلیت‌های استدلالی و عامل‌محور تقویت‌شده، بیشترین سود را برای کسب‌وکارها و کاربران سازمانی به ارمغان می‌آورد. با این حال، بهبودهای آن برای کاربران عادی و توسعه‌دهندگان ممکن است چندان چشمگیر نباشد.

نکات کلیدی

– اوپن‌ای‌آی مدل GPT-5.4 را تنها دو روز پس از معرفی GPT-5.3 و در اوج بحران اعتراضات عمومی «کوییت‌جی‌پی‌تی» معرفی کرد.
– این مدل جدید دارای پنجره متنی یک میلیون توکنی، قابلیت استدلال قوی‌تر و ویژگی هدایت مدل در حین پردازش است.
– بهبود عملکرد در کارهای دانش‌محور چشمگیر است؛ GPT-5.4 در ۸۳ درصد موارد با متخصصان صنعت رقابت می‌کند یا از آن‌ها پیشی می‌گیرد.
– بزرگ‌ترین بهره‌برداران، کاربران سازمانی و شرکت‌هایی با حجم بالای اسناد هستند که شاهد افزایش سرعت و کاهش ۷۰ درصدی مصرف توکن‌ها بوده‌اند.
– پیشرفت در حوزه کدنویسی نسبت به GPT-5.3 بسیار ناچیز و در حد خطای محاسباتی است.
– دسترسی به مدل به‌صورت تدریجی است و کاربران حرفه‌ای‌تر که از قابلیت «تفکر» استفاده می‌کنند، دیرتر به آن دسترسی پیدا می‌کنند.
– کارایی توکن در این مدل بهبود یافته و می‌تواند همان نتایج را با هزینه‌ای به مراتب کمتر ارائه دهد.

رونمایی در سایه بحران

اوپن‌ای‌آی در شرایطی از مدل GPT-5.4 به عنوان توانمندترین مدل خود رونمایی کرد که با بحران جدی روابط عمومی مواجه است. جنبش موسوم به «کوییت‌جی‌پی‌تی» پس از افشای قرارداد این شرکت با وزارت دفاع آمریکا (پنتاگون) اوج گرفت و بر اساس گزارش‌ها، حدود ۲.۵ میلیون کاربر با لغو اشتراک یا اشتراک‌گذاری دعوت به تحریم در شبکه‌های اجتماعی، علیه شرکت اقدام کرده‌اند.

این قرارداد تنها ساعاتی پس از آن منعقد شد که شرکت آنتروپیک، سازنده کلاد، به دلیل امتناع پنتاگون از درج بندهای صریح منع استفاده در سلاح‌های خودمختار و نظارت انبوه بر شهروندان آمریکایی، از همان قرارداد کنار کشیده بود. سام آلتمن، مدیرعامل اوپن‌ای‌آی، اکنون زیر سوال رفتن خط‌قرمزهای امنیتی اعلام‌شده شرکتش را مدیریت می‌کند و نیازمند بازگرداندن اعتماد کاربران است.

در این شرایط، معرفی GPT-5.4 تنها دو روز پس از عرضه GPT-5.3، حرکتی برای جلب توجه مجدد و ارائه ارزش جدید به ویژه به کاربران سازمانی به نظر می‌رسد. این مدل جدید، قابلیت‌های استدلال، کدنویسی و عامل‌محور (ایجنت) را در یک بسته واحد ادغام کرده است.

مشخصات فنی و بهبودهای عملکردی

ویژگی شاخص GPT-5.4، پنجره متنی یک میلیون توکنی آن است که به کاربران آزادی عمل بیشتری برای مدیریت حجم عظیمی از اطلاعات در یک نشست واحد می‌دهد. یکی از قابلیت‌های جالب توجه، «هدایت در حین پاسخ» است که به کاربر اجازه می‌دهد در حالی که مدل در حال پردازش است، مسیر آن را اصلاح کند.

این ویژگی با جلوگیری از نیاز به دور ریختن تمام توکن‌های تولیدشده قبلی هنگام تشخیص خطا، در زمان و قدرت محاسباتی صرفه‌جویی می‌کند. از نظر معیارهای عملکردی، ارقام امیدوارکننده به نظر می‌رسند. در آزمون GDPval که کار دانش‌محور را در ۴۴ حرفه مختلف می‌سنجد، GPT-5.4 در ۸۳ درصد مقایسه‌ها با متخصصان صنعت برابری می‌کند یا از آن‌ها پیشی می‌گیرد.

این رقم برای مدل GPT-5.2 حدود ۷۰.۹ درصد بود. بزرگ‌ترین جهش در حوزه استفاده از کامپیوتر رخ داده است. در آزمون OSWorld-Verified که توانایی مدل در کار با دسکتاپ از طریق تصاویر و اقدامات صفحه‌کلید/ماوس را اندازه می‌گیرد، نرخ موفقیت GPT-5.4 به ۷۵ درصد رسیده که از خط پایه انسانی (۷۲.۴ درصد) نیز فراتر رفته است.

در حوزه تحقیق عمیق در وب نیز، این مدل ۱۷ واحد درصد نسبت به GPT-5.2 پیشرفت داشته است. اوپن‌ای‌آی ادعا می‌کند GPT-5.4 کارآمدترین مدل استدلالی آن از نظر مصرف توکن است و برای حل مسائل به طور قابل توجهی توکن کمتری نسبت به GPT-5.2 مصرف می‌کند.

کاربران برنده و بازنده

بهبودهای اعلام‌شده برای همه کاربران یکسان نیست و سودمندی آن به شدت به نوع استفاده بستگی دارد. واضح‌ترین برندگان، کاربران سازمانی و شرکت‌هایی هستند که با حجم انبوهی از اسناد سروکار دارند. در یک معیار داخلی مدل‌سازی صفحات گسترده، GPT-5.4 امتیاز ۸۷.۳ درصد را در مقابل ۶۸.۴ درصد GPT-5.۲ کسب کرده است.

شرکت تحقیقات حقوقی هاروی گزارش داده که در ارزیابی BigLaw Bench امتیاز ۹۱ درصد را کسب کرده است. شرکت مین‌ستِی که عامل‌های هوش مصنوعی را در ۳۰ هزار پورتال مالیات بر املاک اجرا می‌کند، نرخ موفقیت ۹۵ درصدی در اولین تلاش و اجرای جلسات «حدود ۳ برابر سریع‌تر با مصرف حدود ۷۰ درصد توکن کمتر» را گزارش داده است.

این استدلال کارایی می‌تواند برای تیم‌های تأمین کسب‌وکارها قانع‌کننده باشد. در مقابل، توسعه‌دهندگان نرم‌افزار باید انتظارات خود را تعدیل کنند. در آزمون SWE-Bench Pro، بهبود از GPT-5.3-Codex (۵۶.۸ درصد) به GPT-5.4 (۵۷.۷ درصد) به سختی قابل توجه است.

برای کاربران عادی که هم‌اکنون از GPT-5.3 استفاده می‌کنند، بسیاری از پیشرفت‌ها ممکن است بیشتر از آن که در نمودارها نشان داده می‌شود، تدریجی به نظر برسد. یک نکته مهم دیگر مربوط به دسترسی است. اگرچه اوپن‌ای‌آی اعلام کرده که GPT-5.4 از امروز در دسترس است، اما دسترسی به آن به صورت تدریجی انجام می‌شود.

برای بسیاری از کاربران، بهترین مدل در حال حاضر همچنان GPT-5.3 است که فقط برای پاسخ‌های فوری قابل استفاده است. کاربرانی که به قابلیت «تفکر» (اصطلاح اوپن‌ای‌آی برای استدلال زنجیره‌ای فکری گسترده در کارهای پیچیده) متکی هستند، کماکان روی GPT-5.2 باقی مانده‌اند. به عبارت دیگر، کاربرانی که بیشترین احتمال را برای به چالش کشیدن مرزهای مدل دارند، آخرین افرادی هستند که به آن دسترسی پیدا می‌کنند.

مشاهده بیشتر

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا