رونمایی GPT-5.4 در میانه طوفان اعتراضات؛ تمرکز بر کاربران سازمانی

اوپنایآی در بحبوحه بحران اعتبار عمومی ناشی از قرارداد بحثبرانگیز با پنتاگون، از مدل جدید GPT-5.4 رونمایی کرد. این مدل با پنجره متنی یک میلیون توکنی و قابلیتهای استدلالی و عاملمحور تقویتشده، بیشترین سود را برای کسبوکارها و کاربران سازمانی به ارمغان میآورد. با این حال، بهبودهای آن برای کاربران عادی و توسعهدهندگان ممکن است چندان چشمگیر نباشد.
نکات کلیدی
– اوپنایآی مدل GPT-5.4 را تنها دو روز پس از معرفی GPT-5.3 و در اوج بحران اعتراضات عمومی «کوییتجیپیتی» معرفی کرد.
– این مدل جدید دارای پنجره متنی یک میلیون توکنی، قابلیت استدلال قویتر و ویژگی هدایت مدل در حین پردازش است.
– بهبود عملکرد در کارهای دانشمحور چشمگیر است؛ GPT-5.4 در ۸۳ درصد موارد با متخصصان صنعت رقابت میکند یا از آنها پیشی میگیرد.
– بزرگترین بهرهبرداران، کاربران سازمانی و شرکتهایی با حجم بالای اسناد هستند که شاهد افزایش سرعت و کاهش ۷۰ درصدی مصرف توکنها بودهاند.
– پیشرفت در حوزه کدنویسی نسبت به GPT-5.3 بسیار ناچیز و در حد خطای محاسباتی است.
– دسترسی به مدل بهصورت تدریجی است و کاربران حرفهایتر که از قابلیت «تفکر» استفاده میکنند، دیرتر به آن دسترسی پیدا میکنند.
– کارایی توکن در این مدل بهبود یافته و میتواند همان نتایج را با هزینهای به مراتب کمتر ارائه دهد.
رونمایی در سایه بحران
اوپنایآی در شرایطی از مدل GPT-5.4 به عنوان توانمندترین مدل خود رونمایی کرد که با بحران جدی روابط عمومی مواجه است. جنبش موسوم به «کوییتجیپیتی» پس از افشای قرارداد این شرکت با وزارت دفاع آمریکا (پنتاگون) اوج گرفت و بر اساس گزارشها، حدود ۲.۵ میلیون کاربر با لغو اشتراک یا اشتراکگذاری دعوت به تحریم در شبکههای اجتماعی، علیه شرکت اقدام کردهاند.
این قرارداد تنها ساعاتی پس از آن منعقد شد که شرکت آنتروپیک، سازنده کلاد، به دلیل امتناع پنتاگون از درج بندهای صریح منع استفاده در سلاحهای خودمختار و نظارت انبوه بر شهروندان آمریکایی، از همان قرارداد کنار کشیده بود. سام آلتمن، مدیرعامل اوپنایآی، اکنون زیر سوال رفتن خطقرمزهای امنیتی اعلامشده شرکتش را مدیریت میکند و نیازمند بازگرداندن اعتماد کاربران است.
در این شرایط، معرفی GPT-5.4 تنها دو روز پس از عرضه GPT-5.3، حرکتی برای جلب توجه مجدد و ارائه ارزش جدید به ویژه به کاربران سازمانی به نظر میرسد. این مدل جدید، قابلیتهای استدلال، کدنویسی و عاملمحور (ایجنت) را در یک بسته واحد ادغام کرده است.

مشخصات فنی و بهبودهای عملکردی
ویژگی شاخص GPT-5.4، پنجره متنی یک میلیون توکنی آن است که به کاربران آزادی عمل بیشتری برای مدیریت حجم عظیمی از اطلاعات در یک نشست واحد میدهد. یکی از قابلیتهای جالب توجه، «هدایت در حین پاسخ» است که به کاربر اجازه میدهد در حالی که مدل در حال پردازش است، مسیر آن را اصلاح کند.
این ویژگی با جلوگیری از نیاز به دور ریختن تمام توکنهای تولیدشده قبلی هنگام تشخیص خطا، در زمان و قدرت محاسباتی صرفهجویی میکند. از نظر معیارهای عملکردی، ارقام امیدوارکننده به نظر میرسند. در آزمون GDPval که کار دانشمحور را در ۴۴ حرفه مختلف میسنجد، GPT-5.4 در ۸۳ درصد مقایسهها با متخصصان صنعت برابری میکند یا از آنها پیشی میگیرد.
این رقم برای مدل GPT-5.2 حدود ۷۰.۹ درصد بود. بزرگترین جهش در حوزه استفاده از کامپیوتر رخ داده است. در آزمون OSWorld-Verified که توانایی مدل در کار با دسکتاپ از طریق تصاویر و اقدامات صفحهکلید/ماوس را اندازه میگیرد، نرخ موفقیت GPT-5.4 به ۷۵ درصد رسیده که از خط پایه انسانی (۷۲.۴ درصد) نیز فراتر رفته است.
در حوزه تحقیق عمیق در وب نیز، این مدل ۱۷ واحد درصد نسبت به GPT-5.2 پیشرفت داشته است. اوپنایآی ادعا میکند GPT-5.4 کارآمدترین مدل استدلالی آن از نظر مصرف توکن است و برای حل مسائل به طور قابل توجهی توکن کمتری نسبت به GPT-5.2 مصرف میکند.
کاربران برنده و بازنده
بهبودهای اعلامشده برای همه کاربران یکسان نیست و سودمندی آن به شدت به نوع استفاده بستگی دارد. واضحترین برندگان، کاربران سازمانی و شرکتهایی هستند که با حجم انبوهی از اسناد سروکار دارند. در یک معیار داخلی مدلسازی صفحات گسترده، GPT-5.4 امتیاز ۸۷.۳ درصد را در مقابل ۶۸.۴ درصد GPT-5.۲ کسب کرده است.

شرکت تحقیقات حقوقی هاروی گزارش داده که در ارزیابی BigLaw Bench امتیاز ۹۱ درصد را کسب کرده است. شرکت مینستِی که عاملهای هوش مصنوعی را در ۳۰ هزار پورتال مالیات بر املاک اجرا میکند، نرخ موفقیت ۹۵ درصدی در اولین تلاش و اجرای جلسات «حدود ۳ برابر سریعتر با مصرف حدود ۷۰ درصد توکن کمتر» را گزارش داده است.
این استدلال کارایی میتواند برای تیمهای تأمین کسبوکارها قانعکننده باشد. در مقابل، توسعهدهندگان نرمافزار باید انتظارات خود را تعدیل کنند. در آزمون SWE-Bench Pro، بهبود از GPT-5.3-Codex (۵۶.۸ درصد) به GPT-5.4 (۵۷.۷ درصد) به سختی قابل توجه است.
برای کاربران عادی که هماکنون از GPT-5.3 استفاده میکنند، بسیاری از پیشرفتها ممکن است بیشتر از آن که در نمودارها نشان داده میشود، تدریجی به نظر برسد. یک نکته مهم دیگر مربوط به دسترسی است. اگرچه اوپنایآی اعلام کرده که GPT-5.4 از امروز در دسترس است، اما دسترسی به آن به صورت تدریجی انجام میشود.
برای بسیاری از کاربران، بهترین مدل در حال حاضر همچنان GPT-5.3 است که فقط برای پاسخهای فوری قابل استفاده است. کاربرانی که به قابلیت «تفکر» (اصطلاح اوپنایآی برای استدلال زنجیرهای فکری گسترده در کارهای پیچیده) متکی هستند، کماکان روی GPT-5.2 باقی ماندهاند. به عبارت دیگر، کاربرانی که بیشترین احتمال را برای به چالش کشیدن مرزهای مدل دارند، آخرین افرادی هستند که به آن دسترسی پیدا میکنند.