اجرای مدل هوش مصنوعی متنباز محلی شما آسان است — روش کار به این صورت است

اگر توسعهدهنده نیستید، پس چرا باید یک مدل هوش مصنوعی متنباز را روی کامپیوتر خانگیتان اجرا کنید؟
معلوم میشود دلایل خوب زیادی وجود دارد. و با رایگان و در دسترس بودن مدلهای متنباز که بهتر از همیشه شدهاند – و استفاده از آنها ساده است، با حداقل نیازهای سختافزاری – الان زمان فوقالعادهای برای امتحان کردن آن است.
در اینجا چند دلیل آورده شده که چرا مدلهای متنباز بهتر از پرداخت ۲۰ دلار در ماه برای چتجیپیتی، پِرپلکسیتی یا گوگل هستند:
- رایگان است. هیچ هزینه اشتراکی ندارد.
- دادههای شما روی دستگاه خودتان باقی میماند.
- آفلاین کار میکند، نیازی به اینترنت ندارد.
- میتوانید مدل خود را برای موارد استفاده خاص، مانند نوشتن خلاقانه یا… خب، هر چیزی، آموزش دهید و سفارشی کنید.
مانع ورود از بین رفته است. اکنون برنامههای تخصصی وجود دارند که به کاربران اجازه میدهند با هوش مصنوعی آزمایش کنند بدون تمام دردسرهای نصب جداگانه کتابخانهها، وابستگیها و پلاگینها. تقریباً هر کسی که یک کامپیوتر نسبتاً جدید دارد میتواند این کار را انجام دهد: یک لپتاپ یا دسکتاپ میانرده با ۸ گیگابایت حافظه ویدئویی میتواند مدلهای شگفتانگیزاً قدرتمندی را اجرا کند، و برخی مدلها روی ۶ گیگابایت یا حتی ۴ گیگابایت VRAM نیز اجرا میشوند. و برای اپل، هر چیپ سری M (از چند سال گذشته) قادر به اجرای مدلهای بهینهشده خواهد بود.
نرمافزار رایگان است، راهاندازی آن چند دقیقه طول میکشد، و ترسناکترین قدم – انتخاب اینکه از کدام ابزار استفاده کنید – به یک سؤال ساده خلاصه میشود: آیا ترجیح میدهید دکمهها را کلیک کنید یا دستورات را تایپ کنید؟
الام استودیو در مقابل اولاما
دو پلتفرم بر فضای هوش مصنوعی محلی تسلط دارند، و آنها از زوایای مخالف به مسئله نزدیک میشوند.
LM Studio همه چیز را در یک رابط گرافیکی صیقلخورده میپیچد. شما به سادگی میتوانید برنامه را دانلود کنید، یک کتابخانه مدل داخلی را مرور کنید، برای نصب کلیک کنید و شروع به چت کنید. این تجربه مشابه استفاده از چتجیپیتی است، با این تفاوت که پردازش روی سختافزار شما اتفاق میافتد. کاربران ویندوز، مک و لینوکس تجربه یکسانی را دریافت میکنند. برای تازهواردها، این نقطه شروع واضحی است.
Ollama برای توسعهدهندگان و کاربران حرفهای که در ترمینال زندگی میکنند طراحی شده است. از طریق خط فرمان نصب کنید، مدلها را با یک دستور واحد دریافت کنید و سپس تا میخواهید اسکریپتنویسی یا اتوماسیون انجام دهید. این ابزار سبکوزن، سریع است و بهطور تمیزی در گردشهای کاری برنامهنویسی ادغام میشود.
منحنی یادگیری شیبدارتر است، اما نتیجه آن انعطافپذیری است. همچنین این چیزی است که کاربران حرفهای برای تطبیقپذیری و قابلیت سفارشیسازی انتخاب میکنند.
هر دو ابزار مدلهای پایه یکسانی را با استفاده از موتورهای بهینهسازی یکسان اجرا میکنند. تفاوتهای عملکرد ناچیز است.
راهاندازی LM Studio
به آدرس https://lmstudio.ai/ مراجعه کرده و نصبکننده مربوط به سیستمعامل خود را دانلود کنید. این فایل حدود ۵۴۰ مگابایت حجم دارد. نصبکننده را اجرا کرده و دستورالعملها را دنبال کنید. برنامه را راهاندازی کنید.
نکته ۱: اگر از شما پرسید که چه نوع کاربری هستید، گزینه “توسعهدهنده” را انتخاب کنید. پروفایلهای دیگر صرفاً گزینهها را مخفی میکنند تا کار را آسانتر کنند.
نکته ۲: برنامه ممکن است دانلود OSS، مدل هوش مصنوعی متنباز OpenAI را توصیه کند. در عوض، فعلاً روی “رد کردن” کلیک کنید؛ مدلهای بهتر و کوچکتری وجود دارند که عملکرد بهتری خواهند داشت.
حافظه ویدیویی (VRAM): کلید اجرای هوش مصنوعی محلی
پس از نصب LM Studio، برنامه آماده اجرا خواهد بود و ظاهری شبیه به این خواهد داشت:
اکنون قبل از اینکه مدل زبانی بزرگ شما کار کند، نیاز دارید که یک مدل دانلود کنید. و هرچه مدل قدرتمندتر باشد، به منابع بیشتری نیاز خواهد داشت.
منبع حیاتی در اینجا VRAM یا حافظه ویدیویی روی کارت گرافیک شماست. مدلهای زبانی بزرگ در حین استنتاج (inference) در VRAM بارگذاری میشوند. اگر فضای کافی نداشته باشید، عملکرد افت شدیدی کرده و سیستم مجبور میشود به حافظه رم سیستم که کندتر است متوسل شود. شما باید با داشتن VRAM کافی برای مدلی که میخواهید اجرا کنید، از این اتفاق جلوگیری نمایید.
برای اینکه بدانید چقدر VRAM دارید، میتوانید به مدیریت وظایف ویندوز (control+alt+del) وارد شده و روی تب GPU کلیک کنید، مطمئن شوید که کارت گرافیک اختصاصی را انتخاب کردهاید و نه گرافیک مجتمع روی پردازنده اینتل/AMD شما.
مقدار VRAM خود را در بخش “Dedicated GPU memory” مشاهده خواهید کرد.
در مکهای سری M، کارها سادهتر است زیرا رم و ویرم مشترک هستند. مقدار رم روی دستگاه شما برابر با ویرمی خواهد بود که میتوانید به آن دسترسی داشته باشید.
برای بررسی، روی لوگوی اپل کلیک کنید، سپس روی “About” کلیک کنید. Memory را میبینید؟ این مقدار ویرم شماست.
شما حداقل به 8 گیگابایت ویرم نیاز خواهید داشت. مدلهایی در محدوده 7 تا 9 میلیارد پارامتر، که با استفاده از کوانتیزاسیون 4-بیتی فشرده شدهاند، بهراحتی جای میگیرند و در عین حال عملکرد قوی ارائه میدهند. اگر مدلی کوانتیزه شده باشد، متوجه خواهید شد زیرا توسعهدهندگان معمولاً آن را در نام فاش میکنند. اگر در نام، BF، FP یا GGUF را دیدید، آنگاه شما به یک مدل کوانتیزه شده نگاه میکنید. هرچه عدد پایینتر باشد (مانند FP32، FP16، FP8، FP4)، منابع کمتری مصرف خواهد کرد.
این دقیقاً مقایسه مشابهی نیست، اما کوانتیزاسیون را مانند رزولوشن صفحه نمایش خود در نظر بگیرید. شما همان تصویر را در 8K، 4K، 1080p یا 720p خواهید دید. بدون توجه به رزولوشن قادر به درک همه چیز خواهید بود، اما زوم کردن و سختگیری در جزئیات نشان میدهد که یک تصویر 4K اطلاعات بیشتری نسبت به 720p دارد، اما برای رندر کردن به حافظه و منابع بیشتری نیاز دارد.
اما در حالت ایدهآل، اگر واقعاً جدی هستید، باید یک کارت گرافیک گیمینگ مناسب با 24 گیگابایت VRAM بخرید. جدید بودن یا نبودن آن مهم نیست، و سرعت یا قدرت آن نیز اهمیتی ندارد. در دنیای هوش مصنوعی، VRAM پادشاه است.
هنگامی که فهمیدید چقدر VRAM در دسترس دارید، میتوانید با مراجعه به ماشین حساب VRAM متوجه شوید کدام مدلها را میتوانید اجرا کنید. یا به سادگی با مدلهای کوچکتر با کمتر از 4 میلیارد پارامتر شروع کنید و سپس به مدلهای بزرگتر بروید تا زمانی که کامپیوتر به شما بگوید حافظه کافی ندارید. (بعداً بیشتر در مورد این تکنیک صحبت خواهیم کرد.)
دانلود مدلهایتان
هنگامی که محدودیتهای سختافزار خود را دانستید، وقت آن است که یک مدل دانلود کنید. روی نماد ذرهبین در نوار کناری سمت چپ کلیک کنید و مدل را بر اساس نام جستجو کنید.
Qwen و DeepSeek مدلهای خوبی برای شروع سفر شما هستند. بله، آنها چینی هستند، اما اگر نگران جاسوسی هستید، میتوانید آسوده خاطر باشید. هنگامی که مدل زبانی بزرگ خود را به صورت محلی اجرا میکنید، هیچ چیزی از ماشین شما خارج نمیشود، بنابراین تحت جاسوسی چینیها، دولت ایالات متحده یا هیچ نهاد شرکتی دیگری قرار نخواهید گرفت.
در مورد ویروسها، همه چیزی که ما توصیه میکنیم از طریق Hugging Face ارائه میشود، جایی که نرمافزار بلافاصله از نظر جاسوسافزارها و سایر بدافزارها بررسی میشود. اما به هر حال، بهترین مدل آمریکایی، Llama متعلق به متا است، بنابراین اگر میهنپرست هستید ممکن است بخواهید آن را انتخاب کنید. (ما در بخش پایانی توصیههای دیگری ارائه میدهیم.)
توجه داشته باشید که مدلها بسته به مجموعه داده آموزشی و تکنیکهای تنظیم دقیقی که برای ساخت آنها استفاده شده است، رفتار متفاوتی دارند. علیرغم Grok ایلان ماسک، چیزی به نام مدل بیطرف وجود ندارد، زیرا چیزی به نام اطلاعات بیطرف وجود ندارد. بنابراین بسته به میزان اهمیتای که برای ژئوپلیتیک قائل هستید، انتخاب خود را انجام دهید.
در حال حاضر، هر دو نسخه 3B (مدل کوچکتر و کمقدرتتر) و 7B را دانلود کنید. اگر میتوانید نسخه 7B را اجرا کنید، سپس نسخه 3B را حذف کنید (و سعی کنید نسخه 13B و به همین ترتیب را دانلود و اجرا کنید). اگر نمیتوانید نسخه 7B را اجرا کنید، آن را حذف کرده و از نسخه 3B استفاده کنید.
پس از دانلود، مدل را از بخش “مدلهای من” بارگذاری کنید. رابط چت ظاهر میشود. یک پیام تایپ کنید. مدل پاسخ میدهد. تبریک میگوییم: شما در حال اجرای یک هوش مصنوعی محلی هستید.
دادن دسترسی اینترنت به مدل شما
مدلهای محلی بهصورت پیشفرض نمیتوانند در وب جستجو کنند. آنها بهطور طراحی ایزوله هستند، بنابراین شما بر اساس دانش داخلی آنها با آنها تکرار خواهید کرد. آنها برای نوشتن داستانهای کوتاه، پاسخ به سوالات، انجام برخی کدنویسی و غیره به خوبی کار خواهند کرد. اما آخرین اخبار را به شما نمیدهند، هوا را به شما نمیگویند، ایمیلهای شما را بررسی نمیکنند یا جلسات را برای شما برنامهریزی نمیکنند.
سرورهای پروتکل زمینه مدل این را تغییر میدهند.
سرورهای MCP به عنوان پل بین مدل شما و سرویسهای خارجی عمل میکنند. آیا میخواهید هوش مصنوعی شما در گوگل جستجو کند، مخازن GitHub را بررسی کند یا وبسایتها را بخواند؟ سرورهای MCP این را ممکن میسازند. LM Studio در نسخه 0.3.17 از MCP پشتیبانی کرد که از طریق تب Program قابل دسترسی است. هر سرور ابزارهای خاصی را ارائه میدهد – جستجوی وب، دسترسی به فایل، فراخوانیهای API.
اگر میخواهید به مدلها دسترسی به اینترنت بدهید، راهنمای کامل ما در مورد سرورهای MCP فرآیند راهاندازی را شامل گزینههای محبوب مانند جستجوی وب و دسترسی به پایگاه داده، قدم به قدم توضیح میدهد.
فایل را ذخیره کنید و LM Studio بهطور خودکار سرورها را بارگیری خواهد کرد. هنگامی که با مدل خود چت میکنید، اکنون میتواند این ابزارها را برای بازیابی دادههای زنده فراخوانی کند. هوش مصنوعی محلی شما تازه ابرقدرت به دست آورده است.
مدلهای پیشنهادی ما برای سیستمهای 8 گیگابایتی
صدها مدل LLM به معنای واقعی کلمه برای شما در دسترس است، از گزینههای همهفنحریف گرفته تا مدلهای تنظیمشده طراحیشده برای موارد خاص
بهترین برای کدنویسی: نمترون یا دیپسیک خوب هستند. ممکن است شما را شگفتزده نکنند، اما در تولید و دیباگ کد خوب عمل میکنند و در معیارهای برنامهنویسی عملکرد بهتری نسبت به بیشتر جایگزینها دارند. DeepSeek-Coder-V2 6.7B گزینه مستحکم دیگری ارائه میدهد، بهویژه برای توسعه چندزبانه.
بهترین برای دانش عمومی و استدلال: Qwen3 8B. این مدل قابلیتهای ریاضی قوی دارد و پرسشهای پیچیده را بهطور مؤثر مدیریت میکند. پنجره متن آن اسناد طولانیتر را بدون از دست دادن انسجام در خود جای میدهد.
بهترین برای نوشتن خلاقانه: انواع DeepSeek R1، اما شما به مهندسی پرمپت سنگین نیاز دارید. همچنین فاینتیونهای سانسورنشده مانند نسخه “abliterated-uncensored-NEO-Imatrix” از OpenAI’s GPT-OSS که برای ژانر وحشت خوب است؛ یا Dirty-Muse-Writer که برای اروتیک خوب است (طبق گفتهها) وجود دارند.
بهترین برای چتباتها، نقشآفرینی، داستانهای تعاملی، خدمات مشتری: Mistral 7B (بهویژه Undi95 DPO Mistral 7B) و انواع Llama با پنجرههای متن بزرگ. MythoMax L2 13B ویژگیهای شخصیت را در طول مکالمات طولانی حفظ میکند و لحن را بهطور طبیعی تطبیق میدهد. برای نقشآفرینی NSFW دیگر، گزینههای زیادی وجود دارد. ممکن است بخواهید برخی از مدلهای موجود در این لیست را بررسی کنید.
برای MCP: Jan-v1-4b و Pokee Research 7b مدلهای خوبی هستند اگر میخواهید چیزی جدید را امتحان کنید. DeepSeek R1 گزینه خوب دیگری است.
همه مدلها را میتوان مستقیماً از LM Studio دانلود کرد اگر فقط نام آنها را جستجو کنید.
توجه داشته باشید که چشمانداز مدلهای زبان بزرگ متنباز به سرعت در حال تغییر است. مدلهای جدید هر هفته راهاندازی میشوند که هر یک ادعای بهبود دارند. میتوانید آنها را در LM Studio بررسی کنید، یا در میان مخازن مختلف در Hugging Face بگردید. گزینهها را خودتان آزمایش کنید. مدلهای نامناسب به سرعت به دلیل عبارتبندی awkward، الگوهای تکراری و خطاهای واقعی آشکار میشوند. مدلهای خوب حس متفاوتی دارند. آنها استدلال میکنند. شما را شگفتزده میکنند.
فناوری کار میکند. نرمافزار آماده است. کامپیوتر شما احتمالاً از قبل قدرت کافی را دارد. تنها چیزی که باقی مانده امتحان کردن آن است.