اجرای مدل هوش مصنوعی متنباز محلی خودتان آسان است — روش کار به این صورت است

اگر شما یک توسعهدهنده نیستید، پس چه دلیلی دارد که بخواهید یک مدل هوش مصنوعی متنباز را روی کامپیوتر خانگی خود اجرا کنید؟
معلوم میشود که دلایل خوب زیادی وجود دارد. و با رایگان و در دسترس بودن مدلهای متنباز که بهتر از همیشه شدهاند – و استفاده از آنها ساده است و نیازمندیهای سختافزاری کمی دارد – الان زمان فوقالعادهای برای امتحان کردن آن است.
در اینجا چند دلیل آورده شده است که چرا مدلهای متنباز بهتر از پرداخت ۲۰ دلار در ماه به چتجیپیتی، پِرپلکسیتی یا گوگل هستند:
- این رایگان است. هیچ هزینه اشتراکی وجود ندارد.
- دادههای شما روی دستگاه خودتان باقی میماند.
- آفلاین کار میکند، به اینترنت نیاز ندارد.
- شما میتوانید مدل خود را برای موارد استفاده خاص، مانند نوشتن خلاقانه یا… خب، هر چیزی، آموزش دهید و سفارشی کنید.
مانع ورود از بین رفته است.
اکنون برنامههای تخصصیافتهای وجود دارند که به کاربران اجازه میدهند بدون دردسر نصب کتابخانهها، وابستگیها و افزونهها به صورت مستقل، با هوش مصنوعی آزمایش کنند. تقریباً هر فردی که یک کامپیوتر نسبتاً جدید دارد میتواند این کار را انجام دهد: یک لپتاپ یا دسکتاپ میانرده با ۸ گیگابایت حافظه ویدئویی میتواند مدلهای شگفتانگیزی را اجرا کند و برخی مدلها حتی با ۶ گیگابایت یا ۴ گیگابایت VRAM نیز اجرا میشوند. و برای اپل، هر چیپ سری M (از چند سال گذشته) قادر به اجرای مدلهای بهینهشده خواهد بود.
نرمافزار رایگان است، راهاندازی آن چند دقیقه طول میکشد و ترسناکترین مرحله – انتخاب ابزار مورد استفاده – به یک سؤال ساده خلاصه میشود: آیا دکمه زدن را ترجیح میدهید یا تایپ کردن دستورات؟
مقایسه LM Studio و Ollama
دو پلتفرم بر فضای هوش مصنوعی محلی تسلط دارند و هرکدام از زوایای مخالف به مسئله نزدیک میشوند.
LM Studio همه چیز را در یک رابط گرافیکی صیقلیافته میپیچد. شما به سادگی میتوانید برنامه را دانلود کنید، یک کتابخانه مدل داخلی را مرور کنید، برای نصب کلیک کنید و شروع به چت کنید. این تجربه مشابه استفاده از ChatGPT است، با این تفاوت که پردازش روی سختافزار شما اتفاق میافتد. کاربران ویندوز، مک و لینوکس همه تجربه یکسانی دریافت میکنند. برای تازهواردها، این نقطه شروع واضحی است.
متأسفانه متنی برای ترجمه در درخواست شما ارائه نشده است. تنها کدی مربوط به نمایش یک تصویر وجود دارد که حاوی محتوای متنی قابل ترجمه نیست.
لطفاً متن اصلی مقاله را جهت ترجمه ارسال نمایید.
Ollama هدفش توسعهدهندگان و کاربران حرفهای است که در ترمینال زندگی میکنند. از طریق خط فرمان نصب میشود، مدلها را با یک دستور میکشد و سپس میتوانید تا دلتان میخواهد اسکریپت نویسی یا اتوماسیون انجام دهید. این ابزار سبکوزن، سریع است و به طور تمیزی در گردش کارهای برنامهنویسی ادغام میشود.
منحنی یادگیری آن شیبدارتر است، اما نتیجه آن انعطافپذیری است. همچنین این چیزی است که کاربران حرفهای برای تطبیقپذیری و قابلیت سفارشیسازی انتخاب میکنند.
هر دو ابزار از مدلهای پایه یکسان با استفاده از موتورهای بهینهسازی یکسان اجرا میشوند. تفاوتهای عملکردی ناچیز است.
تنظیم LM Studio
به آدرس [https://lmstudio.ai/](https://lmstudio.ai/) مراجعه کرده و نصبکننده مربوط به سیستمعامل خود را دانلود کنید. حجم فایل حدود ۵۴۰ مگابایت است. نصبکننده را اجرا کرده و دستورالعملها را دنبال کنید. برنامه را راهاندازی کنید.
نکته ۱: اگر از شما پرسید که چه نوع کاربری هستید، گزینه «توسعهدهنده» را انتخاب کنید. پروفایلهای دیگر فقط گزینهها را مخفی میکنند تا کار را آسانتر کنند.
نکته ۲: برنامه ممکن است دانلود OSS، مدل هوش مصنوعی متنباز OpenAI را توصیه کند. در عوض، برای حالا روی «رد کردن» کلیک کنید؛ مدلهای بهتر و کوچکتری وجود دارند که عملکرد بهتری خواهند داشت.
VRAM: کلید اجرای هوش مصنوعی محلی
متأسفانه متنی برای ترجمه ارائه نشده است. لطفاً متن مقاله اصلی را قرار دهید تا ترجمه حرفهای آن به فارسی انجام شود.
پس از نصب LM Studio، برنامه آماده اجرا خواهد بود و به این شکل به نظر میرسد:
اکنون قبل از اینکه مدل زبانی بزرگ (LLM) شما کار کند، نیاز دارید که یک مدل دانلود کنید. و هر چه مدل قدرتمندتر باشد، به منابع بیشتری نیاز خواهد داشت.
منبع حیاتی، VRAM یا حافظه ویدئویی روی کارت گرافیک شماست. مدلهای زبانی بزرگ در حین استنتاج (inference) در VRAM بارگذاری میشوند. اگر فضای کافی نداشته باشید، عملکرد افت شدیدی میکند و سیستم مجبور میشود به حافظه رم سیستم که کندتر است متوسل شود. شما باید با داشتن VRAM کافی برای مدلی که میخواهید اجرا کنید، از این اتفاق جلوگیری نمایید.
برای اینکه بدانید چقدر VRAM دارید، میتوانید وارد Task Manager ویندوز شوید (control+alt+del) و روی تب GPU کلیک کنید، مطمئن شوید که کارت گرافیک اختصاصی (dedicated) را انتخاب کردهاید و نه گرافیک مجتمع (integrated) روی پردازنده اینتل/AMD شما.
مقدار VRAM خود را در بخش “Dedicated GPU memory” مشاهده خواهید کرد.
متنی برای ترجمه ارائه نشده است. لطفاً محتوای مقاله را قرار دهید.
در مکهای سری M، کارها سادهتر است زیرا رم و ویرم مشترک هستند. میزان رم روی دستگاه شما برابر با ویرمی خواهد بود که میتوانید به آن دسترسی داشته باشید.
برای بررسی، روی لوگوی اپل کلیک کنید، سپس روی “About This Mac” کلیک کنید. گزینه Memory را میبینید؟ این مقدار ویرم شماست.
شما حداقل به ۸ گیگابایت حافظه VRAM نیاز خواهید داشت. مدلهای در محدوده ۷ تا ۹ میلیارد پارامتر که با استفاده از فشردهسازی ۴-بیتی (quantization) فشرده شدهاند، بهراحتی در این حافظه جای میگیرند و در عین حال عملکرد قدرتمندی ارائه میدهند. شما میتوانید تشخیص دهید که یک مدل فشردهسازی شده است یا خیر، زیرا توسعهدهندگان معمولاً این اطلاعات را در نام مدل افشا میکنند. اگر در نام مدل، عباراتی مانند BF، FP یا GGUF را مشاهده کردید، یعنی شما در حال بررسی یک مدل فشردهشده هستید. هرچه این عدد کمتر باشد (مانند FP32، FP16، FP8، FP4)، مدل منابع کمتری مصرف خواهد کرد.
این مقایسه کاملاً مشابه نیست، اما کوانتیزیشن را مانند رزولوشن صفحه نمایش خود در نظر بگیرید. شما یک تصویر واحد را با وضوح 8K، 4K، 1080p یا 720p خواهید دید. بدون در نظر گرفتن رزولوشن، قادر به درک کلیت تصویر خواهید بود، اما زوم کردن و دقت در جزئیات نشان میدهد که یک تصویر 4K اطلاعات بیشتری نسبت به 720p دارد، اما برای رندر کردن به حافظه و منابع بیشتری نیاز دارد.
اما در حالت ایدهآل، اگر واقعاً جدی هستید، باید یک کارت گرافیک گیمینگ مناسب با 24 گیگابایت VRAM بخرید. جدید بودن یا نبودن آن مهم نیست و سرعت یا قدرت آن نیز اهمیت ندارد. در دنیای هوش مصنوعی، VRAM پادشاه است.
هنگامی که فهمیدید چقدر VRAM در دسترس دارید، میتوانید با مراجعه به ماشین حساب VRAM متوجه شوید که کدام مدلها را میتوانید اجرا کنید. یا به سادگی، با مدلهای کوچکتر با کمتر از 4 میلیارد پارامتر شروع کنید و سپس به مدلهای بزرگتر بروید تا زمانی که کامپیوتر به شما بگوید حافظه کافی ندارید.
دانلود مدلهای شما
هنگامی که محدودیتهای سختافزار خود را دانستید، وقت آن است که یک مدل را دانلود کنید. روی نماد ذرهبین در نوار کناری سمت چپ کلیک کنید و مدل را بر اساس نام جستجو کنید.
کیون و دیپسیک مدلهای خوبی برای شروع سفر شما هستند. بله، آنها چینی هستند، اما اگر نگران جاسوسی هستید، میتوانید آسوده خاطر باشید. هنگامی که مدل زبانی بزرگ خود را به صورت محلی اجرا میکنید، هیچ چیزی ماشین شما را ترک نمیکند، بنابراین نه توسط چینیها، نه دولت ایالات متحده و نه هیچ نهاد شرکتی دیگر تحت نظر قرار نخواهید گرفت.
در مورد ویروسها، همه آنچه که ما توصیه میکنیم از طریق هگینگ فیس ارائه میشود، جایی که نرمافزار بلافاصله از نظر جاسوسافزارها و سایر بدافزارها بررسی میشود. اما به هر حال، بهترین مدل آمریکایی، لامای متا است، بنابراین اگر میهنپرست هستید ممکن است بخواهید آن را انتخاب کنید. (ما توصیههای دیگری در بخش پایانی ارائه میدهیم.)
توجه داشته باشید که مدلها بسته به مجموعه دادههای آموزشی و تکنیکهای تنظیم دقیق مورد استفاده برای ساخت آنها، متفاوت عمل میکنند. صرف نظر از گراک ایلان ماسک، چیزی به نام مدل بیطرف وجود ندارد زیرا اطلاعات بیطرف وجود ندارد. بنابراین بسته به میزان اهمیت شما به ژئوپلیتیک، مدل مورد نظر خود را انتخاب کنید.
در حال حاضر، هر دو نسخه 3B (مدل کوچکتر با قابلیت کمتر) و 7B را دانلود کنید. اگر میتوانید نسخه 7B را اجرا کنید، سپس نسخه 3B را حذف کنید (و سعی کنید نسخه 13B و غیره را دانلود و اجرا کنید). اگر نمیتوانید نسخه 7B را اجرا کنید، آن را حذف کرده و از نسخه 3B استفاده کنید.
پس از دانلود، مدل را از بخش مدلهای من بارگذاری کنید. رابط چت ظاهر میشود. یک پیام تایپ کنید. مدل پاسخ میدهد. تبریک میگوییم: شما در حال اجرای یک هوش مصنوعی محلی هستید.
دسترسی به اینترنت برای مدل شما
مدلهای محلی بهصورت پیشفرض نمیتوانند در اینترنت جستوجو کنند. آنها بهصورت طراحیشده ایزوله هستند، بنابراین شما بر اساس دانش داخلی آنها با آنها تکرار خواهید کرد. آنها برای نوشتن داستانهای کوتاه، پاسخ به سوالات، انجام برخی کدنویسی و غیره به خوبی کار میکنند. اما آنها آخرین اخبار را به شما نمیدهند، آبوهوا را به شما نمیگویند، ایمیل شما را بررسی نمیکنند یا جلساتی را برای شما برنامهریزی نمیکنند.
سرورهای پروتکل زمینه مدل این را تغییر میدهند.
سرورهای MCP به عنوان پل بین مدل شما و خدمات خارجی عمل میکنند. آیا میخواهید هوش مصنوعی شما در گوگل جستوجو کند، مخازن GitHub را بررسی کند
آیا میخواهید مدلهای هوش مصنوعی شما بتوانند در اینترنت جستجو کنند، فایلها را بخوانند یا وبسایتها را مشاهده کنند؟ سرورهای MCP این امکان را فراهم میکنند. LM Studio در نسخه ۰.۳.۱۷ خود از طریق تب Program از MCP پشتیبانی کرد. هر سرور ابزارهای خاصی را در دسترس قرار میدهد – مانند جستجوی وب، دسترسی به فایل و فراخوانیهای API.
اگر میخواهید به مدلها دسترسی به اینترنت بدهید، راهنمای کامل ما برای سرورهای MCP، فرآیند راهاندازی را شامل گزینههای محبوبی مانند جستجوی وب و دسترسی به پایگاه داده مرحله به مرحله توضیح میدهد.
فایل را ذخیره کنید و LM Studio بهطور خودکار سرورها را بارگیری خواهد کرد. هنگامی که با مدل خود چت میکنید، اکنون میتواند این ابزارها را برای بازیابی دادههای زنده فراخوانی کند. هوش مصنوعی محلی شما اکنون ابرقدرتها را به دست آورده است.
مدلهای پیشنهادی ما برای سیستمهای 8 گیگابایتی
صدها مدل LLM به معنای واقعی کلمه برای شما در دسترس است، از گزینههای همهفنحریف گرفته تا مدلهای دقیق تنظیمشده طراحیشده برای موارد استفاده تخصصی مانند کدنویسی، پزشکی، نقش
بهترین برای کدنویسی: نمترون یا دیپسیک خوب هستند. آنها شما را شگفتزده نمیکنند، اما در تولید و دیباگ کد خوب عمل میکنند و در معیارهای برنامهنویسی عملکرد بهتری نسبت به بیشتر جایگزینها دارند. DeepSeek-Coder-V2 6.7B گزینه مستحکم دیگری ارائه میدهد، بهویژه برای توسعه چندزبانه.
بهترین برای دانش عمومی و استدلال: Qwen3 8B. این مدل قابلیتهای ریاضی قوی دارد و پرسشهای پیچیده را بهطور مؤثر مدیریت میکند. پنجره زمینه آن اسناد طولانیتر را بدون از دست دادن انسجام در خود جای میدهد.
بهترین برای نوشتن خلاقانه: انواع DeepSeek R1، اما شما به مهندسی پرمپت سنگین نیاز دارید. همچنین تنظیمهای دقیق سانسورنشده مانند نسخه “abliterated-uncensored-NEO-Imatrix” از GPT-OSS اوپنآیای که برای ژانر وحشت خوب است؛ یا Dirty-Muse-Writer که برای اروتیک خوب است (به گفته آنها) نیز وجود دارند.
بهترین برای چتباتها، نقشآفرینی،
برای داستانسرایی، خدمات مشتری: Mistral 7B (بهویژه Undi95 DPO Mistral 7B) و انواع مدلهای Llama با پنجرههای متنی بزرگ. MythoMax L2 13B ویژگیهای شخصیت را در گفتوگوهای طولانی حفظ میکند و لحن را بهطور طبیعی تطبیق میدهد. برای نقشآفرینی NSFW دیگر، گزینههای زیادی وجود دارد.
برای MCP: Jan-v1-4b و Pokee Research 7b مدلهای خوبی هستند اگر میخواهید چیز جدیدی را امتحان کنید. DeepSeek R1 گزینه خوب دیگری است.
همه مدلها را میتوان مستقیماً از LM Studio دانلود کرد، فقط کافی است نام آنها را جستجو کنید.
توجه داشته باشید که فضای مدلهای زبانی بزرگ متنباز به سرعت در حال تغییر است. مدلهای جدید هر هفته راهاندازی میشوند که هر یک ادعای بهبود دارند. میتوانید آنها را در LM Studio بررسی کنید یا در مخازن مختلف Hugging Face بگردید. گزینهها را خودتان آزمایش کنید. مدلهای نامناسب بهسرعت با عبارتبندی awkward، الگوهای تکراری و خطاهای واقعی آشکار میشوند. مدلهای خوب حس متفاوتی دارند. آنها استدلال میکنند. شما را شگفتزده میکنند.
فناوری کار میکند. نرمافزار آماده است. کامپیوتر شما احتمالاً قدرت کافی را دارد. تنها کاری که باقی میماند امتحان کردن آن است.
Generally Intelligent
یک سفر هفتگی هوش مصنوعی که توسط Gen، یک مدل هوش مصنوعی تولیدی روایت میشود.