Artificial Intelligence

اجرای مدل هوش مصنوعی متن‌باز محلی شما آسان است — روش کار به این صورت است

اگر توسعه‌دهنده نیستید، پس چرا باید یک مدل هوش مصنوعی متن‌باز را روی کامپیوتر خانگی‌تان اجرا کنید؟

معلوم می‌شود دلایل خوب زیادی وجود دارد. و با رایگان و در دسترس بودن مدل‌های متن‌باز که بهتر از همیشه شده‌اند – و استفاده از آنها ساده است، با حداقل نیازهای سخت‌افزاری – الان زمان فوق‌العاده‌ای برای امتحان کردن آن است.

در اینجا چند دلیل آورده شده که چرا مدل‌های متن‌باز بهتر از پرداخت ۲۰ دلار در ماه برای چت‌جی‌پی‌تی، پِرپلکسیتی یا گوگل هستند:

  • رایگان است. هیچ هزینه اشتراکی ندارد.
  • داده‌های شما روی دستگاه خودتان باقی می‌ماند.
  • آفلاین کار می‌کند، نیازی به اینترنت ندارد.
  • می‌توانید مدل خود را برای موارد استفاده خاص، مانند نوشتن خلاقانه یا… خب، هر چیزی، آموزش دهید و سفارشی کنید.

مانع ورود از بین رفته است. اکنون برنامه‌های تخصصی وجود دارند که به کاربران اجازه می‌دهند با هوش مصنوعی آزمایش کنند بدون تمام دردسرهای نصب جداگانه کتابخانه‌ها، وابستگی‌ها و پلاگین‌ها. تقریباً هر کسی که یک کامپیوتر نسبتاً جدید دارد می‌تواند این کار را انجام دهد: یک لپ‌تاپ یا دسکتاپ میان‌رده با ۸ گیگابایت حافظه ویدئویی می‌تواند مدل‌های شگفت‌انگیزاً قدرتمندی را اجرا کند، و برخی مدل‌ها روی ۶ گیگابایت یا حتی ۴ گیگابایت VRAM نیز اجرا می‌شوند. و برای اپل، هر چیپ سری M (از چند سال گذشته) قادر به اجرای مدل‌های بهینه‌شده خواهد بود.

نرم‌افزار رایگان است، راه‌اندازی آن چند دقیقه طول می‌کشد، و ترسناک‌ترین قدم – انتخاب اینکه از کدام ابزار استفاده کنید – به یک سؤال ساده خلاصه می‌شود: آیا ترجیح می‌دهید دکمه‌ها را کلیک کنید یا دستورات را تایپ کنید؟

ال‌ام استودیو در مقابل اولاما

دو پلتفرم بر فضای هوش مصنوعی محلی تسلط دارند، و آنها از زوایای مخالف به مسئله نزدیک می‌شوند.

LM Studio همه چیز را در یک رابط گرافیکی صیقل‌خورده می‌پیچد. شما به سادگی می‌توانید برنامه را دانلود کنید، یک کتابخانه مدل داخلی را مرور کنید، برای نصب کلیک کنید و شروع به چت کنید. این تجربه مشابه استفاده از چت‌جی‌پی‌تی است، با این تفاوت که پردازش روی سخت‌افزار شما اتفاق می‌افتد. کاربران ویندوز، مک و لینوکس تجربه یکسانی را دریافت می‌کنند. برای تازه‌واردها، این نقطه شروع واضحی است.

Ollama برای توسعه‌دهندگان و کاربران حرفه‌ای که در ترمینال زندگی می‌کنند طراحی شده است. از طریق خط فرمان نصب کنید، مدل‌ها را با یک دستور واحد دریافت کنید و سپس تا می‌خواهید اسکریپت‌نویسی یا اتوماسیون انجام دهید. این ابزار سبک‌وزن، سریع است و به‌طور تمیزی در گردش‌های کاری برنامه‌نویسی ادغام می‌شود.

منحنی یادگیری شیب‌دارتر است، اما نتیجه آن انعطاف‌پذیری است. همچنین این چیزی است که کاربران حرفه‌ای برای تطبیق‌پذیری و قابلیت سفارشی‌سازی انتخاب می‌کنند.

هر دو ابزار مدل‌های پایه یکسانی را با استفاده از موتورهای بهینه‌سازی یکسان اجرا می‌کنند. تفاوت‌های عملکرد ناچیز است.

راه‌اندازی LM Studio

به آدرس https://lmstudio.ai/ مراجعه کرده و نصب‌کننده مربوط به سیستم‌عامل خود را دانلود کنید. این فایل حدود ۵۴۰ مگابایت حجم دارد. نصب‌کننده را اجرا کرده و دستورالعمل‌ها را دنبال کنید. برنامه را راه‌اندازی کنید.

نکته ۱: اگر از شما پرسید که چه نوع کاربری هستید، گزینه “توسعه‌دهنده” را انتخاب کنید. پروفایل‌های دیگر صرفاً گزینه‌ها را مخفی می‌کنند تا کار را آسان‌تر کنند.

نکته ۲: برنامه ممکن است دانلود OSS، مدل هوش مصنوعی متن‌باز OpenAI را توصیه کند. در عوض، فعلاً روی “رد کردن” کلیک کنید؛ مدل‌های بهتر و کوچک‌تری وجود دارند که عملکرد بهتری خواهند داشت.

حافظه ویدیویی (VRAM): کلید اجرای هوش مصنوعی محلی

پس از نصب LM Studio، برنامه آماده اجرا خواهد بود و ظاهری شبیه به این خواهد داشت:

اکنون قبل از اینکه مدل زبانی بزرگ شما کار کند، نیاز دارید که یک مدل دانلود کنید. و هرچه مدل قدرتمندتر باشد، به منابع بیشتری نیاز خواهد داشت.

منبع حیاتی در اینجا VRAM یا حافظه ویدیویی روی کارت گرافیک شماست. مدل‌های زبانی بزرگ در حین استنتاج (inference) در VRAM بارگذاری می‌شوند. اگر فضای کافی نداشته باشید، عملکرد افت شدیدی کرده و سیستم مجبور می‌شود به حافظه رم سیستم که کندتر است متوسل شود. شما باید با داشتن VRAM کافی برای مدلی که می‌خواهید اجرا کنید، از این اتفاق جلوگیری نمایید.

برای اینکه بدانید چقدر VRAM دارید، می‌توانید به مدیریت وظایف ویندوز (control+alt+del) وارد شده و روی تب GPU کلیک کنید، مطمئن شوید که کارت گرافیک اختصاصی را انتخاب کرده‌اید و نه گرافیک مجتمع روی پردازنده اینتل/AMD شما.

مقدار VRAM خود را در بخش “Dedicated GPU memory” مشاهده خواهید کرد.

در مک‌های سری M، کارها ساده‌تر است زیرا رم و وی‌رم مشترک هستند. مقدار رم روی دستگاه شما برابر با وی‌رمی خواهد بود که می‌توانید به آن دسترسی داشته باشید.

برای بررسی، روی لوگوی اپل کلیک کنید، سپس روی “About” کلیک کنید. Memory را می‌بینید؟ این مقدار وی‌رم شماست.

شما حداقل به 8 گیگابایت وی‌رم نیاز خواهید داشت. مدل‌هایی در محدوده 7 تا 9 میلیارد پارامتر، که با استفاده از کوانتیزاسیون 4-بیتی فشرده شده‌اند، به‌راحتی جای می‌گیرند و در عین حال عملکرد قوی ارائه می‌دهند. اگر مدلی کوانتیزه شده باشد، متوجه خواهید شد زیرا توسعه‌دهندگان معمولاً آن را در نام فاش می‌کنند. اگر در نام، BF، FP یا GGUF را دیدید، آنگاه شما به یک مدل کوانتیزه شده نگاه می‌کنید. هرچه عدد پایین‌تر باشد (مانند FP32، FP16، FP8، FP4)، منابع کمتری مصرف خواهد کرد.

این دقیقاً مقایسه مشابهی نیست، اما کوانتیزاسیون را مانند رزولوشن صفحه نمایش خود در نظر بگیرید. شما همان تصویر را در 8K، 4K، 1080p یا 720p خواهید دید. بدون توجه به رزولوشن قادر به درک همه چیز خواهید بود، اما زوم کردن و سخت‌گیری در جزئیات نشان می‌دهد که یک تصویر 4K اطلاعات بیشتری نسبت به 720p دارد، اما برای رندر کردن به حافظه و منابع بیشتری نیاز دارد.

اما در حالت ایده‌آل، اگر واقعاً جدی هستید، باید یک کارت گرافیک گیمینگ مناسب با 24 گیگابایت VRAM بخرید. جدید بودن یا نبودن آن مهم نیست، و سرعت یا قدرت آن نیز اهمیتی ندارد. در دنیای هوش مصنوعی، VRAM پادشاه است.

هنگامی که فهمیدید چقدر VRAM در دسترس دارید، می‌توانید با مراجعه به ماشین حساب VRAM متوجه شوید کدام مدل‌ها را می‌توانید اجرا کنید. یا به سادگی با مدل‌های کوچکتر با کمتر از 4 میلیارد پارامتر شروع کنید و سپس به مدل‌های بزرگتر بروید تا زمانی که کامپیوتر به شما بگوید حافظه کافی ندارید. (بعداً بیشتر در مورد این تکنیک صحبت خواهیم کرد.)

دانلود مدل‌هایتان

هنگامی که محدودیت‌های سخت‌افزار خود را دانستید، وقت آن است که یک مدل دانلود کنید. روی نماد ذره‌بین در نوار کناری سمت چپ کلیک کنید و مدل را بر اساس نام جستجو کنید.

Qwen و DeepSeek مدل‌های خوبی برای شروع سفر شما هستند. بله، آن‌ها چینی هستند، اما اگر نگران جاسوسی هستید، می‌توانید آسوده خاطر باشید. هنگامی که مدل زبانی بزرگ خود را به صورت محلی اجرا می‌کنید، هیچ چیزی از ماشین شما خارج نمی‌شود، بنابراین تحت جاسوسی چینی‌ها، دولت ایالات متحده یا هیچ نهاد شرکتی دیگری قرار نخواهید گرفت.

در مورد ویروس‌ها، همه چیزی که ما توصیه می‌کنیم از طریق Hugging Face ارائه می‌شود، جایی که نرم‌افزار بلافاصله از نظر جاسوس‌افزارها و سایر بدافزارها بررسی می‌شود. اما به هر حال، بهترین مدل آمریکایی، Llama متعلق به متا است، بنابراین اگر میهن‌پرست هستید ممکن است بخواهید آن را انتخاب کنید. (ما در بخش پایانی توصیه‌های دیگری ارائه می‌دهیم.)

توجه داشته باشید که مدل‌ها بسته به مجموعه داده آموزشی و تکنیک‌های تنظیم دقیقی که برای ساخت آن‌ها استفاده شده است، رفتار متفاوتی دارند. علیرغم Grok ایلان ماسک، چیزی به نام مدل بی‌طرف وجود ندارد، زیرا چیزی به نام اطلاعات بی‌طرف وجود ندارد. بنابراین بسته به میزان اهمیت‌ای که برای ژئوپلیتیک قائل هستید، انتخاب خود را انجام دهید.

در حال حاضر، هر دو نسخه 3B (مدل کوچکتر و کم‌قدرت‌تر) و 7B را دانلود کنید. اگر می‌توانید نسخه 7B را اجرا کنید، سپس نسخه 3B را حذف کنید (و سعی کنید نسخه 13B و به همین ترتیب را دانلود و اجرا کنید). اگر نمی‌توانید نسخه 7B را اجرا کنید، آن را حذف کرده و از نسخه 3B استفاده کنید.

پس از دانلود، مدل را از بخش “مدل‌های من” بارگذاری کنید. رابط چت ظاهر می‌شود. یک پیام تایپ کنید. مدل پاسخ می‌دهد. تبریک می‌گوییم: شما در حال اجرای یک هوش مصنوعی محلی هستید.

دادن دسترسی اینترنت به مدل شما

مدل‌های محلی به‌صورت پیش‌فرض نمی‌توانند در وب جستجو کنند. آن‌ها به‌طور طراحی ایزوله هستند، بنابراین شما بر اساس دانش داخلی آن‌ها با آن‌ها تکرار خواهید کرد. آن‌ها برای نوشتن داستان‌های کوتاه، پاسخ به سوالات، انجام برخی کدنویسی و غیره به خوبی کار خواهند کرد. اما آخرین اخبار را به شما نمی‌دهند، هوا را به شما نمی‌گویند، ایمیل‌های شما را بررسی نمی‌کنند یا جلسات را برای شما برنامه‌ریزی نمی‌کنند.

سرورهای پروتکل زمینه مدل این را تغییر می‌دهند.

سرورهای MCP به عنوان پل بین مدل شما و سرویس‌های خارجی عمل می‌کنند. آیا می‌خواهید هوش مصنوعی شما در گوگل جستجو کند، مخازن GitHub را بررسی کند یا وب‌سایت‌ها را بخواند؟ سرورهای MCP این را ممکن می‌سازند. LM Studio در نسخه 0.3.17 از MCP پشتیبانی کرد که از طریق تب Program قابل دسترسی است. هر سرور ابزارهای خاصی را ارائه می‌دهد – جستجوی وب، دسترسی به فایل، فراخوانی‌های API.

اگر می‌خواهید به مدل‌ها دسترسی به اینترنت بدهید، راهنمای کامل ما در مورد سرورهای MCP فرآیند راه‌اندازی را شامل گزینه‌های محبوب مانند جستجوی وب و دسترسی به پایگاه داده، قدم به قدم توضیح می‌دهد.

فایل را ذخیره کنید و LM Studio به‌طور خودکار سرورها را بارگیری خواهد کرد. هنگامی که با مدل خود چت می‌کنید، اکنون می‌تواند این ابزارها را برای بازیابی داده‌های زنده فراخوانی کند. هوش مصنوعی محلی شما تازه ابرقدرت به دست آورده است.

مدل‌های پیشنهادی ما برای سیستم‌های 8 گیگابایتی

صدها مدل LLM به معنای واقعی کلمه برای شما در دسترس است، از گزینه‌های همه‌فن‌حریف گرفته تا مدل‌های تنظیم‌شده طراحی‌شده برای موارد خاص

بهترین برای کدنویسی: نمترون یا دیپ‌سیک خوب هستند. ممکن است شما را شگفت‌زده نکنند، اما در تولید و دیباگ کد خوب عمل می‌کنند و در معیارهای برنامه‌نویسی عملکرد بهتری نسبت به بیشتر جایگزین‌ها دارند. DeepSeek-Coder-V2 6.7B گزینه مستحکم دیگری ارائه می‌دهد، به‌ویژه برای توسعه چندزبانه.

بهترین برای دانش عمومی و استدلال: Qwen3 8B. این مدل قابلیت‌های ریاضی قوی دارد و پرسش‌های پیچیده را به‌طور مؤثر مدیریت می‌کند. پنجره متن آن اسناد طولانی‌تر را بدون از دست دادن انسجام در خود جای می‌دهد.

بهترین برای نوشتن خلاقانه: انواع DeepSeek R1، اما شما به مهندسی پرمپت سنگین نیاز دارید. همچنین فاین‌تیون‌های سانسورنشده مانند نسخه “abliterated-uncensored-NEO-Imatrix” از OpenAI’s GPT-OSS که برای ژانر وحشت خوب است؛ یا Dirty-Muse-Writer که برای اروتیک خوب است (طبق گفته‌ها) وجود دارند.

بهترین برای چت‌بات‌ها، نقش‌آفرینی، داستان‌های تعاملی، خدمات مشتری: Mistral 7B (به‌ویژه Undi95 DPO Mistral 7B) و انواع Llama با پنجره‌های متن بزرگ. MythoMax L2 13B ویژگی‌های شخصیت را در طول مکالمات طولانی حفظ می‌کند و لحن را به‌طور طبیعی تطبیق می‌دهد. برای نقش‌آفرینی NSFW دیگر، گزینه‌های زیادی وجود دارد. ممکن است بخواهید برخی از مدل‌های موجود در این لیست را بررسی کنید.

برای MCP: Jan-v1-4b و Pokee Research 7b مدل‌های خوبی هستند اگر می‌خواهید چیزی جدید را امتحان کنید. DeepSeek R1 گزینه خوب دیگری است.

همه مدل‌ها را می‌توان مستقیماً از LM Studio دانلود کرد اگر فقط نام آن‌ها را جستجو کنید.

توجه داشته باشید که چشم‌انداز مدل‌های زبان بزرگ متن‌باز به سرعت در حال تغییر است. مدل‌های جدید هر هفته راه‌اندازی می‌شوند که هر یک ادعای بهبود دارند. می‌توانید آن‌ها را در LM Studio بررسی کنید، یا در میان مخازن مختلف در Hugging Face بگردید. گزینه‌ها را خودتان آزمایش کنید. مدل‌های نامناسب به سرعت به دلیل عبارت‌بندی awkward، الگوهای تکراری و خطاهای واقعی آشکار می‌شوند. مدل‌های خوب حس متفاوتی دارند. آن‌ها استدلال می‌کنند. شما را شگفت‌زده می‌کنند.

فناوری کار می‌کند. نرم‌افزار آماده است. کامپیوتر شما احتمالاً از قبل قدرت کافی را دارد. تنها چیزی که باقی مانده امتحان کردن آن است.

مشاهده بیشتر

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا