اجرای مدل هوش مصنوعی متن‌باز محلی خودتان آسان است — روش کار به این صورت است

26 آبان 1404آخرین بروزرسانی: 26 آبان 1404

اگر شما یک توسعه‌دهنده نیستید، پس چه دلیلی دارد که بخواهید یک مدل هوش مصنوعی متن‌باز را روی کامپیوتر خانگی خود اجرا کنید؟

معلوم می‌شود که دلایل خوب زیادی وجود دارد. و با رایگان و در دسترس بودن مدل‌های متن‌باز که بهتر از همیشه شده‌اند – و استفاده از آنها ساده است و نیازمندی‌های سخت‌افزاری کمی دارد – الان زمان فوق‌العاده‌ای برای امتحان کردن آن است.

در اینجا چند دلیل آورده شده است که چرا مدل‌های متن‌باز بهتر از پرداخت ۲۰ دلار در ماه به چت‌جی‌پی‌تی، پِرپلکسیتی یا گوگل هستند:

این رایگان است. هیچ هزینه اشتراکی وجود ندارد.
داده‌های شما روی دستگاه خودتان باقی می‌ماند.
آفلاین کار می‌کند، به اینترنت نیاز ندارد.
شما می‌توانید مدل خود را برای موارد استفاده خاص، مانند نوشتن خلاقانه یا… خب، هر چیزی، آموزش دهید و سفارشی کنید.

مانع ورود از بین رفته است.

اکنون برنامه‌های تخصص‌یافته‌ای وجود دارند که به کاربران اجازه می‌دهند بدون دردسر نصب کتابخانه‌ها، وابستگی‌ها و افزونه‌ها به صورت مستقل، با هوش مصنوعی آزمایش کنند. تقریباً هر فردی که یک کامپیوتر نسبتاً جدید دارد می‌تواند این کار را انجام دهد: یک لپ‌تاپ یا دسکتاپ میان‌رده با ۸ گیگابایت حافظه ویدئویی می‌تواند مدل‌های شگفت‌انگیزی را اجرا کند و برخی مدل‌ها حتی با ۶ گیگابایت یا ۴ گیگابایت VRAM نیز اجرا می‌شوند. و برای اپل، هر چیپ سری M (از چند سال گذشته) قادر به اجرای مدل‌های بهینه‌شده خواهد بود.

نرم‌افزار رایگان است، راه‌اندازی آن چند دقیقه طول می‌کشد و ترسناک‌ترین مرحله – انتخاب ابزار مورد استفاده – به یک سؤال ساده خلاصه می‌شود: آیا دکمه زدن را ترجیح می‌دهید یا تایپ کردن دستورات؟

مقایسه LM Studio و Ollama

دو پلتفرم بر فضای هوش مصنوعی محلی تسلط دارند و هرکدام از زوایای مخالف به مسئله نزدیک می‌شوند.

LM Studio همه چیز را در یک رابط گرافیکی صیقل‌یافته می‌پیچد. شما به سادگی می‌توانید برنامه را دانلود کنید، یک کتابخانه مدل داخلی را مرور کنید، برای نصب کلیک کنید و شروع به چت کنید. این تجربه مشابه استفاده از ChatGPT است، با این تفاوت که پردازش روی سخت‌افزار شما اتفاق می‌افتد. کاربران ویندوز، مک و لینوکس همه تجربه یکسانی دریافت می‌کنند. برای تازه‌واردها، این نقطه شروع واضحی است.

متأسفانه متنی برای ترجمه در درخواست شما ارائه نشده است. تنها کدی مربوط به نمایش یک تصویر وجود دارد که حاوی محتوای متنی قابل ترجمه نیست.

لطفاً متن اصلی مقاله را جهت ترجمه ارسال نمایید.

Ollama هدفش توسعه‌دهندگان و کاربران حرفه‌ای است که در ترمینال زندگی می‌کنند. از طریق خط فرمان نصب می‌شود، مدل‌ها را با یک دستور می‌کشد و سپس می‌توانید تا دلتان می‌خواهد اسکریپت نویسی یا اتوماسیون انجام دهید. این ابزار سبک‌وزن، سریع است و به طور تمیزی در گردش کارهای برنامه‌نویسی ادغام می‌شود.

منحنی یادگیری آن شیب‌دارتر است، اما نتیجه آن انعطاف‌پذیری است. همچنین این چیزی است که کاربران حرفه‌ای برای تطبیق‌پذیری و قابلیت سفارشی‌سازی انتخاب می‌کنند.

هر دو ابزار از مدل‌های پایه یکسان با استفاده از موتورهای بهینه‌سازی یکسان اجرا می‌شوند. تفاوت‌های عملکردی ناچیز است.

تنظیم LM Studio

به آدرس [https://lmstudio.ai/](https://lmstudio.ai/) مراجعه کرده و نصب‌کننده مربوط به سیستم‌عامل خود را دانلود کنید. حجم فایل حدود ۵۴۰ مگابایت است. نصب‌کننده را اجرا کرده و دستورالعمل‌ها را دنبال کنید. برنامه را راه‌اندازی کنید.

نکته ۱: اگر از شما پرسید که چه نوع کاربری هستید، گزینه «توسعه‌دهنده» را انتخاب کنید. پروفایل‌های دیگر فقط گزینه‌ها را مخفی می‌کنند تا کار را آسان‌تر کنند.

نکته ۲: برنامه ممکن است دانلود OSS، مدل هوش مصنوعی متن‌باز OpenAI را توصیه کند. در عوض، برای حالا روی «رد کردن» کلیک کنید؛ مدل‌های بهتر و کوچک‌تری وجود دارند که عملکرد بهتری خواهند داشت.

VRAM: کلید اجرای هوش مصنوعی محلی

متأسفانه متنی برای ترجمه ارائه نشده است. لطفاً متن مقاله اصلی را قرار دهید تا ترجمه حرفه‌ای آن به فارسی انجام شود.

پس از نصب LM Studio، برنامه آماده اجرا خواهد بود و به این شکل به نظر می‌رسد:

اکنون قبل از اینکه مدل زبانی بزرگ (LLM) شما کار کند، نیاز دارید که یک مدل دانلود کنید. و هر چه مدل قدرتمندتر باشد، به منابع بیشتری نیاز خواهد داشت.

منبع حیاتی، VRAM یا حافظه ویدئویی روی کارت گرافیک شماست. مدل‌های زبانی بزرگ در حین استنتاج (inference) در VRAM بارگذاری می‌شوند. اگر فضای کافی نداشته باشید، عملکرد افت شدیدی می‌کند و سیستم مجبور می‌شود به حافظه رم سیستم که کندتر است متوسل شود. شما باید با داشتن VRAM کافی برای مدلی که می‌خواهید اجرا کنید، از این اتفاق جلوگیری نمایید.

برای اینکه بدانید چقدر VRAM دارید، می‌توانید وارد Task Manager ویندوز شوید (control+alt+del) و روی تب GPU کلیک کنید، مطمئن شوید که کارت گرافیک اختصاصی (dedicated) را انتخاب کرده‌اید و نه گرافیک مجتمع (integrated) روی پردازنده اینتل/AMD شما.

مقدار VRAM خود را در بخش “Dedicated GPU memory” مشاهده خواهید کرد.

متنی برای ترجمه ارائه نشده است. لطفاً محتوای مقاله را قرار دهید.

در مک‌های سری M، کارها ساده‌تر است زیرا رم و وی‌رم مشترک هستند. میزان رم روی دستگاه شما برابر با وی‌رمی خواهد بود که می‌توانید به آن دسترسی داشته باشید.

برای بررسی، روی لوگوی اپل کلیک کنید، سپس روی “About This Mac” کلیک کنید. گزینه Memory را می‌بینید؟ این مقدار وی‌رم شماست.

شما حداقل به ۸ گیگابایت حافظه VRAM نیاز خواهید داشت. مدل‌های در محدوده ۷ تا ۹ میلیارد پارامتر که با استفاده از فشرده‌سازی ۴-بیتی (quantization) فشرده شده‌اند، به‌راحتی در این حافظه جای می‌گیرند و در عین حال عملکرد قدرتمندی ارائه می‌دهند. شما می‌توانید تشخیص دهید که یک مدل فشرده‌سازی شده است یا خیر، زیرا توسعه‌دهندگان معمولاً این اطلاعات را در نام مدل افشا می‌کنند. اگر در نام مدل، عباراتی مانند BF، FP یا GGUF را مشاهده کردید، یعنی شما در حال بررسی یک مدل فشرده‌شده هستید. هرچه این عدد کمتر باشد (مانند FP32، FP16، FP8، FP4)، مدل منابع کمتری مصرف خواهد کرد.

این مقایسه کاملاً مشابه نیست، اما کوانتیزیشن را مانند رزولوشن صفحه نمایش خود در نظر بگیرید. شما یک تصویر واحد را با وضوح 8K، 4K، 1080p یا 720p خواهید دید. بدون در نظر گرفتن رزولوشن، قادر به درک کلیت تصویر خواهید بود، اما زوم کردن و دقت در جزئیات نشان می‌دهد که یک تصویر 4K اطلاعات بیشتری نسبت به 720p دارد، اما برای رندر کردن به حافظه و منابع بیشتری نیاز دارد.

اما در حالت ایده‌آل، اگر واقعاً جدی هستید، باید یک کارت گرافیک گیمینگ مناسب با 24 گیگابایت VRAM بخرید. جدید بودن یا نبودن آن مهم نیست و سرعت یا قدرت آن نیز اهمیت ندارد. در دنیای هوش مصنوعی، VRAM پادشاه است.

هنگامی که فهمیدید چقدر VRAM در دسترس دارید، می‌توانید با مراجعه به ماشین حساب VRAM متوجه شوید که کدام مدل‌ها را می‌توانید اجرا کنید. یا به سادگی، با مدل‌های کوچک‌تر با کمتر از 4 میلیارد پارامتر شروع کنید و سپس به مدل‌های بزرگ‌تر بروید تا زمانی که کامپیوتر به شما بگوید حافظه کافی ندارید.

دانلود مدل‌های شما

هنگامی که محدودیت‌های سخت‌افزار خود را دانستید، وقت آن است که یک مدل را دانلود کنید. روی نماد ذره‌بین در نوار کناری سمت چپ کلیک کنید و مدل را بر اساس نام جستجو کنید.

کیون و دیپ‌سیک مدل‌های خوبی برای شروع سفر شما هستند. بله، آن‌ها چینی هستند، اما اگر نگران جاسوسی هستید، می‌توانید آسوده خاطر باشید. هنگامی که مدل زبانی بزرگ خود را به صورت محلی اجرا می‌کنید، هیچ چیزی ماشین شما را ترک نمی‌کند، بنابراین نه توسط چینی‌ها، نه دولت ایالات متحده و نه هیچ نهاد شرکتی دیگر تحت نظر قرار نخواهید گرفت.

در مورد ویروس‌ها، همه آنچه که ما توصیه می‌کنیم از طریق هگینگ فیس ارائه می‌شود، جایی که نرم‌افزار بلافاصله از نظر جاسوس‌افزارها و سایر بدافزارها بررسی می‌شود. اما به هر حال، بهترین مدل آمریکایی، لامای متا است، بنابراین اگر میهن‌پرست هستید ممکن است بخواهید آن را انتخاب کنید. (ما توصیه‌های دیگری در بخش پایانی ارائه می‌دهیم.)

توجه داشته باشید که مدل‌ها بسته به مجموعه داده‌های آموزشی و تکنیک‌های تنظیم دقیق مورد استفاده برای ساخت آن‌ها، متفاوت عمل می‌کنند. صرف نظر از گراک ایلان ماسک، چیزی به نام مدل بی‌طرف وجود ندارد زیرا اطلاعات بی‌طرف وجود ندارد. بنابراین بسته به میزان اهمیت شما به ژئوپلیتیک، مدل مورد نظر خود را انتخاب کنید.

در حال حاضر، هر دو نسخه 3B (مدل کوچک‌تر با قابلیت کمتر) و 7B را دانلود کنید. اگر می‌توانید نسخه 7B را اجرا کنید، سپس نسخه 3B را حذف کنید (و سعی کنید نسخه 13B و غیره را دانلود و اجرا کنید). اگر نمی‌توانید نسخه 7B را اجرا کنید، آن را حذف کرده و از نسخه 3B استفاده کنید.

پس از دانلود، مدل را از بخش مدل‌های من بارگذاری کنید. رابط چت ظاهر می‌شود. یک پیام تایپ کنید. مدل پاسخ می‌دهد. تبریک می‌گوییم: شما در حال اجرای یک هوش مصنوعی محلی هستید.

دسترسی به اینترنت برای مدل شما

مدل‌های محلی به‌صورت پیش‌فرض نمی‌توانند در اینترنت جست‌وجو کنند. آن‌ها به‌صورت طراحی‌شده ایزوله هستند، بنابراین شما بر اساس دانش داخلی آن‌ها با آن‌ها تکرار خواهید کرد. آن‌ها برای نوشتن داستان‌های کوتاه، پاسخ به سوالات، انجام برخی کدنویسی و غیره به خوبی کار می‌کنند. اما آن‌ها آخرین اخبار را به شما نمی‌دهند، آب‌وهوا را به شما نمی‌گویند، ایمیل شما را بررسی نمی‌کنند یا جلساتی را برای شما برنامه‌ریزی نمی‌کنند.

سرورهای پروتکل زمینه مدل این را تغییر می‌دهند.

سرورهای MCP به عنوان پل بین مدل شما و خدمات خارجی عمل می‌کنند. آیا می‌خواهید هوش مصنوعی شما در گوگل جست‌وجو کند، مخازن GitHub را بررسی کند

آیا می‌خواهید مدل‌های هوش مصنوعی شما بتوانند در اینترنت جستجو کنند، فایل‌ها را بخوانند یا وبسایت‌ها را مشاهده کنند؟ سرورهای MCP این امکان را فراهم می‌کنند. LM Studio در نسخه ۰.۳.۱۷ خود از طریق تب Program از MCP پشتیبانی کرد. هر سرور ابزارهای خاصی را در دسترس قرار می‌دهد – مانند جستجوی وب، دسترسی به فایل و فراخوانی‌های API.

اگر می‌خواهید به مدل‌ها دسترسی به اینترنت بدهید، راهنمای کامل ما برای سرورهای MCP، فرآیند راه‌اندازی را شامل گزینه‌های محبوبی مانند جستجوی وب و دسترسی به پایگاه داده مرحله به مرحله توضیح می‌دهد.

فایل را ذخیره کنید و LM Studio به‌طور خودکار سرورها را بارگیری خواهد کرد. هنگامی که با مدل خود چت می‌کنید، اکنون می‌تواند این ابزارها را برای بازیابی داده‌های زنده فراخوانی کند. هوش مصنوعی محلی شما اکنون ابرقدرت‌ها را به دست آورده است.

مدل‌های پیشنهادی ما برای سیستم‌های 8 گیگابایتی

صدها مدل LLM به معنای واقعی کلمه برای شما در دسترس است، از گزینه‌های همه‌فن‌حریف گرفته تا مدل‌های دقیق تنظیم‌شده طراحی‌شده برای موارد استفاده تخصصی مانند کدنویسی، پزشکی، نقش

بهترین برای کدنویسی: نمترون یا دیپ‌سیک خوب هستند. آن‌ها شما را شگفت‌زده نمی‌کنند، اما در تولید و دیباگ کد خوب عمل می‌کنند و در معیارهای برنامه‌نویسی عملکرد بهتری نسبت به بیشتر جایگزین‌ها دارند. DeepSeek-Coder-V2 6.7B گزینه مستحکم دیگری ارائه می‌دهد، به‌ویژه برای توسعه چندزبانه.

بهترین برای دانش عمومی و استدلال: Qwen3 8B. این مدل قابلیت‌های ریاضی قوی دارد و پرسش‌های پیچیده را به‌طور مؤثر مدیریت می‌کند. پنجره زمینه آن اسناد طولانی‌تر را بدون از دست دادن انسجام در خود جای می‌دهد.

بهترین برای نوشتن خلاقانه: انواع DeepSeek R1، اما شما به مهندسی پرمپت سنگین نیاز دارید. همچنین تنظیم‌های دقیق سانسورنشده مانند نسخه “abliterated-uncensored-NEO-Imatrix” از GPT-OSS اوپن‌آی‌ای که برای ژانر وحشت خوب است؛ یا Dirty-Muse-Writer که برای اروتیک خوب است (به گفته آن‌ها) نیز وجود دارند.

بهترین برای چت‌بات‌ها، نقش‌آفرینی،

برای داستان‌سرایی، خدمات مشتری: Mistral 7B (به‌ویژه Undi95 DPO Mistral 7B) و انواع مدل‌های Llama با پنجره‌های متنی بزرگ. MythoMax L2 13B ویژگی‌های شخصیت را در گفت‌وگوهای طولانی حفظ می‌کند و لحن را به‌طور طبیعی تطبیق می‌دهد. برای نقش‌آفرینی NSFW دیگر، گزینه‌های زیادی وجود دارد.

برای MCP: Jan-v1-4b و Pokee Research 7b مدل‌های خوبی هستند اگر می‌خواهید چیز جدیدی را امتحان کنید. DeepSeek R1 گزینه خوب دیگری است.

همه مدل‌ها را می‌توان مستقیماً از LM Studio دانلود کرد، فقط کافی است نام آن‌ها را جست‌جو کنید.

توجه داشته باشید که فضای مدل‌های زبانی بزرگ متن‌باز به سرعت در حال تغییر است. مدل‌های جدید هر هفته راه‌اندازی می‌شوند که هر یک ادعای بهبود دارند. می‌توانید آن‌ها را در LM Studio بررسی کنید یا در مخازن مختلف Hugging Face بگردید. گزینه‌ها را خودتان آزمایش کنید. مدل‌های نامناسب به‌سرعت با عبارت‌بندی awkward، الگوهای تکراری و خطاهای واقعی آشکار می‌شوند. مدل‌های خوب حس متفاوتی دارند. آن‌ها استدلال می‌کنند. شما را شگفت‌زده می‌کنند.

فناوری کار می‌کند. نرم‌افزار آماده است. کامپیوتر شما احتمالاً قدرت کافی را دارد. تنها کاری که باقی می‌ماند امتحان کردن آن است.

Generally Intelligent

یک سفر هفتگی هوش مصنوعی که توسط Gen، یک مدل هوش مصنوعی تولیدی روایت می‌شود.

26 آبان 1404آخرین بروزرسانی: 26 آبان 1404

مشاهده بیشتر

اجرای مدل هوش مصنوعی متن‌باز محلی خودتان آسان است — روش کار به این صورت است

مقایسه LM Studio و Ollama

VRAM: کلید اجرای هوش مصنوعی محلی

دانلود مدل‌های شما

دسترسی به اینترنت برای مدل شما

مدل‌های پیشنهادی ما برای سیستم‌های 8 گیگابایتی

Generally Intelligent

دیدگاهتان را بنویسید لغو پاسخ

کولوسوس: ساخت ریل کارت اعتباری مستقل روی اتریوم برای دور زدن ویزا و مسترکارت

فلوریدا در آستانه تنظیم‌گری استیبل‌کوین‌ها؛ گامی تاریخی برای پذیرش دارایی‌های دیجیتال

گرامرلی و بازگشت از گور: نقدی بر قابلیت «بررسی تخصصی» با هویت‌های علمی زنده و مرده

مدیر مالی سابق به دو سال زندان محکوم شد: ۳۵ میلیون دلار سرمایه شرکت را در پلتفرم دیفای شخصی از دست داد