Artificial Intelligence

جیمینی حالا آهنگ می‌سازد: معرفی مدل لیریا ۳ گوگل برای تولید موسیقی از متن و تصویر

گوگل مدل تولید موسیقی هوش مصنوعی خود به نام Lyria 3 را به‌صورت بتا در اپلیکیشن جیمینی در دسترس کاربران قرار داده است. این مدل می‌تواند از روی یک توصیف متنی یا یک تصویر آپلودشده، یک قطعه موسیقی ۳۰ ثانیه‌ای کامل با متن آهنگ، سازبندی و حتی کاور آرت تولید کند. با این حال، رقبایی مانند سونو و اودیو همچنان در تولید آهنگ‌های طولانی‌تر و کنترل‌های پیشرفته‌تر پیشتاز هستند.

نکات کلیدی

– مدل Lyria 3 گوگل دیپ‌مایند اکنون در جیمینی در دسترس است و از یک توصیف متنی یا عکس، آهنگ ۳۰ ثانیه‌ای کامل تولید می‌کند.
– خروجی‌های این مدل در ژانرهای اصلی مانند پاپ، آراندبی و هیپ‌هاپ منسجم است، اما در ژانرهای خاص یا غیرمعمول عملکرد ضعیف‌تری دارد.
– مدت خروجی این مدل در حال حاضر به ۳۰ ثانیه محدود است و هدف آن ایجاد لحظات قابل اشتراک‌گذاری است، نه تولید آهنگ‌های تجاری پولیش‌شده.
– رقبای اصلی مانند سونو و اودیو امکان تولید آهنگ‌های چنددقیقه‌ای با ساختار کامل و کنترل‌هایی مانند قدرت پرامپت و حذف صداهای خاص را ارائه می‌دهند.
– تمامی قطعات تولیدشده توسط لیریا ۳ در جیمینی دارای واترمارک نامحسوس SynthID گوگل هستند و امکان تأیید منشأ صوتی نیز وجود دارد.
– گوگل ادعا می‌کند در آموزش این مدل "نسبت به حق کپی‌رایت و توافق‌های شرکایی بسیار هوشیار" بوده و از تقلید مستقیم هنرمندان خاص اجتناب می‌کند.
– این قابلیت از امروز برای کاربران بالای ۱۸ سال در دسکتاپ و به زودی در موبایل در دسترس است و مشترکان پلاس، پرو و اولترا محدودیت تولید بیشتری دارند.

ورود رسمی گوگل به عرصه تولید موسیقی با هوش مصنوعی

گوگل پس از سال‌ها توسعه پنهانی مدل تولید موسیقی هوش مصنوعی خود، سرانجام آن را در معرض استفاده عموم قرار داده است. مدل Lyria 3، آخرین دستاورد گوگل دیپ‌مایند، به‌صورت بتا درون اپلیکیشن جیمینی عرضه شده است. هر کاربر بالای ۱۸ سال می‌تواند یک ایده را توصیف کند یا عکسی آپلود کند و در عرض چند ثانیه یک قطعه موسیقی کامل دریافت کند.

این قطعه شامل متن آهنگ، سازبندی و حتی کاور آرت تولیدشده توسط هوش مصنوعی است. گوگل در بلاگ رسمی خود مثال جالبی زده است: "یک آهنگ آراندبی کمیک و آرام درباره جورابی که جفت خود را پیدا می‌کند". این سادگی و سرعت، تجربه‌ای جذاب و سرگرم‌کننده برای کاربران عمومی ایجاد می‌کند.

با این حال، برای کسانی که قبلاً با مدل‌های پیشرفته‌تری مانند سونو یا اودیو کار کرده‌اند، لیریا ۳ هنوز جایگزین جریان کاری حرفه‌ای آن‌ها نخواهد بود. محدودیت اصلی در مدت زمان خروجی است. تمامی آهنگ‌های تولیدشده توسط این مدل دقیقاً ۳۰ ثانیه طول دارند و گوگل صراحتاً این موضوع را اعلام کرده است.

هدف این مدل در حال حاضر تولید آهنگ‌های تجاری و کامل نیست، بلکه خلق لحظات کوتاه و قابل اشتراک‌گذاری در پلتفرم‌هایی مانند شبکه‌های اجتماعی است. در تست‌های اولیه، خروجی‌ها منسجم بودند، متن آهنگ با دستور پرامپت همخوانی داشت و کیفیت تولید در سطح قابل قبولی قرار داشت.

محدودیت‌های ژانری و فاصله با رقبای پیشرو

عملکرد لیریا ۳ در ژانرهای اصلی و جریان اصلی موسیقی قابل قبول است. این مدل در سبک‌هایی مانند پاپ، آفروبیت، آراندبی و هیپ‌هاپ ملایم به خوبی عمل می‌کند. اما وقتی پای ژانرهای خاص، غیرمعمول یا نیچ به میان می‌آید، مدل در حفظ وفاداری به سبک درخواستی دچار مشکل می‌شود.

راهنمای پرامپت ارائه‌شده توسط دیپ‌مایند نیز به‌طور ضمنی این محدودیت را تأیید می‌کند. این راهنما مملو از مثال‌هایی برای ژانرهای اصلی است و راهنمایی چندانی برای سبک‌های خارج از این چارچوب ارائه نمی‌دهد. این نقطه ضعف، فاصله محسوسی بین لیریا ۳ و رقبای قدرتمندش ایجاد می‌کند.

رقبایی مانند اودیو که در سال ۲۰۲۴ معرفی شد، از همان ابتدا کنترل‌های پیشرفته‌ای مانند اسلایدر "قدرت پرامپت"، تنظیم‌کننده وضوح برای نویز پس‌زمینه و امکان پرامپت منفی برای حذف صداها یا سبک‌های خاص را در اختیار کاربران قرار دادند. سونو نیز مدتی است که آهنگ‌های چنددقیقه‌ای کامل با ساختار استاندارد شامل verse، chorus و bridge تولید می‌کند و بسیاری آن را بهترین مدل موجود در این زمینه می‌دانند.

هر دوی این ابزارها به کاربران اجازه می‌دهند قطعات طولانی‌مدتی تولید کنند که حس یک آهنگ واقعی را منتقل می‌کنند، نه یک نمونه کوتاه. محدودیت ۳۰ ثانیه‌ای لیریا ۳ و تمایل آن به انحراف از پرامپت‌های غیرمعمول، آن را در رده‌ای متفاوت از این رقبا قرار می‌دهد.

ملاحظات حقوقی و ایمنی: واترمارک و اجتناب از تقلید

زمینه حقوقی تولید موسیقی با هوش مصنوعی بحث‌برانگیز است. هر دو شرکت سونو و اودیو در سال ۲۰۲۴ توسط انجمن صنعت ضبط موسیقی آمریکا (RIAA) به دلیل ادعای آموزش مدل‌هایشان روی ضبط‌های دارای حق کپی‌رایت بدون اجازه، مورد شکایت قرار گرفتند. اودیو در نوامبر ۲۰۲۵ با وارنر میوزیک به توافق رسید و در حال گذار به یک پلتفرم کاملاً دارای مجوز است که قرار است در سال ۲۰۲۶ راه‌اندازی شود. پرونده سونو همچنان ادامه دارد.

گوگل در این زمینه ادعا می‌کند که در آموزش لیریا ۳ "نسبت به حق کپی‌رایت و توافق‌های شرکایی بسیار هوشیار" عمل کرده است. این مدل به‌طور عمدی از تقلید هنرمندان خاص اجتناب می‌کند. اگر کاربر نام یک هنرمند را در پرامپت ذکر کند، لیریا آن را به‌عنوان منبع الهام برای حال و هوا در نظر می‌گیرد، نه یک دستورالعمل مستقیم برای تقلید صدا.

در جنبه ایمنی و شفافیت، تمام قطعات تولیدشده در جیمینی دارای واترمارک نامحسوس هوش مصنوعی گوگل به نام SynthID هستند. این شرکت همچنین قابلیت تأیید صوتی را به جیمینی اضافه کرده است. کاربران می‌توانند یک قطعه صوتی آپلود کنند و بپرسند که آیا توسط هوش مصنوعی گوگل ساخته شده است یا خیر.

این نوع ابزارهای رهگیری منشأ، با افزایش سیل محتوای صوتی تولیدشده توسط هوش مصنوعی در پلتفرم‌های استریم، روزبه‌روز اهمیت بیشتری پیدا می‌کنند. برای مثال، پلتفرم دیزر قبلاً ابزارهای تشخیصی را برای شناسایی و علامت‌گذاری استریم‌های جعلی از موسیقی هوش مصنوعی مستقر کرده است.

دسترسی جهانی و ادغام با یوتیوب

قابلیت لیریا ۳ از امروز برای تمام کاربران جیمینی بالای ۱۸ سال در دسکتاپ و به زبان انگلیسی و چند زبان دیگر در دسترس است. نسخه موبایل نیز در روزهای آینده به‌تدریج عرضه خواهد شد. کاربران مشترک پلن‌های گوگل آی پلاس، پرو و اولترا محدودیت تولید بالاتری خواهند داشت.

علاوه بر این، گوگل در حال گسترش قابلیت Dream Track یوتیوب به‌صورت جهانی است. این قابلیت که قبلاً فقط در ایالات متحده در دسترس بود، به سازندگان محتوای Shorts دسترسی به موسیقی‌های متن تولیدشده توسط هوش مصنوعی برای ویدیوهایشان را می‌دهد. این حرکت، ادغام عمیق‌تر فناوری تولید موسیقی هوش مصنوعی گوگل در اکوسیستم گسترده‌تر محصولات این شرکت را نشان می‌دهد.

مشاهده بیشتر

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا