جیمینی حالا آهنگ میسازد: معرفی مدل لیریا ۳ گوگل برای تولید موسیقی از متن و تصویر

گوگل مدل تولید موسیقی هوش مصنوعی خود به نام Lyria 3 را بهصورت بتا در اپلیکیشن جیمینی در دسترس کاربران قرار داده است. این مدل میتواند از روی یک توصیف متنی یا یک تصویر آپلودشده، یک قطعه موسیقی ۳۰ ثانیهای کامل با متن آهنگ، سازبندی و حتی کاور آرت تولید کند. با این حال، رقبایی مانند سونو و اودیو همچنان در تولید آهنگهای طولانیتر و کنترلهای پیشرفتهتر پیشتاز هستند.
نکات کلیدی
– مدل Lyria 3 گوگل دیپمایند اکنون در جیمینی در دسترس است و از یک توصیف متنی یا عکس، آهنگ ۳۰ ثانیهای کامل تولید میکند.
– خروجیهای این مدل در ژانرهای اصلی مانند پاپ، آراندبی و هیپهاپ منسجم است، اما در ژانرهای خاص یا غیرمعمول عملکرد ضعیفتری دارد.
– مدت خروجی این مدل در حال حاضر به ۳۰ ثانیه محدود است و هدف آن ایجاد لحظات قابل اشتراکگذاری است، نه تولید آهنگهای تجاری پولیششده.
– رقبای اصلی مانند سونو و اودیو امکان تولید آهنگهای چنددقیقهای با ساختار کامل و کنترلهایی مانند قدرت پرامپت و حذف صداهای خاص را ارائه میدهند.
– تمامی قطعات تولیدشده توسط لیریا ۳ در جیمینی دارای واترمارک نامحسوس SynthID گوگل هستند و امکان تأیید منشأ صوتی نیز وجود دارد.
– گوگل ادعا میکند در آموزش این مدل "نسبت به حق کپیرایت و توافقهای شرکایی بسیار هوشیار" بوده و از تقلید مستقیم هنرمندان خاص اجتناب میکند.
– این قابلیت از امروز برای کاربران بالای ۱۸ سال در دسکتاپ و به زودی در موبایل در دسترس است و مشترکان پلاس، پرو و اولترا محدودیت تولید بیشتری دارند.
ورود رسمی گوگل به عرصه تولید موسیقی با هوش مصنوعی
گوگل پس از سالها توسعه پنهانی مدل تولید موسیقی هوش مصنوعی خود، سرانجام آن را در معرض استفاده عموم قرار داده است. مدل Lyria 3، آخرین دستاورد گوگل دیپمایند، بهصورت بتا درون اپلیکیشن جیمینی عرضه شده است. هر کاربر بالای ۱۸ سال میتواند یک ایده را توصیف کند یا عکسی آپلود کند و در عرض چند ثانیه یک قطعه موسیقی کامل دریافت کند.
این قطعه شامل متن آهنگ، سازبندی و حتی کاور آرت تولیدشده توسط هوش مصنوعی است. گوگل در بلاگ رسمی خود مثال جالبی زده است: "یک آهنگ آراندبی کمیک و آرام درباره جورابی که جفت خود را پیدا میکند". این سادگی و سرعت، تجربهای جذاب و سرگرمکننده برای کاربران عمومی ایجاد میکند.
با این حال، برای کسانی که قبلاً با مدلهای پیشرفتهتری مانند سونو یا اودیو کار کردهاند، لیریا ۳ هنوز جایگزین جریان کاری حرفهای آنها نخواهد بود. محدودیت اصلی در مدت زمان خروجی است. تمامی آهنگهای تولیدشده توسط این مدل دقیقاً ۳۰ ثانیه طول دارند و گوگل صراحتاً این موضوع را اعلام کرده است.
هدف این مدل در حال حاضر تولید آهنگهای تجاری و کامل نیست، بلکه خلق لحظات کوتاه و قابل اشتراکگذاری در پلتفرمهایی مانند شبکههای اجتماعی است. در تستهای اولیه، خروجیها منسجم بودند، متن آهنگ با دستور پرامپت همخوانی داشت و کیفیت تولید در سطح قابل قبولی قرار داشت.
محدودیتهای ژانری و فاصله با رقبای پیشرو
عملکرد لیریا ۳ در ژانرهای اصلی و جریان اصلی موسیقی قابل قبول است. این مدل در سبکهایی مانند پاپ، آفروبیت، آراندبی و هیپهاپ ملایم به خوبی عمل میکند. اما وقتی پای ژانرهای خاص، غیرمعمول یا نیچ به میان میآید، مدل در حفظ وفاداری به سبک درخواستی دچار مشکل میشود.
راهنمای پرامپت ارائهشده توسط دیپمایند نیز بهطور ضمنی این محدودیت را تأیید میکند. این راهنما مملو از مثالهایی برای ژانرهای اصلی است و راهنمایی چندانی برای سبکهای خارج از این چارچوب ارائه نمیدهد. این نقطه ضعف، فاصله محسوسی بین لیریا ۳ و رقبای قدرتمندش ایجاد میکند.
رقبایی مانند اودیو که در سال ۲۰۲۴ معرفی شد، از همان ابتدا کنترلهای پیشرفتهای مانند اسلایدر "قدرت پرامپت"، تنظیمکننده وضوح برای نویز پسزمینه و امکان پرامپت منفی برای حذف صداها یا سبکهای خاص را در اختیار کاربران قرار دادند. سونو نیز مدتی است که آهنگهای چنددقیقهای کامل با ساختار استاندارد شامل verse، chorus و bridge تولید میکند و بسیاری آن را بهترین مدل موجود در این زمینه میدانند.

هر دوی این ابزارها به کاربران اجازه میدهند قطعات طولانیمدتی تولید کنند که حس یک آهنگ واقعی را منتقل میکنند، نه یک نمونه کوتاه. محدودیت ۳۰ ثانیهای لیریا ۳ و تمایل آن به انحراف از پرامپتهای غیرمعمول، آن را در ردهای متفاوت از این رقبا قرار میدهد.
ملاحظات حقوقی و ایمنی: واترمارک و اجتناب از تقلید
زمینه حقوقی تولید موسیقی با هوش مصنوعی بحثبرانگیز است. هر دو شرکت سونو و اودیو در سال ۲۰۲۴ توسط انجمن صنعت ضبط موسیقی آمریکا (RIAA) به دلیل ادعای آموزش مدلهایشان روی ضبطهای دارای حق کپیرایت بدون اجازه، مورد شکایت قرار گرفتند. اودیو در نوامبر ۲۰۲۵ با وارنر میوزیک به توافق رسید و در حال گذار به یک پلتفرم کاملاً دارای مجوز است که قرار است در سال ۲۰۲۶ راهاندازی شود. پرونده سونو همچنان ادامه دارد.
گوگل در این زمینه ادعا میکند که در آموزش لیریا ۳ "نسبت به حق کپیرایت و توافقهای شرکایی بسیار هوشیار" عمل کرده است. این مدل بهطور عمدی از تقلید هنرمندان خاص اجتناب میکند. اگر کاربر نام یک هنرمند را در پرامپت ذکر کند، لیریا آن را بهعنوان منبع الهام برای حال و هوا در نظر میگیرد، نه یک دستورالعمل مستقیم برای تقلید صدا.
در جنبه ایمنی و شفافیت، تمام قطعات تولیدشده در جیمینی دارای واترمارک نامحسوس هوش مصنوعی گوگل به نام SynthID هستند. این شرکت همچنین قابلیت تأیید صوتی را به جیمینی اضافه کرده است. کاربران میتوانند یک قطعه صوتی آپلود کنند و بپرسند که آیا توسط هوش مصنوعی گوگل ساخته شده است یا خیر.
این نوع ابزارهای رهگیری منشأ، با افزایش سیل محتوای صوتی تولیدشده توسط هوش مصنوعی در پلتفرمهای استریم، روزبهروز اهمیت بیشتری پیدا میکنند. برای مثال، پلتفرم دیزر قبلاً ابزارهای تشخیصی را برای شناسایی و علامتگذاری استریمهای جعلی از موسیقی هوش مصنوعی مستقر کرده است.
دسترسی جهانی و ادغام با یوتیوب
قابلیت لیریا ۳ از امروز برای تمام کاربران جیمینی بالای ۱۸ سال در دسکتاپ و به زبان انگلیسی و چند زبان دیگر در دسترس است. نسخه موبایل نیز در روزهای آینده بهتدریج عرضه خواهد شد. کاربران مشترک پلنهای گوگل آی پلاس، پرو و اولترا محدودیت تولید بالاتری خواهند داشت.
علاوه بر این، گوگل در حال گسترش قابلیت Dream Track یوتیوب بهصورت جهانی است. این قابلیت که قبلاً فقط در ایالات متحده در دسترس بود، به سازندگان محتوای Shorts دسترسی به موسیقیهای متن تولیدشده توسط هوش مصنوعی برای ویدیوهایشان را میدهد. این حرکت، ادغام عمیقتر فناوری تولید موسیقی هوش مصنوعی گوگل در اکوسیستم گستردهتر محصولات این شرکت را نشان میدهد.