Используя текстовые входные данные, Fugatto позволяет создавать не только музыку, но и голоса или звуки с любыми характеристиками, включая звуки, которых никогда не существовало.
Fugatto выделяется среди других моделей искусственного интеллекта своей способностью создавать и преобразовывать любые комбинации музыки, голосов и звуков. Ученые NVIDIA говорят, что их творение выделяется среди других моделей искусственного интеллекта своей способностью точно контролировать вывод звука.
Используя текстовые и аудиофайлы, эта модель может генерировать музыкальные фрагменты, модифицировать существующие песни и даже менять акценты и эмоции в голосе.
Модель NVIDIA не только понимает звук на человеческом уровне, но и предлагает новые возможности для создания высококачественного пения из самого текста. Это открывает двери новым формам художественного выражения и персонализации.
Рафаэль Валле, руководитель отдела прикладных исследований звука NVIDIA, подчеркивает, что целью было создать модель, которая «понимает и генерирует звук так, как это делают люди». Фугатто, как первая генеративная модель ИИ, обладает эмерджентными свойствами, позволяющими комбинировать произвольные инструкции.
Fugatto будет использоваться не только в музыкальных студиях, но и в рекламных агентствах, языковых учебных заведениях и индустрии видеоигр. Его способность быстро создавать прототипы, адаптировать рекламные кампании к различным регионам и персонализировать инструменты изучения иностранных языков неоценима.
Модель основана на 2,5 миллиардах параметров и обучена на мощной системе NVIDIA DGX. Команда международных экспертов NVIDIA объединила свои навыки для создания многоакцентного и многоязычного инструмента. Работа заняла больше года и потребовала создания комплексного набора аудиоданных.
Поделитесь в соцсетях: