В условиях растущего интереса к возможностям искусственного интеллекта NVIDIA переносит нас в новую эру создания звука. Их последняя генеративная модель, получившая название Fugatto, открывает пользователям беспрецедентные возможности манипулирования звуком.

Используя текстовые входные данные, Fugatto позволяет создавать не только музыку, но и голоса или звуки с любыми характеристиками, включая звуки, которых никогда не существовало.

Генеративная модель Nvidia Fugatto AI создаст любой звук

Fugatto выделяется среди других моделей искусственного интеллекта своей способностью создавать и преобразовывать любые комбинации музыки, голосов и звуков. Ученые NVIDIA говорят, что их творение выделяется среди других моделей искусственного интеллекта своей способностью точно контролировать вывод звука.

Используя текстовые и аудиофайлы, эта модель может генерировать музыкальные фрагменты, модифицировать существующие песни и даже менять акценты и эмоции в голосе.

Модель NVIDIA не только понимает звук на человеческом уровне, но и предлагает новые возможности для создания высококачественного пения из самого текста. Это открывает двери новым формам художественного выражения и персонализации.

Рафаэль Валле, руководитель отдела прикладных исследований звука NVIDIA, подчеркивает, что целью было создать модель, которая «понимает и генерирует звук так, как это делают люди». Фугатто, как первая генеративная модель ИИ, обладает эмерджентными свойствами, позволяющими комбинировать произвольные инструкции.

Fugatto будет использоваться не только в музыкальных студиях, но и в рекламных агентствах, языковых учебных заведениях и индустрии видеоигр. Его способность быстро создавать прототипы, адаптировать рекламные кампании к различным регионам и персонализировать инструменты изучения иностранных языков неоценима.

Модель основана на 2,5 миллиардах параметров и обучена на мощной системе NVIDIA DGX. Команда международных экспертов NVIDIA объединила свои навыки для создания многоакцентного и многоязычного инструмента. Работа заняла больше года и потребовала создания комплексного набора аудиоданных.


Поделитесь в соцсетях: