Для обучения моделей ИИ вам нужны надежные данные. Однако когда модели ИИ учатся на основе данных, сгенерированных самим ИИ, они сталкиваются с «поломкой», — читаем мы в Nature. Это неизбежно, добавляют ученые.

Использование наборов данных, сгенерированных ИИ, для обучения будущих поколений моделей машинного обучения может испортить их результаты – концепция, известная как «коллапс модели». Исследования показывают, что в течение «срока жизни» нескольких поколений моделей ИИ исходный контент заменяется несвязанной чепухой.

Сможет ли искусственный интеллект «сломаться» от собственных данных

Инструменты генеративного искусственного интеллекта, такие как большие языковые модели (LLM), приобрели популярность и в основном обучаются на данных, созданных человеком. Однако, как утверждают исследователи, по мере того, как эти модели ИИ распространяются по Интернету, сгенерированный компьютером контент может использоваться для обучения других моделей ИИ (или самих себя) в так называемом рекурсивном цикле.

Как снижается опыт ИИ?


Илья Шумайлов из Оксфордского университета в Великобритании и его коллеги использовали математические модели, чтобы продемонстрировать, как модели ИИ могут разрушаться. Авторы показали, что ИИ может исключать определенные результаты (например, менее распространенные фрагменты текста) из обучающих данных, в результате чего обучение происходит только на части набора данных.

Исследователи также изучили, как модели ИИ отреагировали на набор обучающих данных, который в основном был создан искусственным интеллектом. Они обнаружили, что подача модели данных, сгенерированных ИИ, приводит к ухудшению способности последующих поколений к обучению, что в конечном итоге приводит к провалу модели.

Почти все рекурсивно обученные языковые модели, протестированные исследователями, показали склонность к повторению фраз. Исследователи привели пример теста, в котором для обучения использовался текст о средневековой архитектуре. Оказалось, что в девятом поколении искусственный интеллект вместо архитектуры предоставлял информацию о зайцах.

Крах модели неизбежен


Авторы исследования указывают, что отказ модели неизбежен, если для обучения ИИ будут использоваться наборы данных, созданные предыдущими поколениями. По их мнению, успешно обучать искусственный интеллект на собственных результатах вполне возможно, но к фильтрации генерируемых данных нужно относиться серьёзно.

В то же время, по мнению ученых, технологические компании, которые будут использовать для обучения ИИ только контент, созданный человеком, получат преимущество по сравнению с конкурентами, которые примут иную стратегию.


Поделитесь в соцсетях: