Алтайский крайАмурская областьАрхангельская областьАстраханская областьБелгородская областьБрянская областьВладимирская областьВолгоградская областьВологодская областьВоронежская областьДонецкая Народная РеспубликаЕврейская АОЗабайкальский крайЗапорожская областьИвановская областьИркутская областьКабардино-Балкарская РеспубликаКалининградская областьКалужская областьКамчатский крайКарачаево-Черкесская РеспубликаКемеровская областьКировская областьКостромская областьКраснодарский крайКрасноярский крайКурганская областьКурская областьЛенинградская областьЛипецкая областьЛуганская Народная РеспубликаМагаданская областьМоскваМосковская областьМурманская областьНенецкий АОНижегородская областьНовгородская областьНовосибирская областьОмская областьОренбургская областьОрловская областьПензенская областьПермский крайПриморский крайПсковская областьРеспублика АдыгеяРеспублика АлтайРеспублика БашкортостанРеспублика БурятияРеспублика ДагестанРеспублика ИнгушетияРеспублика КалмыкияРеспублика КарелияРеспублика КомиРеспублика КрымРеспублика Марий ЭлРеспублика МордовияРеспублика Саха (Якутия)Республика Северная Осетия-АланияРеспублика ТатарстанРеспублика ТываРеспублика ХакасияРостовская областьРязанская областьСамарская областьСанкт-ПетербургСаратовская областьСахалинская областьСвердловская областьСевастопольСмоленская областьСтавропольский крайТамбовская областьТверская областьТомская областьТульская областьТюменская областьУдмуртская РеспубликаУльяновская областьХабаровский крайХанты-Мансийский АОХерсонская областьЧелябинская областьЧеченская РеспубликаЧувашская РеспубликаЧукотский АОЯмало-Ненецкий АОЯрославская область
Искать в проекте
Смешать, но не взбалтывать: ВШЭ и AIRI ускорили дообучение нейросетей
4 июня 2025
Исследователи из ВШЭ и AIRI предложили метод быстрой донастройки нейросетей: данные обрабатываются по группам, которые затем перемешивают оптимальным образом, чтобы улучшить их взаимодействие.

Метод лучше аналогов справляется с генерацией и анализом изображений, дообучением текстовых моделей. При этом он требует меньше памяти и времени на обучение. Результаты работы были представлены на конференции NeurIPS 2024.

Чем больше нейросеть, тем сложнее быстро подстроить ее под новую задачу. Переобучать модель с нуля — это долго и дорого. Поэтому разработчики ищут бюджетные способы адаптировать ее под конкретную задачу, сохранив при этом общее качество исходной версии.

Один из них — донастройка с помощью ортогональных матриц: в отличие от альтернативных подходов, они сохраняют важные признаки исходной модели. Но у популярных вариантов вроде блочно-диагональных или бабочковых (Butterfly) матриц есть недостатки: они либо ограничены, либо требуют множества вычислений.

Исследователи факультета компьютерных наук НИУ ВШЭ и AIRI предложили новый способ построения матриц, который назвали «Группируй и перемешивай» (Group-and-Shuffle). Вместо того чтобы работать со всеми данными, они делят ее параметры на небольшие группы, обрабатывают каждую отдельно и перемешивают между собой. Такая структура оказалась одновременно гибкой и компактной: она помогает модели точнее подстраиваться под задачу, но при этом требует меньше вычислений и памяти.

На основе GS-матриц исследователи разработали метод GSOFT — новую реализацию ортогональной донастройки нейросетей. В отличие от предыдущих подходов, GSOFT использует меньше параметров, но сохраняет стабильность и качество обучения даже при малом объеме данных. Команда также предложила двусторонний вариант метода — Double GSOFT, который позволяет изменять параметры сразу с двух сторон, повышая гибкость и точность модели.

«Мы придумали, как формировать ортогональные матрицы, используя всего две матрицы специального вида, а не пять-шесть, как в прежних подходах. Это экономит ресурсы и время обучения», — объясняет Николай Юдин, стажер-исследователь Научно-учебной лаборатории матричных и тензорных методов в машинном обучении НИУ ВШЭ.

Исследователи протестировали подход на трех типах задач. В дообучении языковой модели RoBERTa метод работал лучше при сопоставимом числе параметров. В генерации изображений, где модель должна сохранять черты оригинала, но подстраиваться под запрос пользователя, GSOFT и Double GSOFT справились лучше популярных подходов вроде LoRA и BOFT, при этом они требуют меньше памяти и времени на обучение.

Авторы также протестировали свой подход на сверточных нейросетях, которые чаще всего используют для анализа изображений и видео — например, в распознавании лиц. Они адаптировали GS-матрицы даже для тех случаев, когда от модели требуется высокая устойчивость к помехам и искажениям.

«Мы проверили метод в различных сценариях — от языковых и генеративных моделей до устойчивых сверточных сетей. В каждом из них он работал надежно и при меньших затратах ресурсов. Это подтверждает, что мы можем использовать метод для разных целей», — комментирует старший научный сотрудник Центра глубинного обучения и байесовских методов Института искусственного интеллекта и цифровых наук ФКН НИУ ВШЭ, руководитель группы «Контролируемый генеративный ИИ» Лаборатории FusionBrain Института AIRI Айбек Аланов.

https://www.hse.ru/news/science/1053477440.html