Алтайский крайАмурская областьАрхангельская областьАстраханская областьБелгородская областьБрянская областьВладимирская областьВолгоградская областьВологодская областьВоронежская областьДонецкая Народная РеспубликаЕврейская АОЗабайкальский крайЗапорожская областьИвановская областьИркутская областьКабардино-Балкарская РеспубликаКалининградская областьКалужская областьКамчатский крайКарачаево-Черкесская РеспубликаКемеровская областьКировская областьКостромская областьКраснодарский крайКрасноярский крайКурганская областьКурская областьЛенинградская областьЛипецкая областьЛуганская Народная РеспубликаМагаданская областьМоскваМосковская областьМурманская областьНенецкий АОНижегородская областьНовгородская областьНовосибирская областьОмская областьОренбургская областьОрловская областьПензенская областьПермский крайПриморский крайПсковская областьРеспублика АдыгеяРеспублика АлтайРеспублика БашкортостанРеспублика БурятияРеспублика ДагестанРеспублика ИнгушетияРеспублика КалмыкияРеспублика КарелияРеспублика КомиРеспублика КрымРеспублика Марий ЭлРеспублика МордовияРеспублика Саха (Якутия)Республика Северная Осетия-АланияРеспублика ТатарстанРеспублика ТываРеспублика ХакасияРостовская областьРязанская областьСамарская областьСанкт-ПетербургСаратовская областьСахалинская областьСвердловская областьСевастопольСмоленская областьСтавропольский крайТамбовская областьТверская областьТомская областьТульская областьТюменская областьУдмуртская РеспубликаУльяновская областьХабаровский крайХанты-Мансийский АОХерсонская областьЧелябинская областьЧеченская РеспубликаЧувашская РеспубликаЧукотский АОЯмало-Ненецкий АОЯрославская область
Искать в проекте
Исследователи НИУ ВШЭ научили нейросеть точнее определять взаимодействия между белками
8 апреля 2026
Ученые Института искусственного интеллекта и цифровых наук ) факультета компьютерных наук НИУ ВШЭ разработали модель, которая с точностью до 95% предсказывает, будут ли белки взаимодействовать друг с другом. GSMFormer-PPI использует три типа данных о белке, в том числе и о его поверхности, и анализирует связи между ними, в отличие от предыдущих моделей, где данные просто объединялись.

 Разработка может ускорить поиск молекулярных механизмов болезней, биомаркеров и потенциальных мишеней для лекарств. Работа опубликована в журнале Scientific Reports.

Почти все процессы в клетке зависят от взаимодействия белков внутри нее. С их помощью клетка передает сигналы, запускает и регулирует химические реакции, образует молекулярные комплексы, необходимые для ее работы. И если такие взаимодействия нарушаются и клетка работает неправильно, это может приводить к заболеваниям.

Поэтому для изучения механизма болезней и поиска мишеней для лечения ученым важно понимать, какие белки могут взаимодействовать друг с другом, а какие нет. Выяснять это экспериментально трудно: если в исследовании рассматриваются десятки или сотни белков, число возможных пар оказывается слишком большим для проверки. Из-за этого биологи используют методы машинного обучения, предсказывающие такие связи по структуре и свойствам молекул.

Исследователи НИУ ВШЭ разработали систему GSMFormer-PPI, которая учитывает три типа данных о каждом из белков в предполагаемой паре: аминокислотную последовательность, трехмерную структуру и свойства молекулярной поверхности. Для их обработки авторы использовали существующие модели, которые переводят эти данные в числовые представления. Аминокислотную последовательность — порядок цепочки аминокислот, из которой построен белок, — анализирует белковая языковая модель. Трехмерная структура белка представляется как граф, где аминокислоты становятся вершинами, а их пространственные контакты — связями. Такое описание обрабатывает графовая нейронная сеть. Также с помощью отдельного алгоритма учитывались свойства поверхности белка — форма и физико-химические характеристики участков, через которые белки распознают друг друга.

Затем эти числовые представления о белках поступали в разработанный авторами трансформерный модуль — нейросеть, которая совместно анализирует разные типы данных о белке. Если в работах других исследователей признаки часто просто объединялись в один вектор, то здесь модель не складывает их механически, а выявляет связи между ними.

 «При взаимодействии белков особенно важна их поверхность: именно через нее молекулы распознают друг друга и на ней сосредоточены физико-химические свойства, от которых зависит связывание. В нашей модели мы попытались учесть эту информацию вместе с последовательностью и трехмерной структурой белка, а затем не просто объединить признаки, а дать алгоритму возможность анализировать связи между ними. Именно это и позволило точнее предсказывать белок-белковые взаимодействия», — комментирует один из авторов статьи, директор Центра биомедицинских исследований и технологий Института ИИиЦН ФКН НИУ ВШЭ Мария Попцова.

Чтобы проверить, насколько хорошо работает новая модель, исследователи протестировали ее на наборе данных PINDER — крупной базе известных белковых взаимодействий. В экспериментах GSMFormer-PPI показала точность 95,7% и превзошла популярные графовые модели, например GCN и GAT. Также исследователи провели тест с более простым вариантом GSMFormer-PPI — без модуля, который анализирует связи между разными типами данных. Эта версия работала хуже, что доказывает: дело не только в самих данных о белке, но и в том, как именно модель их сопоставляет.

Дополнительные тесты показали, что для точного прогноза важны все три типа данных: последовательность, пространственная структура и свойства поверхности белка. Когда исследователи поочередно убирали один из компонентов, качество предсказания снижалось. Иными словами, модель работает лучше именно потому, что рассматривает белок сразу на нескольких уровнях. В перспективе такие системы могут помочь быстрее отбирать пары белков при изучении механизмов болезней и поиске мишеней для лекарств.

Работа выполнена при поддержке гранта для исследовательских центров в области искусственного интеллекта Министерства экономического развития РФ, реализуемого на базе НИУ ВШЭ.

https://www.hse.ru/news/science/1145263785.html