А.Вахрушев, С.Фиронов, А.Червов "Предсказание свойств белков - топ2 в CAFA5"
Автор: SciBerloga
Загружено: 16 февр. 2024 г.
Просмотров: 333 просмотра
🚀 https://t.me/sberlogabig/359
👨🔬 А.Вахрушев, С.Фиронов, А.Червов "Предсказание свойств белков - топ2 в CAFA5 (https://www.kaggle.com/competitions/c...)"
⌚️ Четверг 15 Февраля 19.00 (по Москве)
https://t.me/sberlogabig/359
Как известно, Альфафолд от Гугл Дипмайнд совершил прорыв в биологии , сумев решить задачу , которая 50 лет не поддавалась решению - предсказание пространственной структуры белка по последовательности аминокислот, выиграв конкурс CASP15. Наша команда почти как Дипмайнд 😃 . Мы почти выиграли схожий конкурс - CAFA5 - заняв второе место и опередив 1500+ других команд.
Задача CAFA ( Critical Assessment of Function Annotation (https://en.wikipedia.org/wiki/Critica...) ) - предсказать функции и локализации белков, используя последовательность аминокислот белка - как основную входную информацию. Наиболее полная информация о функциях/локализации белков собрана в базе Gene Ontology (https://geneontology.org/) , которая содержит около 40 000 всевозможных характеристик белка, которые организованы в иерархическую структуру. Охватываются белки всего - от вирусов до эукариот. Тем самым результат работы модели - для каждого белка должны выдаваться 40 000 нулей или единиц - есть данное свойство у данного белка или нет.
Решение
Идея 1. Использование инновационного градиентного бустинга Pyboost разработанного лидером команды А. Вахрушевым. При наличии тысяч таргетов другие бустинги будут работать в сотни раз медленней чем Pyboost, и часто уступят ему по качеству.
Идея 2. Использование современных "protein language models". Поразительные способности ChatGPT известны всем. Актуальный подход к изучению свойств белковых последовательностей - состоит в переносе мощных моделей идейно (но не буквально) схожих с ChatGPT в биоинформатику. В данном конкурсе наиболее хорошо себя показала модель типа "T5" (Text-To-Text Transfer Transformer) (https://pubmed.ncbi.nlm.nih.gov/34232.... Мы использовали "эмбединги", которые данные модели создают из белков. И далее обучали бустинги и нейросети на этих эмбедингах.
И еще множество других идей (см. write-up (https://www.kaggle.com/competitions/c....

Доступные форматы для скачивания:
Скачать видео mp4
-
Информация по загрузке: