Так генерирующая изображения нейросеть MidJourney «представляет» себе ответ на вопрос «Каким будет ИИ в роли врача» / ©Naked Science
В кино часто изображают искусственный интеллект и роботов коварными и злокозненными, но почти никогда лечащими смертельные заболевания или омолаживающими человеческие организмы. А ведь биомедицина — одна из наиболее важных сфер применения ИИ. За последние пять лет здесь произошло немало впечатляющих прорывов. Уже сейчас ИИ может реально помочь миллионам людей. Однако консерватизм и недоверие многих врачей старой школы к новым технологиям препятствуют широкому внедрению подобных систем.
Какие открытия совершил искусственный интеллект в молекулярной биологии и как они повлияют на лечение рака и продление жизни — в четвертой статье цикла Naked Science об ИИ и его влиянии на наше общество.
ИИ заглядывает внутрь клетки
Молекулярная биология долго была «мокрой» наукой — ученым приходилось работать главным образом в лабораториях, капая растворами и препаратами в пробирки. Новая эра началась в 1990 году со старта проекта «Геном человека». Более 30 прошедших с того момента лет ознаменовались несколькими ключевыми трендами.
Во-первых, это развитие технологий секвенирования — «чтения» последовательности нуклеотидов, элементарных букв в коде молекул ДНК и РНК, а также их последующее тотальное удешевление. Шутка ли — на получение сиквенса (расшифровки или «текста») первого полного генома человека потребовалось 13 лет и около трех миллиардов долларов (а с учетом инфляции на текущий момент — почти шесть миллиардов). Сегодня каждый может сделать то же самое за неделю-две, потратив всего от 600 до тысячи долларов!
Во-вторых, наступление «эры эпигенетики». Хотя эта наука имеет столетнюю предысторию, ее расцвет и изменение в парадигме понимания наследственности произошли также после 1990 года. Стало понятно, во многом тоже благодаря секвенированию, что важно не какие существуют гены и их мутации в геноме живых существ, а какие именно, как и почему активны в тот или иной момент времени.
Третий тренд, объединяющий и надстраивающийся над первыми двумя — появление и взлет всевозможных «омиков». Центральная догма молекулярной биологии гласит: реализация генетической информации всегда идет по пути от ДНК через РНК к белкам.
При этом все наши гены в ДНК формируют геном. Все экспрессированные (активные) в данный момент гены — совокупность РНК или транскриптом. Все синтезированные на основе мРНК белки — протеом. Все сигнальные пути в клетках, в которых задействованы экспрессированные белки, — интерактом. Ну а все молекулы-метаболиты — метаболом. При этом еще важно учитывать, что белки не только должны синтезироваться, но и пройти процесс фолдинга, или укладки в особую характерную трехмерную структуру, от которой также будут зависеть их свойства.
На листе — типичный вывод данных программы PAL2NAL (она переводит множественные выравнивания белковых последовательностей и соответствующих последовательностей ДНК (или мРНК) в выравнивания кодонов) / © Darryl Leja, NHGRI
«Омики» породили в молекулярной биологии огромные объемы данных. В новую эпоху ключевыми исследователями в этой области стали «сухие» биоинформатики, специалисты по исследованию больших омикс-данных. Нередко эти люди никогда даже не бывали в лабораториях, но зато хорошо разбирались, как обрабатывать дата-сеты и находить внутри них закономерности. Один из лучших методов для этого — машинное обучение. Да и, как известно, большие данные — всегда главное топливо для систем искусственного интеллекта. Поэтому ИИ быстро превратился как в широко распространенный метод исследования в биологии, так и в прикладную технологию, реализующую научные открытия в виде полезного медицинского продукта для пациентов и врачей.
ИИ побеждает рак
Если геном — это в определенной степени стабильная характеристика клеток нашего организма (с учетом того что в нем могут возникать мутации), то все остальные «омики» меняются в зависимости от вида клеток, тканей, органов, состояния организма, воздействия факторов внешней среды и даже психологического стресса.
Например, в обыденном представлении рак — это некое единое заболевание. В действительности современные врачи называют раком только злокачественные опухоли эпителиальной ткани — карциномы. Однако такие новообразования могут возникать во всех тканях — костной, соединительной или мышечной (саркомы), нервной (глиомы), клетках лимфатической системы (лимфомы), крови и костного мозга (лейкемии) и так далее.
Но важно даже не это. Те же самые солидные опухоли в матке или молочной железе двух женщин симптоматически выглядят совершенно одинаково, однако на уровне своего геномного, транскриптомного и протеомного профиля могут отличаться кардинально. А значит, если лечить их одинаковыми, стандартными методами, то в одном случае терапия может дать положительный результат, а в другом нет.
Омикс-данные и технологии искусственного интеллекта открыли в медицине дорогу для персонализированной и прецизионной медицины, когда лечат не заболевание вообще, а конкретного пациента и характерную именно для него форму патологии с опорой на информацию о его уникальном профиле активных генов и экспрессированных белков здесь и сейчас.
Отличным примером успешной реализации прецизионного подхода и использования ИИ как для исследований, так и для индивидуальной диагностики и подбора наиболее эффективного лечения стали разработки российского биомедицинского стартапа Oncobox, резидента фонда «Сколково». Один из сооснователей и директор по науке в компании — доктор биологических наук Антон Буздин из ИБХ РАН, а среди исследователей — ведущие российские онкобиоинформатики из МФТИ и Сеченовского университета.
Для лечения солидных опухолей существует свыше 160 таргетных препаратов. Каждый из них воздействует на свои специфические молекулярные мишени в раковых клетках, из-за чего их эффективность отличается для разных групп пациентов. Для обоснованного выбора конкретного таргетного препарата для каждого пациента в Oncobox разработали особое диагностическое исследование.
В него входит полноэкзомное секвенирование нового поколения (Next Generation Sequencing, NGS) биоматериала опухоли, взятого с помощью пункции или после хирургической операции по ее удалению. Такое секвенирование позволяет «прочесть» свыше 22 500 кодирующих белков генов и выявить в них все ведущие («драйверные») мутации, способные вызвать развитие опухоли у пациента.
Визуализация роста раковых клеток в организме / ©Frank C. Marini, WFBCCC, NCI
Потом идет определение мутационной нагруженности опухоли (количества мутаций на каждый миллион нуклеотидов) и транскриптомный анализ активности генов по уровню экспрессии мРНК. На этом этапе выявляются отличия в экспрессии генов в опухолевой и нормальной ткани. Транскриптомные данные показывают, какие именно гены подавлены, а какие активны и могут стать мишенями для таргетных препаратов.
Завершают исследование два ноу-хау российской компании: интерактомный анализ, в ходе которого с помощью биоинформационных алгоритмов устанавливаются специфичные для конкретной опухоли изменения молекулярных путей и моделируется воздействие на них большинства имеющихся на рынке противоопухолевых лекарств. А в финале на основе объединения геномных, транскриптомных и интерактомных данных искусственный интеллект строит индивидуальный рейтинг эффективности более чем для 160 таргетных препаратов.
Лечащему врачу стоит обратить внимание на первые 5-10 позиций рейтинга. Туда часто попадают как конвенциональные препараты, применяющиеся в «золотом стандарте» терапии для данного вида опухолей, так и совершенно неожиданные. Предельно упрощая: у пациентки может быть рак яичника, но система рекомендует ей средство против рака легких.
Проблема в том, что клиницисты старой школы обычно отказывают в прописывании подобных лекарств, так как они не входят в стандартные рекомендации. И здесь срабатывают не только предубеждение и отсутствие понимания специфики современной прецизионной медицины и работы искусственного интеллекта, но и определенные юридические опасения. Однако на поздних стадиях онкологических заболеваний врачи могут назначать препараты off-label (нестандартные, в том числе и экспериментальные), и часто пациенты после их приема показывают хороший ответ на терапию. Тем не менее вопрос доверия онкологов «второму мнению» от ИИ и возможность выписать на его основе данные препараты для больного все равно остается.
ИИ преодолевает старение
Науку о продлении жизни (longevity science) тоже трудно сейчас представить без технологий искусственного интеллекта. Так, Александр Жаворонков, в прошлом приглашенный профессор МФТИ и заведующий лабораторией биоинформатики ФНКЦ ДГОИ запустил стартапы Insilico Medicine и Deep Longevity, где для поиска средств «вечной молодости» использует глубокое обучение. В эти компании вложился даже широко известный визионер и евангелист ИИ из Китая Кай-Фу Ли, имеющий около 70 миллионов подписчиков в социальных сетях.
Модели глубокого обучения активно применяются для определения биологических маркеров, которые могли бы служить объективными показателями возраста. Наборы таких показателей, найденные нейросетью, называются DAC — Deep Aging Clocks. Среди них «часы» совершенно разных типов: генетические, эпигенетические, протеомные, а также психологические (по результатам ответов на опросники), по результатам общего анализа крови, по данным электрокардиографии и энцефалографии, даже просто по фотографиям лица.
Около 17 DAC как раз и обнаружила компания Deep Longevity. Например, коллектив ученых под руководством Жаворонкова изучил с помощью машинного обучения транскриптомы клеток скелетных мышц. Проследив за возрастными изменениями в активности генов, им удалось показать, что главную роль в старении играют гены, участвующие в поддержании баланса ионов кальция и в ряде внутриклеточных сигнальных путей, включая взаимодействие с нейромедиаторами.
©Daniele Levis Pelusi, Unsplash
Любой из DAC может стать биологической мишенью для препарата, направленного против старения. В их поиске также помогают нейросети. Они осуществляют скрининг фармакологических баз данных, в которых содержатся сведения о свойствах миллионов уже известных молекул. Сопоставляя и комбинируя множество их сочетаний, ИИ определяет потенциальные субстанции, способные повлиять на ту или иную биологическую мишень. Более того, нейросети способны также предсказать, какие из уже используемых в фармакологии веществ могут иметь пока неизученное «противовозрастное» действие, и какие понадобятся химические модификации для усиления нужного эффекта.
Как итог, благодаря ИИ молекулярный скрининг, ранее требовавший множества реальных и ресурсоемких экспериментов, превратился в задачу, решаемую сравнительно недолгими вычислениями, in silico — «в кремнии», то есть на компьютере с помощью машинного обучения. А генеративно-состязательные нейросети (Generative adversarial network, GAN) — две противоборствующие друг с другом в рамках одной модели (первая, условно, предлагает решения, а вторая их отбраковывает) — могут генерировать потенциальные молекулы с нужной структурой и функциями «с нуля».
Наиболее известны среди них модели SeqGAN, RANC и ATNC. При этом в 2017 году Insilico Medicine Александра Жаворонкова также представила свою модель druGAN, способную генерировать небольшие соединения с заранее заданной способностью воздействия на мишени в раковых опухолях.
ИИ предсказывает ДНК
За последние два года огромные прорывы произошли в технологиях обработки естественного языка (Natural language processing, NLP). Большое развитие получили генеративные языковые модели, такие как GPT-3 и LaMDA для английского языка, созданные в Сбере ruGPT-3 и в Яндексе YaLM 100B для русского языка, мультиязычные BLOOM и mGPT. При этом все они способны работать не только с естественными языками, но и с другими знаковыми системами — языками программирования, нотными записями, математическими выражениями и так далее.
Но ведь код ДНК — тоже своеобразный «язык». Ну или как минимум знаковая система со своим алфавитом, способами и правилами его сочетания в «слова» и грамматикой «выражений». Во многом это, конечно, метафора, но продуктивная. Потому что с расшифрованным геномом человека можно работать как с текстом, используя современные NLP-модели.
Весной этого года ученые из научной группы «Биоинформатика» российского Института изучения искусственного интеллекта AIRI (Artificial Intelligence Research Institute) совершили прорыв мирового уровня. Они представили языковую модель-трансформер GENA-LM, впервые обученную на новейшем дата-сете T2T-CHM13, который содержит самую полную на сегодня информацию о последовательности ДНК человека.
Дело в том, что в рамках проекта «Геном человека» в 2003 году был секвенирован отнюдь не полный геном, а только его 85% — так называемый эухроматин, то есть сами гены и участки между ними. Другую, вспомогательную часть — гетерохроматин окончательно расшифровали только весной 2022 года.
В GENA-LM кодировщик преобразует входные последовательности в векторные представления, с которыми уже работает декодировщик. Эту систему разработчики дополнили механизмом внимания BigBird, повышающего эффективность обработки особо длинных последовательностей. В ходе обучения задача модели была предсказать 15% скрытой части последовательности на основании открытых 85%.
Подобная языковая модель, «понимающая» скрытые закономерности в последовательности человеческой ДНК, позволит лучше разобраться в механизмах ее работы, а также возникающих в них опасных нарушений. Теперь с помощью GENA-LM можно находить участки, которые активизируют или, наоборот, подавляют работу отдельных генов и целых генных каскадов. Все это также пригодится в продвижении прецизионной диагностики и терапии.
ИИ сворачивает белки
Завершая разговор о влиянии ИИ на молекулярную биологию, невозможно обойти знаменитую модель-трансформер AlphaFold 2 от компании DeepMind. Представленная в конце 2020 года, к июлю 2022-го она сгенерировала трехмерные структуры более чем для 200 миллионов белков. Как выразились сами разработчики, «всей белковой вселенной».
Визуализация работы «сворачивательного» алгоритма AlphaFold / © Karen Arnott/EMBL-EBI
И это отнюдь не голословное утверждение. Выложенный в открытый доступ дата-сет включает информацию о белках архей и бактерий, растений, грибов и животных. То есть всех четырех выделяемых биологами царств живых организмов.
Белки — ключевые молекулы жизни. Они закодированы в последовательностях ДНК, но во многом их свойства и функции определяются сложной пространственной формой. Она задается в процессе укладки (фолдинга) как последовательностью аминокислот, из которых все белки состоят, так и условиями сворачивания цепочки и рядом других факторов.
В молекулярной биологии до появления искусственного интеллекта для определения механизма работы того или иного белка его структуру приходилось устанавливать экспериментально. Это требовало больших усилий и ресурсов, исследования могли занимать не один год. Однако за несколько десятилетий ученые во всем мире смогли собрать данные о структуре почти 200 тысяч белков.
Созданный дата-сет использовали для обучения модели AlphaFold 2. Как итог — ИИ за полтора года на три порядка превзошел усилия всего научного сообщества молекулярных биологов Земли за совокупное время его существования.
Вместо заключения
ИИ радикально изменил биологическую науку, в институтских и университетских лабораториях, R&D-подразделениях частных компаний происходит фейерверк открытий. Но если там действительно видна медицина первой трети XXI века, то в реальных системах здравоохранения разных стран мы в лучшем случае наблюдаем конец XX века.
«Каждое направление применения ИИ в биологии порождает целую область применения в области практического здравоохранения. Задача биомедицинского кластера Фонда “Сколково” на этапе формирования понимания практического применения той или иной концепции поддержать команду, чтобы эта технология вышла на рынок и смогла доказать свою состоятельность. Здесь кроется большая и трудоемкая работа с моделями функционирования систем здравоохранения разных стран и в целом индустрии наук о жизни. Изменить ситуацию может только просвещение медработников в области ИИ, органичное преобразование государственных политик регулирования, стандартов и законодательной базы», — считает Сергей Воинов, директор по акселерации по направлению цифровая медицина биомедицинского кластера Фонда «Сколково».