» » » Целительные алгоритмы: как искусственный интеллект совершил революцию в биомедицине

Целительные алгоритмы: как искусственный интеллект совершил революцию в биомедицине

Так генерирующая изображения нейросеть MidJourney «представляет» себе ответ на вопрос «Каким будет ИИ в роли врача» / ©Naked Science

В кино часто изображают искусственный интеллект и роботов коварными и злокозненными, но почти никогда лечащими смертельные заболевания или омолаживающими человеческие организмы. А ведь биомедицина — одна из наиболее важных сфер применения ИИ. За последние пять лет здесь произошло немало впечатляющих прорывов. Уже сейчас ИИ может реально помочь миллионам людей. Однако консерватизм и недоверие многих врачей старой школы к новым технологиям препятствуют широкому внедрению подобных систем.

Какие открытия совершил искусственный интеллект в молекулярной биологии и как они повлияют на лечение рака и продление жизни — в четвертой статье цикла Naked Science об ИИ и его влиянии на наше общество.

ИИ заглядывает внутрь клетки

Молекулярная биология долго была «мокрой» наукой — ученым приходилось работать главным образом в лабораториях, капая растворами и препаратами в пробирки. Новая эра началась в 1990 году со старта проекта «Геном человека». Более 30 прошедших с того момента лет ознаменовались несколькими ключевыми трендами.

Во-первых, это развитие технологий секвенирования — «чтения» последовательности нуклеотидов, элементарных букв в коде молекул ДНК и РНК, а также их последующее тотальное удешевление. Шутка ли — на получение сиквенса (расшифровки или «текста») первого полного генома человека потребовалось 13 лет и около трех миллиардов долларов (а с учетом инфляции на текущий момент — почти шесть миллиардов). Сегодня каждый может сделать то же самое за неделю-две, потратив всего от 600 до тысячи долларов!

Во-вторых, наступление «эры эпигенетики». Хотя эта наука имеет столетнюю предысторию, ее расцвет и изменение в парадигме понимания наследственности произошли также после 1990 года. Стало понятно, во многом тоже благодаря секвенированию, что важно не какие существуют гены и их мутации в геноме живых существ, а какие именно, как и почему активны в тот или иной момент времени. 

Третий тренд, объединяющий и надстраивающийся над первыми двумя — появление и взлет всевозможных «омиков». Центральная догма молекулярной биологии гласит: реализация генетической информации всегда идет по пути от ДНК через РНК к белкам. 

При этом все наши гены в ДНК формируют геном. Все экспрессированные (активные) в данный момент гены — совокупность РНК или транскриптом. Все синтезированные на основе мРНК белки — протеом. Все сигнальные пути в клетках, в которых задействованы экспрессированные белки, — интерактом. Ну а все молекулы-метаболиты — метаболом. При этом еще важно учитывать, что белки не только должны синтезироваться, но и пройти процесс фолдинга, или укладки в особую характерную трехмерную структуру, от которой также будут зависеть их свойства.

 На листе — типичный вывод данных программы PAL2NAL (она переводит множественные выравнивания белковых последовательностей и соответствующих последовательностей ДНК (или мРНК) в выравнивания кодонов) / © Darryl Leja, NHGRI

«Омики» породили в молекулярной биологии огромные объемы данных. В новую эпоху ключевыми исследователями в этой области стали «сухие» биоинформатики, специалисты по исследованию больших омикс-данных. Нередко эти люди никогда даже не бывали в лабораториях, но зато хорошо разбирались, как обрабатывать дата-сеты и находить внутри них закономерности. Один из лучших методов для этого — машинное обучение. Да и, как известно, большие данные — всегда главное топливо для систем искусственного интеллекта. Поэтому ИИ быстро превратился как в широко распространенный метод исследования в биологии, так и в прикладную технологию, реализующую научные открытия в виде полезного медицинского продукта для пациентов и врачей.

ИИ побеждает рак

Если геном — это в определенной степени стабильная характеристика клеток нашего организма (с учетом того что в нем могут возникать мутации), то все остальные «омики» меняются в зависимости от вида клеток, тканей, органов, состояния организма, воздействия факторов внешней среды и даже психологического стресса.

Например, в обыденном представлении рак — это некое единое заболевание. В действительности современные врачи называют раком только злокачественные опухоли эпителиальной ткани — карциномы. Однако такие новообразования могут возникать во всех тканях — костной, соединительной или мышечной (саркомы), нервной (глиомы), клетках лимфатической системы (лимфомы), крови и костного мозга (лейкемии) и так далее. 

Но важно даже не это. Те же самые солидные опухоли в матке или молочной железе двух женщин симптоматически выглядят совершенно одинаково, однако на уровне своего геномного, транскриптомного и протеомного профиля могут отличаться кардинально. А значит, если лечить их одинаковыми, стандартными методами, то в одном случае терапия может дать положительный результат, а в другом нет. 

Омикс-данные и технологии искусственного интеллекта открыли в медицине дорогу для персонализированной и прецизионной медицины, когда лечат не заболевание вообще, а конкретного пациента и характерную именно для него форму патологии с опорой на информацию о его уникальном профиле активных генов и экспрессированных белков здесь и сейчас.

Отличным примером успешной реализации прецизионного подхода и использования ИИ как для исследований, так и для индивидуальной диагностики и подбора наиболее эффективного лечения стали разработки российского биомедицинского стартапа Oncobox, резидента фонда «Сколково». Один из сооснователей и директор по науке в компании — доктор биологических наук Антон Буздин из ИБХ РАН, а среди исследователей — ведущие российские онкобиоинформатики из МФТИ и Сеченовского университета.

Для лечения солидных опухолей существует свыше 160 таргетных препаратов. Каждый из них воздействует на свои специфические молекулярные мишени в раковых клетках, из-за чего их эффективность отличается для разных групп пациентов. Для обоснованного выбора конкретного таргетного препарата для каждого пациента в Oncobox разработали особое диагностическое исследование.

В него входит полноэкзомное секвенирование нового поколения (Next Generation Sequencing, NGS) биоматериала опухоли, взятого с помощью пункции или после хирургической операции по ее удалению. Такое секвенирование позволяет «прочесть» свыше 22 500  кодирующих  белков генов и выявить в них все ведущие («драйверные») мутации, способные вызвать развитие опухоли у пациента.

 Визуализация роста раковых клеток в организме / ©Frank C. Marini, WFBCCC, NCI

Потом идет определение мутационной нагруженности опухоли (количества мутаций на каждый миллион нуклеотидов) и транскриптомный анализ активности генов по уровню экспрессии мРНК. На этом этапе выявляются отличия в экспрессии генов в опухолевой и нормальной ткани. Транскриптомные данные показывают, какие именно гены подавлены, а какие активны и могут стать мишенями для таргетных препаратов.

Завершают исследование два ноу-хау российской компании: интерактомный анализ, в ходе которого с помощью биоинформационных алгоритмов устанавливаются  специфичные для конкретной опухоли изменения молекулярных путей и моделируется воздействие на них большинства имеющихся на рынке противоопухолевых лекарств. А в финале на основе объединения геномных, транскриптомных и интерактомных данных искусственный интеллект строит индивидуальный рейтинг эффективности более чем для 160 таргетных препаратов. 

Лечащему врачу стоит обратить внимание на первые 5-10 позиций рейтинга. Туда часто попадают как конвенциональные препараты, применяющиеся в «золотом стандарте» терапии для данного вида опухолей, так и совершенно неожиданные. Предельно упрощая: у пациентки может быть рак яичника, но система рекомендует ей средство против рака легких. 

Проблема в том, что клиницисты старой школы обычно отказывают в прописывании подобных лекарств, так как они не входят в стандартные рекомендации. И здесь срабатывают не только предубеждение и отсутствие понимания специфики современной прецизионной медицины и работы искусственного интеллекта, но и определенные юридические опасения. Однако на поздних стадиях онкологических заболеваний врачи могут назначать препараты off-label (нестандартные, в том числе и экспериментальные), и часто пациенты после их приема показывают хороший ответ на терапию. Тем не менее вопрос доверия онкологов «второму мнению» от ИИ и возможность выписать на его основе данные препараты для больного все равно остается.

ИИ преодолевает старение

Науку о продлении жизни (longevity science) тоже трудно сейчас представить без технологий искусственного интеллекта. Так, Александр Жаворонков, в прошлом приглашенный профессор МФТИ и заведующий лабораторией биоинформатики ФНКЦ ДГОИ запустил стартапы Insilico Medicine и Deep Longevity, где для поиска средств «вечной молодости» использует глубокое обучение. В эти компании вложился даже широко известный визионер и евангелист ИИ из Китая Кай-Фу Ли, имеющий около 70 миллионов подписчиков в социальных сетях.

Модели глубокого обучения активно применяются для определения биологических маркеров, которые могли бы служить объективными показателями возраста. Наборы таких показателей, найденные нейросетью, называются DAC — Deep Aging Clocks. Среди них «часы» совершенно разных типов: генетические, эпигенетические, протеомные, а также психологические (по результатам ответов на опросники), по результатам общего анализа крови, по данным электрокардиографии и энцефалографии, даже просто по фотографиям лица.

Около 17 DAC как раз и обнаружила компания Deep Longevity. Например, коллектив ученых под руководством Жаворонкова изучил с помощью машинного обучения транскриптомы клеток скелетных мышц. Проследив за возрастными изменениями в активности генов, им удалось показать, что главную роль в старении играют гены, участвующие в поддержании баланса ионов кальция и в ряде внутриклеточных сигнальных путей, включая взаимодействие с нейромедиаторами.

 ©Daniele Levis Pelusi, Unsplash

Любой из DAC может стать биологической мишенью для препарата, направленного против старения. В их поиске также помогают нейросети. Они осуществляют скрининг фармакологических баз данных, в которых содержатся сведения о свойствах миллионов уже известных молекул. Сопоставляя и комбинируя множество их сочетаний, ИИ определяет потенциальные субстанции, способные повлиять на ту или иную биологическую мишень. Более того, нейросети способны также предсказать, какие из уже используемых в фармакологии веществ могут иметь пока неизученное «противовозрастное» действие, и какие понадобятся химические модификации для усиления нужного эффекта.

Как итог, благодаря ИИ молекулярный скрининг, ранее требовавший множества реальных и ресурсоемких экспериментов, превратился в задачу, решаемую сравнительно недолгими вычислениями, in silico — «в кремнии», то есть на компьютере с помощью машинного обучения. А генеративно-состязательные нейросети (Generative adversarial network, GAN) — две противоборствующие друг с другом в рамках одной модели (первая, условно, предлагает решения, а вторая их отбраковывает) — могут генерировать потенциальные молекулы с нужной структурой и функциями «с нуля».

Наиболее известны среди них модели SeqGAN, RANC и ATNC. При этом в 2017 году Insilico Medicine Александра Жаворонкова также представила свою модель druGAN, способную генерировать небольшие соединения с заранее заданной способностью воздействия на мишени в раковых опухолях.

ИИ предсказывает ДНК

За последние два года огромные прорывы произошли в технологиях обработки естественного языка (Natural language processing, NLP). Большое развитие получили генеративные языковые модели, такие как GPT-3 и LaMDA для английского языка, созданные в Сбере ruGPT-3 и в Яндексе YaLM 100B для русского языка, мультиязычные BLOOM и mGPT. При этом все они способны работать не только с естественными языками, но и с другими знаковыми системами — языками программирования, нотными записями, математическими выражениями и так далее.

Но ведь код ДНК — тоже своеобразный «язык». Ну или как минимум знаковая система со своим алфавитом, способами и правилами его сочетания в «слова» и грамматикой «выражений». Во многом это, конечно, метафора, но продуктивная. Потому что с расшифрованным геномом человека можно работать как с текстом, используя современные NLP-модели.

Весной этого года ученые из научной группы «Биоинформатика» российского Института изучения искусственного интеллекта AIRI (Artificial Intelligence Research Institute) совершили прорыв мирового уровня. Они представили языковую модель-трансформер GENA-LM, впервые обученную на новейшем дата-сете T2T-CHM13, который содержит самую полную на сегодня информацию о последовательности ДНК человека.

Дело в том, что в рамках проекта «Геном человека» в 2003 году был секвенирован отнюдь не полный геном, а только его 85% — так называемый эухроматин, то есть сами гены и участки между ними. Другую, вспомогательную часть — гетерохроматин окончательно расшифровали только весной 2022 года. 

В GENA-LM кодировщик преобразует входные последовательности в векторные представления, с которыми уже работает декодировщик. Эту систему разработчики дополнили механизмом внимания BigBird, повышающего эффективность обработки особо длинных последовательностей. В ходе обучения задача модели была предсказать 15% скрытой части последовательности на основании открытых 85%.

Подобная языковая модель, «понимающая» скрытые закономерности в последовательности человеческой ДНК, позволит лучше разобраться в механизмах ее работы, а также возникающих в них опасных нарушений. Теперь с помощью GENA-LM можно находить участки, которые активизируют или, наоборот, подавляют работу отдельных генов и целых генных каскадов. Все это также пригодится в продвижении прецизионной диагностики и терапии.

ИИ сворачивает белки

Завершая разговор о влиянии ИИ на молекулярную биологию, невозможно обойти знаменитую модель-трансформер AlphaFold 2 от компании DeepMind. Представленная в конце 2020 года, к июлю 2022-го она сгенерировала трехмерные структуры более чем для 200 миллионов белков. Как выразились сами разработчики, «всей белковой вселенной».

  Визуализация работы «сворачивательного» алгоритма AlphaFold / © Karen Arnott/EMBL-EBI

И это отнюдь не голословное утверждение. Выложенный в открытый доступ дата-сет включает информацию о белках архей и бактерий, растений, грибов и животных. То есть всех четырех выделяемых биологами царств живых организмов.

Белки — ключевые молекулы жизни. Они закодированы в последовательностях ДНК, но во многом их свойства и функции определяются сложной пространственной формой. Она задается в процессе укладки (фолдинга) как последовательностью аминокислот, из которых все белки состоят, так и условиями сворачивания цепочки и рядом других факторов.

В молекулярной биологии до появления искусственного интеллекта для определения механизма работы того или иного белка его структуру приходилось устанавливать экспериментально. Это требовало больших усилий и ресурсов, исследования могли занимать не один год. Однако за несколько десятилетий ученые во всем мире смогли собрать данные о структуре почти 200 тысяч белков.

Созданный дата-сет использовали для обучения модели AlphaFold 2. Как итог — ИИ за полтора года на три порядка превзошел усилия всего научного сообщества молекулярных биологов Земли за совокупное время его существования.

Вместо заключения

ИИ радикально изменил биологическую науку, в институтских и университетских лабораториях, R&D-подразделениях частных компаний происходит фейерверк открытий. Но если там действительно видна медицина первой трети XXI века, то в реальных системах здравоохранения разных стран мы в лучшем случае наблюдаем конец XX века.

«Каждое направление применения ИИ в биологии порождает целую область применения в области практического здравоохранения. Задача биомедицинского кластера Фонда “Сколково” на этапе формирования понимания практического применения той или иной концепции поддержать команду, чтобы эта технология вышла на рынок и смогла доказать свою состоятельность. Здесь кроется большая и трудоемкая работа с моделями функционирования систем здравоохранения разных стран и в целом индустрии наук о жизни. Изменить ситуацию может только просвещение медработников в области ИИ, органичное преобразование государственных политик регулирования, стандартов и законодательной базы», — считает Сергей Воинов, директор по акселерации по направлению цифровая медицина биомедицинского кластера Фонда «Сколково».



ДРУГИЕ НОВОСТИ

Комментарии

Информация
Посетители, находящиеся в группе Гости, не могут оставлять комментарии к данной публикации.
САМОЕ ЧИТАЕМОЕ / КОММЕНТИРУЕМОЕ
  1. Hyundai показала свой город будущего. Он похож на пчелиные соты
  2. Найдена планета на границе обитаемой зоны. Ее температура похожа на земную
  3. Исследователи зафиксировали самый крупный вулканический шлейф в истории
  4. Уязвимость Wi-Fi позволяет «заглядывать» сквозь стену
  5. Астрономы впервые заглянули в «сердце» джетов квазара
  6. Во Франции разрешили заправлять машины использованным маслом для фритюра
  7. Xiaomi выпустила смартфон с гигантской камерой
  8. Матрас на кровать: каким он должен быть?
  9. Рекорд скорости Tesla побили: хорватский электромобиль стал самым быстрым в мире
  10. «Манчестер Юнайтед» расторг контракт с Роналду
Как работать на себя с 2023 года? Вот что рассказали в МНС
Как работать на себя с 2023 года? Вот что рассказали в МНС
В Министерстве по налогам и сборам сообщили, что сейчас готовится проект постановления правительства и там будет определен Читать далее
Что изменится для белорусов в июле
Что изменится для белорусов в июле
Традиционно в середине июля белорусам предстоит пережить множество нововведений, изменений и дополнений. Читать далее
Все новости
Галерея