Михаил Беляев / Разговоры за жизнь / Skoltech x РНФ

РАЗГОВОРЫ
ЗА ЖИЗНЬ

Михаил Беляев
Алгоритм — врачу не конурент.
А помощник!

РАЗГОВОРЫ
ЗА ЖИЗНЬ

Михаил Беляев
Алгоритм — врачу не конурент.
А помощник!

Разговор

о том, как машинное обучение может привести от «Формулы-1» к медицине,
о том, что искусственный интеллект может сделать для пациентов и врачей уже сегодня — и что сможет завтра
Герой

Михаил Беляев, кандидат физико-математических наук, основатель компании АЙРА Лабс
Собеседник

Кристина Уласович, научный журналист
Беседовали

в сентябре 2021 г.

— Михаил, за вашу профессиональную карьеру вы успели испытать капсулы для «Формулы-1», построить модели системы охлаждения атомной электростанции, а теперь перешли в медицину. Как это получилось?
— Вероятно, ключевой связующий термин здесь — машинное обучение. Первая часть моей карьеры действительно связана с индустриальными приложениями. Мы делали новые алгоритмы машинного обучения для инженеров и помогали решать различные задачи — в основном это было проектирование: например, мы работали с аэродинамикой самолетов и прочностными характеристиками болидов «Формулы-1». В какой-то момент мне захотелось поменять область деятельности, найти направление, в котором, с одной стороны, есть много данных, а с другой стороны — много открытых вопросов, на которые можно было бы потенциально ответить с помощью алгоритмов машинного обучения.
Какое-то время мы искали свою нишу и сначала занялись нейроинтерфейсами. Интерфейс «мозг — компьютер» генерирует Фотографировал Стас Любаускас много данных по мере того, как меняется электрическая активность мозга во время мыслительных процессов. Однако при использовании неинвазивных электродов — таких, которые, в отличие от чипа Илона Маска, просто кладутся на голову, — сигналы оказываются слишком слабыми, а это существенное ограничение при обработке. Позже мы переключились на нейронауки, где тоже много данных, причем очень сложных, — это функциональная и структурная МРТ, по которым можно понимать, как устроена структура мозга у конкретного человека и как он функционирует при решении той или иной модельной задачи.
Но затем я понял, что анализ данных в нейронауках пока слишком далек от реальной жизни. Это абсолютно фундаментальные исследования, и не факт, что они приведут к какому-то результату. Поэтому мы занялись анализом медицинских изображений, но уже в контексте помощи врачам — то есть начали решать конкретные проблемы.

— Как строится ваше взаимодействие с врачами?
— Вообще, есть два типа исследований в этой области. Первый жанр — мы хотим решить какую-то чисто алгоритмическую задачу фундаментального характера. Например, подобную работу мы ведем в рамках моего текущего гранта РНФ. Как правило, когда на снимке что-то ищут, то пытаются выделить конкретный участок изображения или какой-то интересный объект. Самый популярный пример — поиск лица на фотографии, сейчас многие смартфоны умеют квадратиком обводить лица и фокусироваться на них. Но в медицине постановка задачи намного сложнее, так как обычно мы хотим уже не просто обвести область квадратиком, а аккуратно очертить границу на снимке (как в случае с опухолью). Кроме того, изображения, с которыми мы работаем, — МРТ и КТ — трехмерные. То есть это скорее стопка картинок, потому что сканирование проводится уровень за уровнем. И если мы на этих стопках картинок хотим решать задачу поиска контуров, или сегментации, например для выделения метастаза, то возникают сложности. Оказывается, в медицине часто ищут не трехмерные объекты, например шарик, а двухмерные — поверхность или вообще кривую. И хороших методов, которые помогли бы выделить на изображении сложную поверхность, имея в качестве входных данных лишь исходный снимок, сегодня нет.
Можно назвать еще один пример фундаментальной задачи, тоже очень важный. У медицинских данных есть характерная особенность: снимки внутри одной больницы очень похожи друг на друга (да, анатомия у всех, безусловно, разная, но стиль картинок — их яркость, резкость, — как правило, совпадает), но если прийти в другое учреждение, то там всё будет выглядеть совершенно иначе: теперь новые участки изображения будут более яркими, а другие — более темными. С точки зрения человека, это не очень большая проблема.
Мы с вами можем посмотреть на снимок, нам объяснят, что вот эти белые пятнышки — это очаг демиелинизации белого вещества, возможно, рассеянный склероз, а потом мы придем в другую больницу, посмотрим на их снимки и, в принципе, такие же пятнышки найдем. Алгоритмы этого делать не умеют. Они совершенно драматически ломаются, когда им начинают показывать картинки, которые, в принципе, похожи, но имеют другой стиль. Это большое направление — как придумать алгоритмы, которые будут лучше переноситься между разными источниками данных.
Второй жанр исследований — это конкретные прикладные, потребность в которых возникает у врача в клинической практике каждый день, и он хотел бы получить помощь в решении от алгоритма. Здесь, как правило, два потенциальных положительных эффекта. Первый — алгоритм может что-то измерить автоматически гораздо быстрее и, как правило, точнее, чем это делается вручную. Например, врачи рутинно обводят на снимках МРТ границы опухоли перед тем, как начать лучевую терапию, и это можно делать с помощью системы искусственного интеллекта — а специалист будет смотреть и корректировать результат работы алгоритма при необходимости. Такого рода исследования мы делали с Институтом нейрохирургии имени Бурденко. Здесь очень важный результат — это оценка того, как алгоритм компьютерного зрения поменял жизнь специалиста. Оказалось, что благодаря алгоритмам мы заметно повышаем согласованность между разными врачами. Оценка границ опухоли — это всётаки субъективная процедура. Кто-то решает, что вот этот кусочек надо добавить, потому что он какой-то подозрительный, а кто-то говорит — нет, не надо. Теперь же у врачей есть сценарий, когда сначала им дается подсказка, с которой они могут либо согласиться, либо нет.
И другая, более очевидная польза: мы помогаем найти сопутствующие патологии, то есть алгоритм может «увидеть» то, на что специалист не обратит внимания. Здесь можно привести очень жизненный пример. В период пандемии коронавируса исследования КТ проводились рутинно, очень большим потоком. Врачи в условиях нехватки времени и конкретной поставленной задачи, само собой, концентрировались на легких. На другие органы они просто не успевали посмотреть — а на КТ органов грудной клетки видны сердце, позвоночник, основные сосуды, виден кусочек печени, то есть очень много органов, в которых тоже что-то может быть не так. И здесь может пригодиться алгоритм, который оповестит врача, если заметит нечто подозрительное.
Это два разных жанра. Один — это фундаментальные исследования, где мы исходим из некой алгоритмической проблемы. Второй — более прикладные истории, где мы хотим помочь врачу сделать конкретный инструмент для работы.

— Ваши исследования, получается, близки и к наукам о жизни?
— То, что я делаю, — это computer science. Вся моя группа — это люди по большому счёту с техническим образованием. Мы уже кое-что знаем про то, как работает медицина, но всё-таки основное требование — это компьютерные науки. И в этом смысле наши исследования от биологии очень далеки. Здесь мы скорее идем по пути поиска хороших партнеров, то есть мы хорошо знаем техническую часть, и нужны врачи, которые нашу энергию направят в правильную сторону и объяснят, что нужно делать, что для них важно, а что — нет. Врачи в некотором смысле — модельный пользователь. Они уже знают, как решать их задачу и чего им не хватает для хорошей жизни.

— Алгоритмы начали развиваться гдето с 60-х годов прошлого века, и обработка изображений существует уже достаточно давно. Как сейчас обстоят дела в вашей области ИИ в медицине?
— В компьютерном зрении, в широком смысле, произошел прорыв где-то 6–7 лет назад, который после этого начал распространяться в разные области, в том числе и в медицину. Поэтому сначала было большое воодушевление — все думали, что сейчас мы решим огромное количество задач, которые решить раньше не получалось. А теперь наступило некоторое разочарование, или скорее объективная оценка того, что происходит. Выяснилось, что тот первоначальный массив научных статей, который дал основание считать, что сейчас всё будет здорово, был во многом некорректно с фактологической точки зрения построен.В частности, исследователи брали данные из одной больницы и показывали: «Смотрите, у нас супералгоритм». А потом выяснялось, что в соседней больнице программа совершенно не работает. Медицина как отрасль давно выработала определенные правила проверки эффективности. Многоцентровые испытания — это одна из форм проверки, которая используется для тестирования, например, новых лекарств, но их важность для систем искусственного интеллекта стали понимать лишь недавно. И теперь, мне кажется, происходит реальная оценка того, что реально алгоритмы могут, а что нет.
Параллельно специалисты пытаются точнее понять, собственно, какие задачи остаются открытыми.
Оказывается, что еще многое не решено и пока не создан универсальный алгоритм, который сможет в перспективе заменить врача, о чём так любят говорить разные популисты. Ограничений у искусственного интеллекта много — он всё-таки пока довольно глупый, — и неизвестно, куда его удастся в ближайшие годы с этой точки сдвинуть.

— Это минусы, а что насчет плюсов, самых больших достижений в вашей области за последние годы?
— Если говорить про компьютерное зрение вне медицины, то прорыв произошел около 6 лет назад в ImageNet Challenge — одном из самых ярких публичных соревнований. Участникам в рамках конкурса выдается около миллиона картинок, на которых изображен какой-то объект. Или объектов может быть несколько, но главным будет что-то одно: например, собака. И каждая порода будет представлять собой один класс в этом соревновании — а их больше ста. Прорыв случился, когда точность классификации алгоритмами выросла примерно с 60–70 %, что очень сильно уступало человеку, до 97–98 %. При этом, по разным оценкам, человек допускает 3–4 % ошибок. То есть оказалось, что нейросеть справляется с задачей лучше, чем человек.
Следующий прорыв был ближе к искусственному интеллекту, но технологически всё еще похож на предыдущий. Примерно 5 лет назад AlphaGo — программа, которую сделала лаборатория компании Google Deep Mind, — обыграла человека в го. Го всегда считалось самой сложной для алгоритмизации игрой, гораздо сложнее, чем шахматы, потому что вариантов развития ситуации на доске в ней принципиально больше.
В медицине одним из самых известных достижений стало решение по поиску признаков рака легкого на КТ грудной клетки (тоже, кстати, от Google). Оказалось, что при анализе единичного снимка — когда человек пришел, его просканировали и тут же отдали эти данные на обработку — алгоритм показывает даже большую точность, чем врач. А в сценарии, когда тот же пациент уже раньше приходил в больницу (а значит, можно было проследить за изменениями), качество работы компьютера и живого специалиста было примерно одинаковым.
При этом в прошлом году в Lancet — самом авторитетном и самом старом медицинском журнале — вышла статья, рассказывающая о том, насколько плохо делается валидация алгоритмов искусственного интеллекта и как сильно она не соответствует клиническим требованиям. На самом деле, безусловно, потенциал у технологии есть, однако говорить, что она уже может взять на себя какую-то существенную часть задач, пока нельзя.
Медицина — достаточно консервативная отрасль. Цикл испытаний, который требуется для того, чтобы войти в нее — неважно, с новым фармпрепаратом или с новым программным обеспечением, — занимает определенное время. Этот факт несколько тормозит внедрение инноваций.

— А есть ли интересные российские примеры применения ИИ для решения медицинских задач?
— Да, конечно. В России самый известный и хорошо организованный — эксперимент по внедрению технологий компьютерного зрения, который проводится уже второй год в поликлиниках и городских больницах Москвы. Департамент здравоохранения предложил компаниям, у которых уже есть собственные разработки, подключиться к потоку данных медицинских изображений (КТ, МРТ, флюорография, маммография) и предоставлять врачам результаты работы алгоритмов — либо автоматически «подсвечивать» какие-то патологии, либо автоматически проводить измерения и помогать врачу.
Изначально предполагалось, что искусственный интеллект будет помогать находить рак легкого и рак молочной железы, однако потом случилась пандемия, и в итоге к списку прибавился коронавирус. Задача заключалась в следующем: понять, насколько картина, которая наблюдается в легких, похожа на поражение коронавирусом, есть ли там другие патологии и какой процент легочной ткани поражен. В итоге получился довольно любопытный результат.
Из 15 разных российских и иностранных компаний, которые поучаствовали в проекте, семь не прошли входное тестирование: то есть их программа либо работала слишком медленно, либо выдавала некачественный результат. Из оставшихся выбрали три лидера, которые в сумме обработали данные порядка сотни тысяч человек. Аналогов такого масштабного проекта в мире я не знаю.

— Получается, что пока искусственный интеллект врачу не замена. А хороший ли он помощник? Насколько сейчас можно в принципе полагаться на алгоритмы?
— Это очень хороший вопрос. Сейчас, на самом деле, мало хороших оценок… Они есть в научных статьях, но обычно с ограничениями. Например, взяли данные из одной больницы и здесь же определили качество работы программы. Но совершенно не факт, что при выходе на широкий рынок продукт будет давать такой же высокий результат. В этом смысле Москва — независимый полигон для всех поставщиков, и поэтому интересно будет последить за публикациями.
Есть отдельный научный центр, который анализирует результаты, но я пока что не видел официальных итогов. По предварительным данным, время описания снимков снизилось где-то на 20–30 %, если я правильно помню цифры. То есть, в принципе, алгоритмы свою полезность уже доказали. Ведь это довольно сложная задача: представьте, у вас есть 500 изображений легкого, по которым можете «бегать» вверх-вниз и искать на них очаги заболевания — «матовое стекло». Кроме того, для постановки диагноза нужно оценить, какую долю легких эти «матовые стёкла» занимают. Это довольно сложный процесс и очень субъективный.
Когда есть алгоритм, врач может просто посмотреть на изображение, проверить, что компьютер правильно всё распознал, и довериться той цифре, которую он посчитал. А если программа определила что-то неправильно, то как-то скорректировать результат. Но это применимо только к узкой задаче: когда есть одна конкретная патология. Врач-рентгенолог, например, при описании той же КТ грудной клетки должен посмотреть на все органы, которые там представлены, — а их много, как мы уже обсуждали выше. Он должен оценить, нет ли в сердце или позвоночнике каких-то потенциальных патологий, нет ли увеличенных лимфоузлов, как выглядят основные сосуды — аорта, легочный ствол. В легких может быть огромное количество разных изменений помимо вирусной пневмонии, которые врач тоже должен зафиксировать.
Пока текущие алгоритмы покрывают довольно маленький спектр этих задач. Или покрывают относительно большой, но разные куски делают разные производители. Соответственно, пока нет единого решения — только какой-то разнородный набор инструментов. Поэтому я бы сказал, что сейчас это один из самых важных открытых вопросов: какая конкретная польза системе здравоохранения от этих новых технологий? Ее можно измерить в минутах, в секундах, в сэкономленных жизнях. Пока оценки довольно слабые. Слабые не в смысле плохие — доказательная база слабая.

Фотограф: Стас Любаускас /
для "Разговоров за жизнь"

— А с чем связаны скачки в развитии искусственного интеллекта? Почему удается вдруг подняться с 60 до 96 %?
— Здесь играет роль совокупность нескольких факторов. Первое — рост вычислительных возможностей. Все современные алгоритмы требуют очень серьезного «железа» для того, чтобы обучать алгоритм на основании данных и потом его применять. Просто за последние 10 лет произошли настолько сильные изменения — в частности, появились мощные современные графические карты Nvidia, — которые кардинально поменяли то, насколько сложные модели можно в принципе обучать. Сложность моделей выросла многократно, при этом скорость обучения всё еще остается адекватной. Это не 100 лет на то, чтобы построить один алгоритм.
Второе — это то, что появилось много данных. То есть пока не было ImageNet Challenge, миллиона различных изображений, не было достаточного количества информации для обучения. А современные алгоритмы — хотя и есть определенный прогресс в этой области — по-прежнему требуют много данных для того, чтобы их, собственно, научить решать какую-то задачу.
Третье — возникли новые классы алгоритмов, которых раньше не было, или они были непопулярны и недоисследованы. Оказалось, что они могут давать результаты принципиально иного уровня.

— В будущем как, по-вашему, станет развиваться именно ваша область?
— Мне кажется, основная задача сейчас — хорошая обобщаемость того решения, которое мы можем построить. Это интересная открытая проблема: как сделать так, чтобы алгоритм понимал патологию по совокупности всех причин, а не только по изменению интенсивности пикселей? Как его научить переходить от успешного распознавания одной патологии легкого, примеров которой он видел сотни тысяч, до распознавания других болезней по одной-двум картинкам? Человек довольно спокойно сможет обобщить свои предыдущие знания и сказать «вот это туберкулез, а это признаки хронической обструктивной болезни легких», а алгоритм пока это делает плохо. Мне кажется, это основное направление — легкое, быстрое обучение обнаружению каких-то новых патологий, которых раньше компьютер не знал, а сегодня уже знает.

— А если пофантазировать, то чего бы вам хотелось? Может быть, у вас есть какая-то большая мечта?
— Первое — хочется помочь врачу. Врач — это же человек, который может быть уставшим, невыспавшимся, больным и поэтому допускать ошибки, собственно, как и все мы иногда ошибаемся. Алгоритм, даже не самый совершенный, никогда не устает, он всё время работает одинаково — и утром, и ночью.
Второе — хотелось бы не только автоматизировать отдельные задачи врача. Это точно задача решаемая — вопрос в основном в количестве данных, которые для этого нужны. Интересно попробовать понять, а можем ли мы сделать что-то, что находится за пределами человеческих возможностей? Например, в рентгенологии, в частности в онкологии, золотой стандарт диагностики — это, как правило, не КТ или МРТ, а гистологические исследования. То есть ткань удалили, посмотрели на нее в микроскоп и поняли: «Ага, здесь действительно был какой-то очаг». Когда врач-рентгенолог учится анализировать снимки потенциальных онкологических больных, у него есть только картинка — и ничего больше.
В алгоритм мы можем ретроспективно заложить не только знания о самой картинке со всеми ее ограничениями, но еще и знания о том, какими в реальности были ткани, а затем заставить его найти паттерны, на которые человек не обратит внимания. Иными словами, хочется учить компьютер с использованием «золотого стандарта» — единственного правильного ответа для конкретного случая. И очень интересно найти задачи, в которых искусственный интеллект за счет своих особенностей смог бы поменять в принципе способы ведения пациента, постановки диагноза, принятия решения о лечении. То есть не только компенсировать невнимательность и перегруженность врача, но еще и добавить что-то сверх.

Фотограф: Стас Любаускас /
для "Разговоров за жизнь"

— Сможем ли мы какие-то насущные вопросы решить в ближайшие лет 10–20? Или пока до этого еще далеко?
— Мне кажется, что по алгоритмическим вопросам — то есть как научить компьютер находить новые патологии так же быстро, как это делает человек, или как его научить обобщать данные — через 5 лет будет достигнут хороший прогресс. Я допускаю, что эти проблемы вообще к тому времени уже будут решены.
Что точно останется открытым — это более сложные задачи в медицине. Сейчас в большинстве случаев достаточно работать только с изображениями. Компьютерное зрение в других областях отличается: например, при автоматическом управлении беспилотными автомобилями или роботами возникают дополнительные сложности, связанные с тем, что приходится взаимодействовать с окружающим миром, который динамически меняется. В этом смысле медицинские изображения — это статичная история, поэтому тут принципиальных фундаментальных ограничений, которые заставили бы нас упереться в потолок, нет. Но как только мы начинаем говорить о более комплексных медицинских задачах, когда надо проанализировать не только картинку, но еще историю болезни, которая написана не очень структурированным текстом, результаты лабораторных анализов и видео пациента, например, понять, есть ли у него тремор — то есть то, что врач глазом видит и быстро понимает, — то всё становится сложнее. Но я не вижу здесь опять-таки принципиальных ограничений, прогресс наверняка будет

— Лично вам хотелось бы, чтобы врача заменил искусственный интеллект?
— Если вы спрашиваете, хочется мне или нет, то нет, мне не хочется. Как человек, который хорошо знаком с ограничениями искусственного интеллекта, я не готов доверять ему диагностику или лечение. Поэтому я вижу все эти инструменты как помощников, не как замену.
Безусловно, есть довольно много рутинных функций, которые можно автоматизировать. Но на всякий случай надо перепроверять, чтобы алгоритм где-нибудь не сделал глупой ошибки. Здесь могу вам рассказать байку. Коллеги из Москвы тестировали различные решения по раку легкого — им нужно было в легких найти очаг, то есть что-то, что аномально увеличилось и похоже на рак легкого на ранних стадиях. И они рассказали про несколько курьезных примеров. В частности, рак легкого был найден в столе томографа — то есть там, где лежал человек, — а еще в застежке бюстгальтера. Самый смешной случай был, когда нашли рак легкого в подбородке. Представьте себе, идет сканирование, и в какой-то момент высвечивается всё тело, над ним кружочек подбородка, и система его определяет как опухоль. Это всё забавные примеры, но они показывают, что за технологиями пока что надо присматривать.
И даже если алгоритмы сильно улучшат, — например, возьмут в 10 раз больше данных и обучат на них — всё равно останутся какие-то очень сложные задачи. Мы говорили, например, про диагностику рака легкого. Но ведь это только первый шаг, а дальше идет лечение! Онкология — это, наверное, самая сложная часть для алгоритмизации, потому что там всегда работает целая группа врачей: не только врач-рентгенолог, который анализирует изображения, но и хирург, химиотерапевт, и они все вместе принимают решение о стратегии лечения. И даже если представить, что мы придумали совершенный алгоритм, то помочь пациенту будет гораздо тяжелее. Там неизбежно будут ошибки.

Интервью впервые опубликовано на портале Биомолекула 27.07.2022