— Алгоритмы начали развиваться гдето с 60-х годов прошлого века, и обработка изображений существует уже достаточно давно. Как сейчас обстоят дела в вашей области ИИ в медицине?
— В компьютерном зрении, в широком смысле, произошел прорыв где-то 6–7 лет назад, который после этого начал распространяться в разные области, в том числе и в медицину. Поэтому сначала было большое воодушевление — все думали, что сейчас мы решим огромное количество задач, которые решить раньше не получалось. А теперь наступило некоторое разочарование, или скорее объективная оценка того, что происходит. Выяснилось, что тот первоначальный массив научных статей, который дал основание считать, что сейчас всё будет здорово, был во многом некорректно с фактологической точки зрения построен.В частности, исследователи брали данные из одной больницы и показывали: «Смотрите, у нас супералгоритм». А потом выяснялось, что в соседней больнице программа совершенно не работает. Медицина как отрасль давно выработала определенные правила проверки эффективности. Многоцентровые испытания — это одна из форм проверки, которая используется для тестирования, например, новых лекарств, но их важность для систем искусственного интеллекта стали понимать лишь недавно. И теперь, мне кажется, происходит реальная оценка того, что реально алгоритмы могут, а что нет.
Параллельно специалисты пытаются точнее понять, собственно, какие задачи остаются открытыми.
Оказывается, что еще многое не решено и пока не создан универсальный алгоритм, который сможет в перспективе заменить врача, о чём так любят говорить разные популисты. Ограничений у искусственного интеллекта много — он всё-таки пока довольно глупый, — и неизвестно, куда его удастся в ближайшие годы с этой точки сдвинуть.
— Это минусы, а что насчет плюсов, самых больших достижений в вашей области за последние годы?
— Если говорить про компьютерное зрение вне медицины, то прорыв произошел около 6 лет назад в ImageNet Challenge — одном из самых ярких публичных соревнований. Участникам в рамках конкурса выдается около миллиона картинок, на которых изображен какой-то объект. Или объектов может быть несколько, но главным будет что-то одно: например, собака. И каждая порода будет представлять собой один класс в этом соревновании — а их больше ста. Прорыв случился, когда точность классификации алгоритмами выросла примерно с 60–70 %, что очень сильно уступало человеку, до 97–98 %. При этом, по разным оценкам, человек допускает 3–4 % ошибок. То есть оказалось, что нейросеть справляется с задачей лучше, чем человек.
Следующий прорыв был ближе к искусственному интеллекту, но технологически всё еще похож на предыдущий. Примерно 5 лет назад AlphaGo — программа, которую сделала лаборатория компании Google Deep Mind, — обыграла человека в го. Го всегда считалось самой сложной для алгоритмизации игрой, гораздо сложнее, чем шахматы, потому что вариантов развития ситуации на доске в ней принципиально больше.
В медицине одним из самых известных достижений стало решение по поиску признаков рака легкого на КТ грудной клетки (тоже, кстати, от Google). Оказалось, что при анализе единичного снимка — когда человек пришел, его просканировали и тут же отдали эти данные на обработку — алгоритм показывает даже большую точность, чем врач. А в сценарии, когда тот же пациент уже раньше приходил в больницу (а значит, можно было проследить за изменениями), качество работы компьютера и живого специалиста было примерно одинаковым.
При этом в прошлом году в Lancet — самом авторитетном и самом старом медицинском журнале — вышла статья, рассказывающая о том, насколько плохо делается валидация алгоритмов искусственного интеллекта и как сильно она не соответствует клиническим требованиям. На самом деле, безусловно, потенциал у технологии есть, однако говорить, что она уже может взять на себя какую-то существенную часть задач, пока нельзя.
Медицина — достаточно консервативная отрасль. Цикл испытаний, который требуется для того, чтобы войти в нее — неважно, с новым фармпрепаратом или с новым программным обеспечением, — занимает определенное время. Этот факт несколько тормозит внедрение инноваций.
— А есть ли интересные российские примеры применения ИИ для решения медицинских задач?
— Да, конечно. В России самый известный и хорошо организованный — эксперимент по внедрению технологий компьютерного зрения, который проводится уже второй год в поликлиниках и городских больницах Москвы. Департамент здравоохранения предложил компаниям, у которых уже есть собственные разработки, подключиться к потоку данных медицинских изображений (КТ, МРТ, флюорография, маммография) и предоставлять врачам результаты работы алгоритмов — либо автоматически «подсвечивать» какие-то патологии, либо автоматически проводить измерения и помогать врачу.
Изначально предполагалось, что искусственный интеллект будет помогать находить рак легкого и рак молочной железы, однако потом случилась пандемия, и в итоге к списку прибавился коронавирус. Задача заключалась в следующем: понять, насколько картина, которая наблюдается в легких, похожа на поражение коронавирусом, есть ли там другие патологии и какой процент легочной ткани поражен. В итоге получился довольно любопытный результат.
Из 15 разных российских и иностранных компаний, которые поучаствовали в проекте, семь не прошли входное тестирование: то есть их программа либо работала слишком медленно, либо выдавала некачественный результат. Из оставшихся выбрали три лидера, которые в сумме обработали данные порядка сотни тысяч человек. Аналогов такого масштабного проекта в мире я не знаю.
— Получается, что пока искусственный интеллект врачу не замена. А хороший ли он помощник? Насколько сейчас можно в принципе полагаться на алгоритмы?
— Это очень хороший вопрос. Сейчас, на самом деле, мало хороших оценок… Они есть в научных статьях, но обычно с ограничениями. Например, взяли данные из одной больницы и здесь же определили качество работы программы. Но совершенно не факт, что при выходе на широкий рынок продукт будет давать такой же высокий результат. В этом смысле Москва — независимый полигон для всех поставщиков, и поэтому интересно будет последить за публикациями.
Есть отдельный научный центр, который анализирует результаты, но я пока что не видел официальных итогов. По предварительным данным, время описания снимков снизилось где-то на 20–30 %, если я правильно помню цифры. То есть, в принципе, алгоритмы свою полезность уже доказали. Ведь это довольно сложная задача: представьте, у вас есть 500 изображений легкого, по которым можете «бегать» вверх-вниз и искать на них очаги заболевания — «матовое стекло». Кроме того, для постановки диагноза нужно оценить, какую долю легких эти «матовые стёкла» занимают. Это довольно сложный процесс и очень субъективный.
Когда есть алгоритм, врач может просто посмотреть на изображение, проверить, что компьютер правильно всё распознал, и довериться той цифре, которую он посчитал. А если программа определила что-то неправильно, то как-то скорректировать результат. Но это применимо только к узкой задаче: когда есть одна конкретная патология. Врач-рентгенолог, например, при описании той же КТ грудной клетки должен посмотреть на все органы, которые там представлены, — а их много, как мы уже обсуждали выше. Он должен оценить, нет ли в сердце или позвоночнике каких-то потенциальных патологий, нет ли увеличенных лимфоузлов, как выглядят основные сосуды — аорта, легочный ствол. В легких может быть огромное количество разных изменений помимо вирусной пневмонии, которые врач тоже должен зафиксировать.
Пока текущие алгоритмы покрывают довольно маленький спектр этих задач. Или покрывают относительно большой, но разные куски делают разные производители. Соответственно, пока нет единого решения — только какой-то разнородный набор инструментов. Поэтому я бы сказал, что сейчас это один из самых важных открытых вопросов: какая конкретная польза системе здравоохранения от этих новых технологий? Ее можно измерить в минутах, в секундах, в сэкономленных жизнях. Пока оценки довольно слабые. Слабые не в смысле плохие — доказательная база слабая.