— Биоинформатика сейчас сильно востребована?
— У меня никогда не было проблем с поиском работы, и у моих студентов тоже. Наоборот, трудно кого-то найти к себе в лабораторию, так как специалистов меньше, чем нужно, на самом деле. А почему так происходит — это хороший и интересный вопрос, потому что данных сейчас в науке вообще и в биологии в частности очень много производится.
Все технологии подешевели, эксперимент теперь не требует таких больших расходов. Если в 90-е годы секвенирование генома стоило супердорого и расшифровка первого генома обошлась, наверное, в миллионы — если не миллиарды — долларов, то сейчас сделать один геном стоит, может быть, несколько тысяч долларов. А если делать транскриптом — то есть получать информацию не о том, какие гены у нас есть в принципе, а о том, как они работают в конкретном органе и клетке, — то это вообще на порядок дешевле. С падением цен логично выросла доступность, но что с получаемыми данными делать — не так много кто знает. Биоинформатики — одни из тех, кто относится к их числу, но таких специалистов не очень много в принципе, потому что это молодая профессия. Когда я поступала в университет, мы были только третьим набором на первый в России факультет, готовящий биоинформатиков. Это было 15 лет назад, то есть можете примерно представить возраст профессии. Сейчас, конечно, больше мест, где готовят специалистов, но всё равно.
— При этом данные всё продолжают множиться. В каких темпах их количество растет, можно оценить?
— В информатике есть такой закон — закон Мура, который описывает, с какой скоростью прогрессирует мощность компьютеров. Количество данных растет примерно в той же прогрессии. Если бы я нарисовала график, то он с 90-х годов начал бы резко расти и уходил прямо в небеса. Это опять же связано с удешевлением технологий и с увеличением доступности приборов.
— Почему у нас нет достаточного количества биоинформатиков? Это не для всех, получается, профессия?
— Нет, почему, это профессия для всех, в ней ничего особо сложного нет. Но нужно уметь программировать, и, чтобы научиться, придется, наверное, несколько лет жизни потратить. Без этого ничего не получится.
Наверное, небольшая трудность может возникнуть из-за разнообразия типов данных. Секвенирование объединяет в себе много разных технологий, которые направлены на разные биологические объекты. Например, есть транскриптомика — она изучает активность работы наших генов. А можно исследовать, как устроена регуляция работы генов, — этим занимаются технологии ChIP-seq и ATAC-seq. Сложность в том, что для каждого из этих типов данных нужны свои подходы к анализу, свои программы.
Сейчас стало легче, потому что много людей во всём мире занимаются этим и разрабатывают программы для анализа данных. В принципе, если технология появилась уже достаточно давно («достаточно давно» в нашей науке — это 3 года назад), значит, уже есть программы для анализа этих данных. Но это хороший случай. В реальности всё редко случается так, что ты запустил программу и получил результат, — только если данные хорошего качества. Обычно экспериментаторы сталкиваются с проблемами, которые ухудшают качество данных. С этим можно бороться, но надо обладать определенными навыками. Просто запустить программу, не задумываясь, как она работает, не получится. Придется разбираться в деталях, подкручивать внутри программы какие-то «винтики», дописывать кусочки кода, модифицировать… Вот этим мы обычно и занимаемся, потому что идеальных данных в реальности нет.
И потом, опять же, наука — это не индустрия, где можно делать всё по шагам. Нам всегда нужно что-то эдакое из данных вытащить, и стандартные подходы здесь, как правило, не работают. Они хороши для начальных этапов обработки данных, когда нужно что-то отфильтровать, очистить от шума. Но когда нам нужно ответить на какой-то биологический вопрос, проверить гипотезу — почти всегда приходится придумывать оригинальный подход к анализу, потому что стандартный на этом последнем этапе уже не подходит.
— Говоря про современные подходы: используете ли вы машинное обучение?
— Да, в последние 3–5 лет мы очень много стали применять машинное обучение. Вообще, мы работаем со всеми типами данных, но среди всех с некоторыми работаем больше. Есть такой тип эксперимента, который позволяет понять, как уложена ДНК в ядре клеток и как упакованы хромосомы. Ведь они не просто скомканы абы как, там есть определенный порядок, и этот порядок очень важен для регуляции работы генов. Представьте, что мы от папы и мамы получили по одной копии хромосомы, и этот набор хромосом у нас во всех клетках одинаковый. Но у нас есть глаза, волосы, печень, почки, сердце — то есть разные клетки, хотя набор генов в них одинаковый. Как так получается? Есть сложная система регуляции работы генов, которая, в свою очередь, определяется упаковкой хромосом в ядре. От того, как в разных клетках хромосомы упакованы, зависит то, какие гены сейчас в этой клетке работают. Моя лаборатория специализируется в основном как раз на этом.
И есть специальный эксперимент, он называется Hi-C, который как раз направлен на то, чтобы вот эту карту упаковки хромосом детально расшифровать. Здесь тип данных более сложный, чем обычно, потому что он двумерный: мы говорим про упаковку хромосом, и это можно себе представить как карту контактов всех хромосом друг с другом с очень большим разрешением. И для каждого органа карта уникальна: в почках — своя, в печени — своя, в сердце — своя. Если мы переводим ее на язык данных, то получаем своеобразную матрицу контактов, и это более сложно, чем то, с чем обычно биоинформатики работают. Обычно секвенирование генома — это просто последовательность нуклеотидов на хромосоме, большинство данных одномерны. А то, чем мы занимаемся, это редкий тип данных, с ним мало кто работает. По крайней мере, сейчас существует не так много готовых программ, поэтому мы пытаемся применять для анализа этих данных что-то нестандартное. И машинное обучение, deep learning — все эти модные слова приходят на помощь, потому что машинное обучение вообще традиционно работает с изображениями. Даже если мы вообще от биологии отойдем, то с чего машинное обучение начиналось и сейчас на чём это всё работает — это распознавание лиц, распознавание изображений, автоматический поиск объектов на фотографиях. Наши двумерные карты можно тоже как изображение представить: закодировать цветом числа, например. И мы как раз такой подход и пытаемся применять. Это во всём мире сейчас очень популярно.