— Что подтолкнуло к такому сближению?
— Биология начала накапливать такие огромные объемы разного рода молекулярно-биологических данных, в первую очередь геномных, что их стало невозможно обрабатывать, да и просто хранить не только в лабораторном журнале, но и на обычном компьютере. Приведу пример. Примерно 15 лет биологи вели кропотливые исследования, позволившие в конечном итоге построить генетическую карту очень небольшой грамположительной бактерии Bacillus subtilis. К моменту окончания этой работы подоспели технологии геномного секвенирования первого поколения, и, конечно, очень захотелось определить полную нуклеотидную последовательность генома этой бактерии. А мы помним, что алфавит генома состоит всего из четырех «буковок»-нуклеотидов: А (аденин), Т (тимин), G (гуанин), C (цитозин).
Это был 1994 год, я тогда получила приглашение принять участие в конкурсе на получение стипендии от Национального института сельского хозяйства Франции (INRA) для выдающихся иностранных ученых. Эту стипендию дают на 2 года один раз в жизни. Я выиграла конкурс и приехала в Париж, где стала работать в одной из научных групп INRA, участвовавшей в международном проекте секвенирования Bacillus subtilis. Это был общеевропейский проект, в нём участвовало много лабораторий из разных стран.
ДНК этой бактерии насчитывает чуть более 4 миллионов нуклеотидов. По тем временам такой размер генома считался огромным: за исключением пары примеров, были просеквенированы только маленькие организмы с крошечными геномами, которые не превышали нескольких десятков тысяч нуклеотидов.
Поэтому это был настоящий вызов. В процессе работы нам самим приходилось создавать методы исследований, от лабораторных до аналитических, их тогда еще толком и не существовало. И если к началу этапа восстановления первичной последовательности генома Bacillus subtilis уже были созданы первые программные продукты (сборщики), то куда интереснее всё было с процессом, который называется аннотация. Сборка генома ведь не есть самоцель геномного проекта — нужно узнать, какие гены его составляют, как они расположены друг относительно друга, организованы ли гены в какие-то кластеры или нет, какие у них регуляторные области, что они кодируют и т. д. Это и есть процесс аннотации.
Вы не поверите — мы делали эту часть работы руками: получали огромную распечатку всех «буковок», просматривали ее глазами, определяя необходимые структурные элементы, начало-конец каждого гена и т. д. Занятие, надо сказать, весьма утомительное, но именно оно помогло выявить закономерности, которые имело смысл передать в руки программистов, чтобы они посмотрели на это умным глазом и сделали анализ простым и удобным.
После того как каждая из лабораторий собрала свою часть генома (в рамках проекта за разные области генома отвечали разные лаборатории!), наступил момент сборки полного генома, соединения всех его частей. Чтобы проиллюстрировать уровень сложности этой задачи — снова пример. Представьте, что у вас есть много коробок одного и того же пазла, изображение, в которое соединяются элементы, — это какой-нибудь кусочек пляжа, а всё остальное — синее небо и синее море. И эти все коробочки уронили, все кусочки пазла перемешались, и в одной куче оказалось много копий одного и того же изображения. Задача — восстановить исходную картинку. При этом образец у вас забрали, и вы не знаете, что вы составляете, — вот это и есть сборка генома.
Еще коллеги любят приводить в пример ситуацию, когда мелко нарезали несколько экземпляров одной и той же книги и пытаются восстановить ее текст, не имея оригинала. Вот для такой работы математические модели оказались просто незаменимы. Идеи пришли из теоретической математики, например из теории графов.
Примерно в ту пору и забрезжила реальная возможность расшифровать геномы обитателей планеты Земля, и стало понятно, что обычных «офисных» инструментов хранения и обработки данных, к которым привычны классические биологи, нам не хватит.
— Это и был момент слияния биологии, математики и программирования?
— По сути, да. Начали возникать, и довольно бурно, программные продукты, которые легли в основу рождения геномной биоинформатики. Биоинформатика — наука прикладная. Не было задач — не было и этой науки.
— Были ли какие-то параллельные исследованию генома Bacillus subtilis проекты?
— Да, конечно. Это была такая лежащая на поверхности задача, к которой многие хотели подойти — и подходили параллельно. Практически одновременно с проектом Bacillus subtilis стартовал британский проект, посвященный исследованию грамотрицательной бактерии кишечной палочки Escherichia coli. В Европе и в Америке в это же время независимо были разработаны два пакета программ для анализа сиквенсных данных и их сборки, которые потом модифицировались, улучшались, по мере того как улучшался сиквенс и само понимание того, что происходит с данными.
— А когда биоинформатика начала делиться на тематические разделы?
— Это шло параллельно работам по секвенированию генома человека, которые длились 30 лет. В проект было вложено несколько миллиардов долларов, и он дал огромное количество данных: накапливались знания о том, какой ген связан с какими свойствами организма или болезнями, какие мутации приводят или не приводят к тем или иным проблемам, и многое-многое другое. Эти данные воодушевили и практикующих врачей, и фармакологов, и криминалистов. Так, например, стало понятно, что, помимо отпечатков пальцев, у нас есть и другие уникальные отличительные особенности: можно, например, идентифицировать личность по специфическим коротким тандемным повторам в геноме (short tandem repeats, или STR), композиции которых у разных людей не бывают идентичными. Анализ таких повторов может ответить, например, на вопрос, сколько человек попали в ту или иную катастрофу, что, возможно, облегчит их поиск.
В сельском хозяйстве возник огромный интерес к изучению микроорганизмов, живущих в почве. Вся жизнь на планете Земля зависит от здоровья почвы, и в поддержании ее благополучия очень важную роль играют микроорганизмы, количество и разнообразие которых было очень мало изучено. В XVI веке Леонардо да Винчи сказал: «Мы знаем больше о движении небесных тел, чем о земле под ногами». Это остается справедливым и сегодня.
По сию пору мы знаем не более 3–5 % всего живущего микромира вокруг нас, потому что не умеем выращивать подавляющее большинство бактерий в лабораторных условиях. Однако с помощью метагеномного анализа почвенных, воздушных, водных сообществ бактерий, а также бактерий, живущих на человеке и внутри него, на животных и внутри животных и т. д., и стало возможным изучение совокупного генома той или иной природной микробиоты. Накопленные при этом данные позволили в значительной степени обогатить и изменить эволюционное дерево жизни. Появившееся обилие информации показало иные связи, чем те, которые были изначально представлены в теории эволюции.