3.6 Бонус. Мини-проект
модуль 3.6 шаг 2
“Чтобы победить коронавирус, нужно мыслить как коронавирус” Предлагаем вам самостоятельно проанализировать массив последовательностей SARS-CoV-2. Исходя из того, что мы узнали в ходе курса, мы можем ответить на следующие вопросы:
нейтрально ли эволюционирует геном SARS-CoV-2? можем ли мы из геномных данных реконструировать историю изменения численности популяции (взрыв численности)? есть ли детектируемые сигналы отбора в вирусных генах? Можно ознакомиться с этим текстом (он написан в начале февраля, но отражает некоторые виды анализа, которые производились с геномом SARS-CoV-2).
Как может выглядеть пошаговый протокол:
Скачать из соответствующего репозитория последовательности. Следите, чтобы последовательности были сходной длины (если работаете с полными геномами — скачивайте только полные последовательности, если с отдельными генами — убедитесь, что понимаете, как достать из полных геномов интересующую Вас последовательность). Произвести множественное выравнивание (с помощью любого удобного инструмента). Предобработать выравнивание (например, ототбрать блоки без инсерций/делеций, как описано в курсе “Молекулярная филогенетика”). Также может быть полезно вручную удалить последовательности, которые плохо выравниваются по отношению к остальным. Проанализировать нейтральность эволюции последовательности в целом или произвести сканирование скользящим окном (например, с помощью VariScan). Проанализировать изменение численности популяции. Предварительно можно протестировать модель замен с помощью JModelTest (как описано тут) для выбора лучшей модели замен. Также можно попробовать запустить анализ с разными настройками (в частности, понадобится аккуратная оценка clock rate (s/s/y) — можно попробовать найти ее в литературе (в частности, в тексте по ссылке в начале степа) или посмотреть на анализ с разными значениями. Для вирусных данных логичнее использовать гетерохронную Birth Death Skyline (BDSKY) модель, применение которой описано в том же туториале. Помимо изменения численности, он подбирает и другие интересные параметры эпидемиологии. :) Проанализировать давление отбора. Здесь может быть большой простор для творческой фантазии — Вы можете посмотреть на отдельные вирусные гены и посчитать d N / d S dN/dS, посмотреть на SFS в геноме в целом и т.д. Можно попробовать подсчитать H H Фэя и Ву, если Вы сможете раздобыть предковую последовательность генома (т.е. аутгруппу, её можно поискать среди коронавирусов летучих мышей). Любые дополнения и видоизменения на ваш вкус приветствуются. Все, что Вы найдете — опишите в ответе и поделитесь на вкладке “Решения”, где мы можем устроить небольшой форум. :)
Учтите, что мировое сообщество анализирует геном SARS-CoV-2 достаточно активно — поэтому многие результаты, наверняка, можно найти в интернете на просторах bioRxiv и сравнить с ними то, что видите Вы. :)
Задание является неоцениваемым и не влияет на общую оценку в курсе. Проверка ответов не производится. Если Вы хотите получить балл за задание, но не пробовать работать с данными — можете отправить любой ответ, но не делитесь им на вкладке “Решения”.
Любой ответ