3.3 Поиск сигналов отбора в белок-кодирующих генах
3.3 Поиск сигналов отбора в белок-кодирующих генах
модуль 3.3 шаг 4
Соотнесите типы мутаций в последовательности ДНК белок-кодирующего гена с их эффектом на структуру белка.
- Синонимичные – Изменение аминокислоты не происходит
- Миссенс – Происходит замена аминокислоты на другую
- Нонсенс – Появляется преждевременный стоп-кодон, синтезируется короткий белок
модуль 3.3 шаг 6
Соотнесите значение \(dN/dS\) с давлением отбора на последовательность.
-
\(\frac{dN}{dS}=1\) - Последовательность эволюционирует нейтрально
-
\(\frac{dN}{dS}>1\) - На последовательность действует положительный отбор
-
\(\frac{dN}{dS}<1\) - На последовательность действует отрицательный (очищающий) отбор
модуль 3.3 шаг 8
Ответ: 0.3405
модуль 3.3 шаг 9
Ответ: -3.85,да,отрицательный
модуль 3.3 шаг 11
Допустим, у Вас в распоряжении есть фрагмент последовательности белок-кодирующего гена X у предкового вида (chimp) и у 5 представителей популяции интересного Вам вида (seq1 - seq5). Рассчитайте значение \alphaα-статистики (тест МКТ). Есть ли свидетельства положительного отбора?
При расчете статистики используйте исключительно количество позиций, в которых произошли несинонимичные и синонимичные замены. Не рассчитывайте строгое значение dN/dS (не используйте поправку на количество возможных замен каждого типа и на множественные замены). Данная поправка в рамках MKT не является критичной, т.к. соотношения \(D_N/D_S\) и \(P_N/P_S\) сравниваются между собой.
Обратите внимание, что при расчете числа полиморфных сайтов (\(P_N\) и \(P_S\)) необходимо использовать количество уникальных позиций (сайтов), а не общее количество мутантных аллелей.
Приведите в ответе значение \(\alpha\)-статистики, округленное до сотых, и интерпретацию этого значения (условимся, что значимым отклонением является значение \(\alpha > 0.1\)).
Пример правильной записи ответа: 0.01,нет
Решение
Посчитать можно здесь
Главное выбрать **SEE RESULTS: **Without any correction for divergence
1
2
3
4
5
6
7
8
9
10
11
12
> chimp
> AGTACCATGAGAGGCGGTTGG
> seq1
> AGAACCATAAGAGACGGGTGG
> seq2
> AGAACCATGAGAGACGGGTGG
> seq3
> AGAACAATGAGAGACGGGTGG
> seq4
> AGAACCATGAGAGACGGGTGG
> seq5
> AGAACAATAAGAGACGGGTGG
Ответ: 0.5,да
модуль 3.3 шаг 13
Воспользуйтесь gnomAD browser для получения информации о давлении отбора на белок-кодирующие гены человека HLA-DRB1 и LMNA . Выберите верные утверждения.
- Вероятность того, что ген LMNA является гаплонедостаточным, близка к 100%
- pLoF-мутации в гене LMNA находятся под менее сильным давлением отбора, чем в HLA-DRB1
- Значение LOEUF для гена HLA-DRB1 значительно меньше единицы
- Вероятность того, что ген HLA-DRB1 является гаплонедостаточным, близка к нулю
- В гене HLA-DRB1 в проекте gnomAD обнаружено меньше миссенс-мутаций, чем в LMNA
- В гене LMNA наблюдается всего 7% от ожидаемого числа pLoF-мутаций
модуль 3.3 шаг 15
Воспользуйтесь gnomAD browser для получения информации о давлении отбора на белок-кодирующие гены человека HLA-DRB1 и LMNA . Выберите верные утверждения.
Анализ обогащения наборов генов (gene set enrichment analysis, GSEA) — основной статистический инструмент для поиска определенных биологических процессов и/или групп, которые имеют представлены в большом количестве (“обогащены”) в некотором списке генов. Методы анализа обогащения созданы для того, чтобы статистически оценивать, насколько значимым является эффект на тот или иной биологический процесс. Например, если в эксперименте были выявлены 100 генов, характеризующихся каким-то особым поведением и/или свойством (например, увеличении экспрессии в ответ на стимул), то с помощью методов GSEA можно проверить, есть ли какие-то общие функциональные описания у этого набора из 100 генов.
Используя данные из статьи Cassa et al., 2017, проведите анализ обогащения для 200 генов, характеризующихся наибольшим давлением отбора (согласно коэффициенту s_{het}shet**). Анализ проводите с использованием онлайн-инструмента MSigDB (потребуется некоммерческий адрес электронной почты). В качестве целевой базы данных используйте набор “ **CP: Canonical pathways “. Какая группа генов наиболее значимо представлена среди исследованных топ-200 генов?
Ответом является идентификатор набора генов (Gene Set Name). Поделитесь своим решением и его интерпретацией на вкладке “Решения”. :)
Ответ: REACTOME_RNA_POLYMERASE_II_TRANSCRIPTION