3.3 Поиск сигналов отбора в белок-кодирующих генах

3.3 Поиск сигналов отбора в белок-кодирующих генах

модуль 3.3 шаг 4


Соотнесите типы мутаций в последовательности ДНК белок-кодирующего гена с их эффектом на структуру белка.

  • Синонимичные – Изменение аминокислоты не происходит
  • Миссенс – Происходит замена аминокислоты на другую
  • Нонсенс – Появляется преждевременный стоп-кодон, синтезируется короткий белок

модуль 3.3 шаг 6


Соотнесите значение \(dN/dS\) с давлением отбора на последовательность.

  • \(\frac{dN}{dS}=1\) - Последовательность эволюционирует нейтрально

  • \(\frac{dN}{dS}>1\) - На последовательность действует положительный отбор

  • \(\frac{dN}{dS}<1\) - На последовательность действует отрицательный (очищающий) отбор

модуль 3.3 шаг 8


Ответ: 0.3405

модуль 3.3 шаг 9


Ответ: -3.85,да,отрицательный

модуль 3.3 шаг 11


Допустим, у Вас в распоряжении есть фрагмент последовательности белок-кодирующего гена X у предкового вида (chimp) и у 5 представителей популяции интересного Вам вида (seq1 - seq5). Рассчитайте значение \alphaα-статистики (тест МКТ). Есть ли свидетельства положительного отбора?

При расчете статистики используйте исключительно количество позиций, в которых произошли несинонимичные и синонимичные замены. Не рассчитывайте строгое значение dN/dS (не используйте поправку на количество возможных замен каждого типа и на множественные замены). Данная поправка в рамках MKT не является критичной, т.к. соотношения \(D_N/D_S\) и \(P_N/P_S\) сравниваются между собой.

Обратите внимание, что при расчете числа полиморфных сайтов (\(P_N\) и \(P_S\)) необходимо использовать количество уникальных позиций (сайтов), а не общее количество мутантных аллелей.

Приведите в ответе значение \(\alpha\)-статистики, округленное до сотых, и интерпретацию этого значения (условимся, что значимым отклонением является значение \(\alpha > 0.1\)).

Пример правильной записи ответа: 0.01,нет

Решение

Посчитать можно здесь

Главное выбрать **SEE RESULTS: **Without any correction for divergence

1
2
3
4
5
6
7
8
9
10
11
12
> chimp
> AGTACCATGAGAGGCGGTTGG
> seq1
> AGAACCATAAGAGACGGGTGG
> seq2
> AGAACCATGAGAGACGGGTGG
> seq3
> AGAACAATGAGAGACGGGTGG
> seq4
> AGAACCATGAGAGACGGGTGG
> seq5
> AGAACAATAAGAGACGGGTGG

Ответ: 0.5,да

модуль 3.3 шаг 13


Воспользуйтесь gnomAD browser для получения информации о давлении отбора на белок-кодирующие гены человека HLA-DRB1 и LMNA . Выберите верные утверждения.

  • Вероятность того, что ген LMNA является гаплонедостаточным, близка к 100%
  • pLoF-мутации в гене LMNA находятся под менее сильным давлением отбора, чем в HLA-DRB1
  • Значение LOEUF для гена HLA-DRB1 значительно меньше единицы
  • Вероятность того, что ген HLA-DRB1 является гаплонедостаточным, близка к нулю
  • В гене HLA-DRB1 в проекте gnomAD обнаружено меньше миссенс-мутаций, чем в LMNA
  • В гене LMNA наблюдается всего 7% от ожидаемого числа pLoF-мутаций

модуль 3.3 шаг 15


Воспользуйтесь gnomAD browser для получения информации о давлении отбора на белок-кодирующие гены человека HLA-DRB1 и LMNA . Выберите верные утверждения.

Анализ обогащения наборов генов (gene set enrichment analysis, GSEA) — основной статистический инструмент для поиска определенных биологических процессов и/или групп, которые имеют представлены в большом количестве (“обогащены”) в некотором списке генов. Методы анализа обогащения созданы для того, чтобы статистически оценивать, насколько значимым является эффект на тот или иной биологический процесс. Например, если в эксперименте были выявлены 100 генов, характеризующихся каким-то особым поведением и/или свойством (например, увеличении экспрессии в ответ на стимул), то с помощью методов GSEA можно проверить, есть ли какие-то общие функциональные описания у этого набора из 100 генов.

Используя данные из статьи Cassa et al., 2017, проведите анализ обогащения для 200 генов, характеризующихся наибольшим давлением отбора (согласно коэффициенту s_{het}shet**). Анализ проводите с использованием онлайн-инструмента MSigDB (потребуется некоммерческий адрес электронной почты). В качестве целевой базы данных используйте набор “ **CP: Canonical pathways “. Какая группа генов наиболее значимо представлена среди исследованных топ-200 генов?

Ответом является идентификатор набора генов (Gene Set Name). Поделитесь своим решением и его интерпретацией на вкладке “Решения”. :)

Ответ: REACTOME_RNA_POLYMERASE_II_TRANSCRIPTION