2.3 Коалесцентные методы демографического анализа

2.3 Коалесцентные методы демографического анализа

модуль 2.3 шаг 5


Док и Марти МакФлай в своей лаборатории изучают представителей калифорнийской популяции редкого вида Homo bioinformaticus. Благодаря машине времени, им достоверно известно, что события коалесценции в выборке из 4 аллелей происходят за временные интервалы \(t_k = \{t_4 = 6000, t_3 = 2500, t_2 = 1000\}\). Если применить к этим данным метод классического скайлайна, то можно установить, что:

В самый ближайший момент в прошлом размер популяции составлял 18000 особей. При движении далее от настоящего в прошлое размер популяции уменьшается. В тот момент, когда все изучаемые аллели сошлись к общему предку, размер популяции составлял примерно 500 особей.

Решение

\[N_e(k)=\frac{1}{2}\cdot\binom{k}{2}\cdot t_k\] \[N_e(4)=\frac{1}{2}\cdot\frac{4\cdot*(4-1)}{2}\cdot 6000=18000\] \[N_e(2)=\frac{1}{2}\cdot\frac{2\cdot*(2-1)}{2}\cdot 1000=500\]

модуль 2.3 шаг 7


Вы исследовали генеалогию 4 аллелей из популяции диплоидных организмов и рассчитали, что временные интервалы коалесценции для этих аллелей равны \({t_4 = 100, t_3 = 10, t_2 = 100}\). Сгруппируйте эти интервалы в один и рассчитайте размер популяции \((\hat{N}_{4,3})\). Чему равно это значение?

Внимание! В формуле на слайде приведена оценка для гаплоидных популяций. В случае диплоидных популяций реальное количество особей будет в 2 раза меньше рассчитанного значения \(\hat{N}_{k,l}\).

Ответом является целое число.

Решение

Испольузем формулу из лекции

\[\displaystyle \hat{N}_{k,l}=\frac{k(k-l)}{2l}\sum_{i=k-l+1}^{k}t_i\] \[\hat{N}_{4,3}=\frac{4(4-3)}{2\cdot 3}\cdot(100+10+100) = 140\]

Поскольку это диплооидная популяция, делим результат на 2

Ответ: 70.

модуль 2.3 шаг 10


Допустим, вы исследовали выборку из 3 аллелей из популяции. В результате анализа последовательностей вы определили, что временные интервалы коалесценции таковы: \(t_3=100, t_2=200\).

Вы предполагаете, что размер популяции не изменялся в ходе времени (или изменялся незначительно). Вы не хотите использовать методы классического или обобщенного скайлайна, а хотите применить метод MCMC для подбора одного оптимального значения \(N_e\).

У вас есть литературные данные, согласно которым популяции того вида организмов, который вы исследуете, обычно имеют размер $N_e=500±200$. Вы используете эти данные как среднее и стандартное отклонение нормального распределения, которое вы будете использовать как априорное распределение параметра (\(N_e\)).

В начале вашей симуляции алгоритм находится в состоянии \(N_e^{start}=1000\). Рассчитайте acceptance ratio (α), которое будет определять переход MCMC-алгоритма в состояние \(N_e^{proposed}=400\).

Для расчёта значения функции плотности вероятности нормального распределения можно пользоваться любым онлайн-калькулятором (например, этим) или средой R [убедитесь, что Вы используете точечное значение PDF, а не интегральное]. Для расчёта правдоподобия совокупности временных интервалов T используйте геометрическое распределение (как в примере из урока 2) (не пользуйтесь экспоненциальной функцией).

Ответом является десятичная дробь, округленная до сотых.

Решение

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
    Pprop <- dnorm(400, 500, 200)
    Pprop 
    Pstart <- dnorm(1000,500,200)
    Pstart
    t2<-200
    t3<-100
    Ne_prop <- 400*2
    Ne_start <- 1000*2
    px1 <- (1-(1/Ne_prop))^(t2-1)*(1/Ne_prop)
    px1
    px2 <- (1-(3/Ne_prop))^(t3-1)*(3/Ne_prop)
    px2
    p_x_prop <- px1 * px2
    p_x_prop 
    p_x_start <- (1-(1/Ne_start))^(t2-1)*(1/Ne_start)*(1-(3/Ne_start))^(t3-1)*(3/Ne_start)
    p_x_start 
    alpha <- (Pprop*p_x_prop)/(Pstart*p_x_start)
    alpha

Ответ: 86.48

модуль 2.3 шаг 11


Задание для получения сертификата с отличием

Вы исследовали определенную последовательность у некоторых организмов из интересующей вас популяции. Результаты множественного выравнивания последовательностей представлены в sequences.fasta (этот же файл мы использовали в уроке 1.6 для расчета D-статистики Таджимы).

Используя программный пакет BEAST2, проанализируйте демографическую историю популяции.

Подробная инструкция доступна по ссылке. Пользуйтесь рекомендациями из разделов “Setting up the Coalescent Bayesian Skyline analysis” и “Exploring the results of the Coalescent Bayesian Skyline analysis”.

Используйте следующие параметры:

частота мутирования или clock rate \((\mu = 1.69 \times 10^{-8}μ=1.69×10)\) модель замен — GTR; длина цепи (chain length) - 8,000,000; число измерений (dimensions) для bPopSize и bGroupSize - 7. В ходе просмотра результатов с помощью Tracer задайте значение “Age of the youngest tip” - 1979.

Введите в поле ответа через запятую без пробелов ответы на следующие вопросы:

  1. Чему равно медианное значение \(log_{10}P\) (постериорной вероятности, округляйте до целых)?
  2. Чему был равен размер популяции 100 тысяч лет назад? (приведите медианное значение; точность оценки может сильно варьировать, проверка ответа заточена на порядок значения)
  3. Проходила ли популяция через выраженное бутылочное горлышко (“да” или “нет”)

Решение

Скачиваем пакет Beast2. Внутри находим Beauti. Грузим sequences.fasta. Import Alignment. Сохраняем. загружаем собственно Beast - подгружаем эти данные. Внимательно вводим все параметры, начиная вкладке Prior выбрать Coalescent Bayesian Skyline.

Запускаем симуляцию.

Скачиваем трейсер. Смтрим графики. Логарифм просто посчитал руками из таблицы - из которой можно примерно увидеть популяцию 100000 поколений назад. Соответствующие файлы прилагаются, кому интересно [xml].

Ответ: -30343,145866,нет

модуль 2.3 шаг 13


Выберите верные утверждения о SMC-методах демографического анализа.

  • Методы SMC не учитывают события рекомбинации
  • В основе SMC-методов лежит скрытая марковская модель (HMM)
  • Реконструкция демографической истории популяции с использованием одного представителя популяции возможна за счет того, что в каждой хромосоме есть участки разного происхождения
  • SMC-методы используют исключительно экспоненциальную модель изменения размера популяции
  • В качестве наблюдаемых состояний в SMC-методах используются времена схождения к общему предку (TMRCA)