2.3 Коалесцентные методы демографического анализа
2.3 Коалесцентные методы демографического анализа
модуль 2.3 шаг 5
Док и Марти МакФлай в своей лаборатории изучают представителей калифорнийской популяции редкого вида Homo bioinformaticus. Благодаря машине времени, им достоверно известно, что события коалесценции в выборке из 4 аллелей происходят за временные интервалы \(t_k = \{t_4 = 6000, t_3 = 2500, t_2 = 1000\}\). Если применить к этим данным метод классического скайлайна, то можно установить, что:
В самый ближайший момент в прошлом размер популяции составлял 18000 особей. При движении далее от настоящего в прошлое размер популяции уменьшается. В тот момент, когда все изучаемые аллели сошлись к общему предку, размер популяции составлял примерно 500 особей.
Решение
\[N_e(k)=\frac{1}{2}\cdot\binom{k}{2}\cdot t_k\] \[N_e(4)=\frac{1}{2}\cdot\frac{4\cdot*(4-1)}{2}\cdot 6000=18000\] \[N_e(2)=\frac{1}{2}\cdot\frac{2\cdot*(2-1)}{2}\cdot 1000=500\]модуль 2.3 шаг 7
Вы исследовали генеалогию 4 аллелей из популяции диплоидных организмов и рассчитали, что временные интервалы коалесценции для этих аллелей равны \({t_4 = 100, t_3 = 10, t_2 = 100}\). Сгруппируйте эти интервалы в один и рассчитайте размер популяции \((\hat{N}_{4,3})\). Чему равно это значение?
Внимание! В формуле на слайде приведена оценка для гаплоидных популяций. В случае диплоидных популяций реальное количество особей будет в 2 раза меньше рассчитанного значения \(\hat{N}_{k,l}\).
Ответом является целое число.
Решение
Испольузем формулу из лекции
\[\displaystyle \hat{N}_{k,l}=\frac{k(k-l)}{2l}\sum_{i=k-l+1}^{k}t_i\] \[\hat{N}_{4,3}=\frac{4(4-3)}{2\cdot 3}\cdot(100+10+100) = 140\]Поскольку это диплооидная популяция, делим результат на 2
Ответ: 70.
модуль 2.3 шаг 10
Допустим, вы исследовали выборку из 3 аллелей из популяции. В результате анализа последовательностей вы определили, что временные интервалы коалесценции таковы: \(t_3=100, t_2=200\).
Вы предполагаете, что размер популяции не изменялся в ходе времени (или изменялся незначительно). Вы не хотите использовать методы классического или обобщенного скайлайна, а хотите применить метод MCMC для подбора одного оптимального значения \(N_e\).
У вас есть литературные данные, согласно которым популяции того вида организмов, который вы исследуете, обычно имеют размер $N_e=500±200$. Вы используете эти данные как среднее и стандартное отклонение нормального распределения, которое вы будете использовать как априорное распределение параметра (\(N_e\)).
В начале вашей симуляции алгоритм находится в состоянии \(N_e^{start}=1000\). Рассчитайте acceptance ratio (α), которое будет определять переход MCMC-алгоритма в состояние \(N_e^{proposed}=400\).
Для расчёта значения функции плотности вероятности нормального распределения можно пользоваться любым онлайн-калькулятором (например, этим) или средой R [убедитесь, что Вы используете точечное значение PDF, а не интегральное]. Для расчёта правдоподобия совокупности временных интервалов T используйте геометрическое распределение (как в примере из урока 2) (не пользуйтесь экспоненциальной функцией).
Ответом является десятичная дробь, округленная до сотых.
Решение
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
Pprop <- dnorm(400, 500, 200)
Pprop
Pstart <- dnorm(1000,500,200)
Pstart
t2<-200
t3<-100
Ne_prop <- 400*2
Ne_start <- 1000*2
px1 <- (1-(1/Ne_prop))^(t2-1)*(1/Ne_prop)
px1
px2 <- (1-(3/Ne_prop))^(t3-1)*(3/Ne_prop)
px2
p_x_prop <- px1 * px2
p_x_prop
p_x_start <- (1-(1/Ne_start))^(t2-1)*(1/Ne_start)*(1-(3/Ne_start))^(t3-1)*(3/Ne_start)
p_x_start
alpha <- (Pprop*p_x_prop)/(Pstart*p_x_start)
alpha
Ответ: 86.48
модуль 2.3 шаг 11
Задание для получения сертификата с отличием
Вы исследовали определенную последовательность у некоторых организмов из интересующей вас популяции. Результаты множественного выравнивания последовательностей представлены в sequences.fasta (этот же файл мы использовали в уроке 1.6 для расчета D-статистики Таджимы).
Используя программный пакет BEAST2, проанализируйте демографическую историю популяции.
Подробная инструкция доступна по ссылке. Пользуйтесь рекомендациями из разделов “Setting up the Coalescent Bayesian Skyline analysis” и “Exploring the results of the Coalescent Bayesian Skyline analysis”.
Используйте следующие параметры:
частота мутирования или clock rate \((\mu = 1.69 \times 10^{-8}μ=1.69×10)\) модель замен — GTR; длина цепи (chain length) - 8,000,000; число измерений (dimensions) для bPopSize и bGroupSize - 7. В ходе просмотра результатов с помощью Tracer задайте значение “Age of the youngest tip” - 1979.
Введите в поле ответа через запятую без пробелов ответы на следующие вопросы:
- Чему равно медианное значение \(log_{10}P\) (постериорной вероятности, округляйте до целых)?
- Чему был равен размер популяции 100 тысяч лет назад? (приведите медианное значение; точность оценки может сильно варьировать, проверка ответа заточена на порядок значения)
- Проходила ли популяция через выраженное бутылочное горлышко (“да” или “нет”)
Решение
Скачиваем пакет Beast2. Внутри находим Beauti. Грузим sequences.fasta. Import Alignment. Сохраняем. загружаем собственно Beast - подгружаем эти данные. Внимательно вводим все параметры, начиная вкладке Prior выбрать Coalescent Bayesian Skyline.
Запускаем симуляцию.
Скачиваем трейсер. Смтрим графики. Логарифм просто посчитал руками из таблицы - из которой можно примерно увидеть популяцию 100000 поколений назад. Соответствующие файлы прилагаются, кому интересно [xml].
Ответ: -30343,145866,нет
модуль 2.3 шаг 13
Выберите верные утверждения о SMC-методах демографического анализа.
- Методы SMC не учитывают события рекомбинации
- В основе SMC-методов лежит скрытая марковская модель (HMM)
- Реконструкция демографической истории популяции с использованием одного представителя популяции возможна за счет того, что в каждой хромосоме есть участки разного происхождения
- SMC-методы используют исключительно экспоненциальную модель изменения размера популяции
- В качестве наблюдаемых состояний в SMC-методах используются времена схождения к общему предку (TMRCA)