Во второй ветви из 100 гаплотипов в 25-маркерном формате 23 гаплотипа будут идентичными друг другу. Это даст [ln(100/23)]/0.046 = 32 условных поколений, то есть 800 лет до общего предка. Иначе говоря, если смешать эти 200 и 100 гаплотипов, то в этой смеси 23 гаплотипа будут одинаковыми (из молодой ветви), и мы получим [ln(зоо/2э)]/о.046 = 56 условных поколений, то есть якобы 1400 лет до общего предка якобы одного для всех 300 гаплотипов. А мутаций во всей составной, неоднородной выборке будет 1251, если базовые гаплотипы обеих ветвей случайно совпадут. Тогда линейный метод даст 1251/300/0.046 = 91 условное поколение, или 2275 лет до якобы общего (фантомного) общего предка. Если базовые гаплотипы обеих ветвей будут разными, то время до фантомного общего предка будет практически любым между 3000 и 800 лет.

Итак, подводим итоги. Выборка составная, неоднородная, общие предки жили 3000 и 800 лет назад. Линейный метод дал фантомного общего предка 2275 лет назад, логарифмический -1400 лет назад. То, что эти времена не совпали друг с другом, говорит о том, что так считать нельзя, и выборки надо разделять. Обычно разделение проводится с использованием деревьев гаплотипов (см. следующий раздел).


Вопрос 40: Выборки в ДНК-генеалогии обычно несоизмеримо малые по сравнению с реальными величинами самих популяций. Как таким выборкам можно доверять? Есть «мнения», что выборки должны иметь как минимум 10 тысяч гаплотипов, чтобы получать относительно разумные данные.

Это совершенно ненаучная постановка вопроса, опять «по понятиям», по «мнениям», ни на чем не основанным. На это можно задать встречный вопрос, который уже был задан выше в настоящей книге – чтобы понять, что море соленое, нужно ли пробовать воду из всех бухточек? А как же химики делают анализ растворов, беря пробу всего лишь в долю миллилитра из ведра, цистерны, озера? Когда делают анализ крови, что, всю кровь из вас выкачивают? Нет. Значит, вопрос о размере пробы поставлен некорректно. Вопрос на самом деле сводится не к каким-то с потолка взятым числам, а к к тому, равномерно ли перемешана система, чтобы по малой пробе, или выборке, судить о всей системе. Этот вопрос в ДНК-генеалогии давно проработан, и результаты сопоставительных исследований показаны, например, в следующей таблице:


Таблица. История определений времени до общего предка гаплогруппы R1a на «пост-советском пространстве» по разным сериям гаплотипов.[52]


Из таблицы видно, что при последовательном переходе от серии из 26 гаплотипов до 2000 гаплотипов, и при увеличении числа мутаций в них в двести с лишним раз расчетное время до общего предка этих гаплотипов, в данном случае проживавшего на Русской равнине около пяти тысяч лет назад, получается практически одинаковым, в пределах погрешности расчетов. Это значит, что гаплотипы гаплогруппы R1a на пост-советском пространстве перемешаны достаточно хорошо, и все выборки вполне репрезентативны.

Конечно, могут быть и другие ситуации. Например, в горах в каждой долине состав гаплотипов (и гаплогрупп/субкладов) может заметно различаться, в отличие от того, что может наблюдаться на равнине, где гаплотипы более перемешаны за тысячелетия. Но в любом случае расчеты и выводы по гаплотипам относятся только к той конкретной выборке, которая рассматривалась, и только сопоставление разных выборок может показать, насколько система «перемешана», и решить вопрос об обобщении результатов расчетов и выводов на всю популяцию региона, или только ее конкретную часть. Но пока репрезентативность разных выборок наблюдается и в горах. Например, разные выборки осетин и карачаево-балкарцев дают воспроизводимые результаты для каждого из этих этносов. Перемешивание между ними обнаружено, но очень незначительное, практически не влияющее на результаты расчетов.