Формальные статистические тесты подтверждают происхождение всех живых организмов от единого предка
Рисунок из записной книжки Дарвина, сделанный в 1837 году (через год по окончании возвращения из кругосветного плавания на «Бигле»). На этом рисунке в первый раз в графической форме представлена мысль происхождения разных видов живых существ от единого предка.
Изображение с сайта talkingsquid.net
Мысль о единстве происхождения всего живого есть общепринятой среди биологов, но доводы в ее пользу имеют в главном качественный, а не количественный темперамент. Формальные статистические тесты, основанные на «теории выбора моделей» (model selection theory) и не применяющие априорного допущения о том, что сходство протеиновых молекул говорит об их родстве, продемонстрировали, что догадка о едином происхождении всего живого значительно более правдоподобна, чем другие модели, предполагающие свободное происхождение различных групп организмов от различных предков.
Дарвин пологал, что все живые организмы случились или от одной исходной формы, или от нескольких (см. common descent). Дарвин покинул вопрос о количестве первопредков открытым, в силу того, что в XIX веке наука еще не обладала средствами для ответа данной неприятности. В отечественные дни большая часть биологов уверено, что всё живое случилось от «последнего универсального неспециализированного предка» (last universal common ancestor, LUCA).
Данный предок, но, вряд ли был единичным организмом либо «видом» в современном понимании этого слова, а, скорее, воображал собой полиморфное микробное сообщество, в котором осуществлялся деятельный горизонтальный обмен генами.
Само собой разумеется, LUCA не первенствовал живым существом на свете: его появлению предшествовала продолжительная эволюция (в ходе которой, в частности, сформировался современный аппарат синтеза и генетический код белка, см.: Vetsigian, Woese, Goldenfeld. 2006. Collective evolution and the genetic code).
В один момент с LUCA, вероятнее, жили и другие существа, но их потомки вымерли. Большая часть специалистов думает, что у LUCA уже были ДНК и РНК, транскрипции и ферменты репликации, другие компоненты и рибосомы аппарата синтеза белка. Сильнейшим доводом в пользу действительности LUCA есть единство генетического фундаментальное сходство и кода молекулярных совокупностей синтеза ДНК, РНК и белков у всех живых организмов (см.: Молекулярно-генетические доказательства эволюции).
Но данный довод, при всей его убедительности, есть не количественным, а качественным. Численно оценить его силу очень непросто.
В случае, если жизнь в один раз зародилась на Земле либо в космосе, то теоретически она имела возможность зародиться и пара раз. В принципе возможно высказать предположение, что современная судьба происходит более чем от одного предка. К примеру, бактерии имели возможность случиться от одного, а археи — от другого предка (такая точка зрения иногда высказывается, не смотря на то, что приверженцев у нее мало).
Строгие статистические процедуры для разрешения данной задачи до сих пор фактически не употреблялись. Стандартные методики сравнения нуклеотидных последовательностей ДНК и аминокислотных последовательностей белков включают в себя вычисление последовательности количественных показателей, отражающих возможность того, что замечаемое сходство — итог случайности (см.: The Statistics of Sequence Similarity Scores). Низкие значения этих показателей говорят о статистической значимости (неслучайности) сходства, но в принципе они не являются строгим доказательством родства (единства происхождения) сравниваемых молекул.
Высокое сходство двух последовательностей теоретически может разъясняться не только их неспециализированным происхождением, но и конвергентной эволюцией под действием сходных факторов отбора.
Еще более важные претензии возможно предъявить к практически всем компьютерных программ, предназначенных для построения эволюционных деревьев. Эти программы, в большинстве случаев, ориентированы на то, дабы на базе любого комплекта сравниваемых последовательностей выстроить «наилучшее», другими словами имеющее большую статистическую помощь, эволюционное дерево. Эти программы просто не рассматривают возможности существования нескольких не связанных между собой деревьев, растущих из нескольких свободных корней.
При помощи этих способов возможно количественно оценивать и сравнивать «правдоподобие» разных деревьев, но нельзя понять, есть ли модель с одним деревом более либо менее правдоподобной, чем модели с двумя либо тремя свободными деревьями. Иными словами, мысль единого неспециализированного предка «вмонтирована» в эти программы изначально (что отражает глубокую убежденность биологов в существовании для того чтобы предка у любой пары живых организмов).
Дуглас Теобальд (Douglas L. Theobald) из Университета Брандейса (США) постарался преодолеть эти ограничения и создать свободные статистические тесты для проверки догадки LUCA, в каковые не была бы встроена мысль о том, что сходство последовательностей имеется мерило их родства, и тем более не была бы изначально заложена мысль единства происхождения. Теобальд не пробовал узнать, как весомым с позиций статистики есть единство генетического кода всех организмов. Его задача была более узкой: он желал количественно оценить, как надежными (либо ненадежными) являются свидетельства в пользу LUCA, заключенные в аминокислотных последовательностях главных белков, каковые имеется у всех живых существ.
Подход Теобальда основан на тестах, созданных в рамках теории выбора моделей (model selection theory). Для сравнения соперничающих эволюционных моделей употреблялись три теста: 1) log likelihood ratio, LLR (см. Likelihood-ratiotest; 2) Akaike information criterion (AIC); 3) log Bayes factor.
Эти тесты количественно оценивают «правдоподобие» (likelihood) сравниваемых моделей (в данном случае — эволюционных реконструкций, складывающихся из одного либо многих деревьев) на базе двух главных параметров: 1) точности соответствия модели настоящим фактам, 2) парсимоничности (экономности) модели. Иными словами, эта методика разрешает выбрать из множества моделей такую, которая самый совершенно верно обрисовывает (растолковывает) замечаемые факты, применяя для этого предельное количество допущений («свободных параметров»).
Теобальд разбирал аминокислотные последовательности 23 белков, каковые имеется у всех живых организмов (в главном это белки, участвующие в синтезе белка аминоацил-тРНК-синтетазы, рибосомные белки, факторы элонгации и др.). Протеиновые последовательности были забраны у 12 организмов: четырех бактерий, четырех архей и четырех эукариот (дрожжи, дрозофила, червь C. elegans, человек).
Сравниваемые эволюционные модели строились на базе последовательности общепринятых допущений. Предполагалось, что аминокислотные последовательности смогут понемногу изменяться в ходе эволюции методом замены одних аминокислот вторыми. Употреблялись созданные ранее матрицы 20 × 20, отражающие эмпирическую возможность либо частоту замены каждой аминокислоты на любую другую.
Предполагалось кроме этого, что аминокислотные замены, происходящие в различных эволюционных линиях и в различных участках белка, не скоррелированы между собой.
Догадка единого неспециализированного предка (LUCA) сравнивалась с догадками о нескольких неспециализированных предках, причем вопрос об однократном либо множественном зарождении судьбы остался за кадром. Дело в том, что догадка LUCA в полной мере совместима с множественным зарождением судьбы. В этом случае или все остальные древние формы судьбы, не считая LUCA, не покинули доживших до наших дней потомков, или представители нескольких независимо появившихся популяций в ходе эволюции купили свойство обмениваться генами между собой и практически слились в один вид.
Модели, разглядываемые Теобальдом, совместимы с обоими этими сценариями.
Другие эволюционные модели, сравнению которых посвящена обсуждаемая статья в Nature. a — всё живое происходит от двух либо более различных предков, b — от единого предка.
Пунктирными линиями обозначены события горизонтального генетического обмена. Рис. из популярного синопсиса к обсуждаемой статье Steel & Penny
Создатель разглядел два класса моделей: в первом из них горизонтальный генетический обмен не учитывался, и организмы должны были эволюционировать в соответствии с древовидными схемами. Модели второго класса допускали горизонтальный обмен (в том числе симбиогенетическое слияние двух организмов в один), исходя из этого схемы получались не древовидные, а сетчатые, с перемычками между ветвями. В пределах каждого класса сравнивались между собой самые правдоподобные модели, выстроенные на базе разных допущений о количестве исходных предков.
Модель единого происхождения (ABE, где A — археи, B — бактерии, E — эукариоты) сравнивалась с разнообразными моделями множественного происхождения: AE + B (у архей и эукариот был один неспециализированный предок, но бактерии случились от другого предка), AB + E, BE + A, A + B + E и т. д. Рассматривалась кроме того возможность свободного происхождения многоклеточных животных либо человека.
Все три использованных теста во всех случаях с уверенностью поддержали догадку LUCA в противовес другим догадкам множественного происхождения. К примеру, для моделей класса 1 «правдоподобие» догадки ABE выяснилось выше, чем у ее ближайшего соперника (модели AE + B) в 102860 раз. Это число кроме того нельзя назвать «астрономическим», в астрономии столь солидных чисел нет.
Приблизительно такую же надежную помощь взяли догадки класса 2 (с горизонтальным переносом) при сравнении их с догадками класса 1. Самой правдоподобной моделью, с огромным отрывом от всех остальных, была модель LUCA 2-го класса: с единым сетчатой структурой и общим предком, обусловленной горизонтальным генетическим обменом между эволюционирующими линиями. Эта модель, в частности, адекватно отражает симбиогенетическое происхождение эукариот: кое-какие из 23 рассмотренных белков эукариоты очевидно унаследовали от бактерий, а другие — от архей.
Так, аминокислотные последовательности главных белков, имеющихся в каждой живой клетке, дают замечательную статистическую помощь догадке LUCA. Наряду с этим главным свидетельством в пользу единства происхождения есть не величина сходства как таковая (настоящее сходство гомологичных белков у человека, бактерий и дрожжей в действительности не так уж громадно), а темперамент (либо структура) этого сходства, то имеется распределение однообразных либо родных по особенностям аминокислот по протеиновой молекуле у различных организмов. Структура замечаемого сходства такова, что она снабжает «выводимость» одних белков из вторых, и исходя из этого догадка единого происхождения растолковывает всю картину значительно лучше, чем другие модели.
В дополнительных материалах (PDF, 352 Кб) к обсуждаемой статье Дуглас Теобальд приводит вымышленные примеры протеиновых молекул, каковые владеют высоким сходством, но для которых единое происхождение выясняется менее возможным, чем множественное. К примеру, так получается, в случае, если белок A сходен с белком B по одним аминокислотным позициям, а с белком C — по вторым. Что касается настоящих белков, то догадка LUCA растолковывает замечаемое сходство самый «экономным» образом.
В случае, если включить в рассмотрение белки, каковые имеется не у всех, а лишь у некоторых организмов (к примеру, лишь у эукариот), результаты остаются такими же, в силу того, что новые типы белков так или иначе должны были появляться в различных эволюционных линиях — независимо от того, имели ли эти линии единое либо различное происхождение.
Эта работа, само собой разумеется, не является решением поставленной неприятности — скорее, ее необходимо разглядывать как первый ход. Абсолютно исключить все вероятные другие интерпретации взятых результатов достаточно тяжело. Для этого пригодится более детальное знание закономерностей эволюции белков и еще более сложные статистические способы.
Источники:
1) Douglas L. Theobald. A formal test of the theory of universal common ancestry // Nature. 2010.
V. 465. P. 219–222.
2) Mike Steel, David Penny. Common ancestry put to the test // Nature. 2010. V. 465.
P. 168–169.