ВикиДиа

пока Гугл только

Замена моделей

Материал из Википедии, свободной энциклопедии

В биологии, замещение модель описывает процесс, в котором последовательность символов изменения в другой набор качеств. Например, в Cladistics, каждая позиция в той последовательности, может соответствовать собственности виды, которые могут быть либо присутствует или отсутствует. Алфавит могла бы состоять из "0" за отсутствие и "1" для присутствия. Тогда последовательность 00110 может означать, например, что виды не перьев или откладывать яйца, не имеют меха, это теплокровные, и не могут дышать под водой. Другая последовательность 11010 будет означать, что вид имеет перья, откладывает яйца, не имеют меха, это теплокровные, и не могут дышать под водой. В Филогенетика, последовательности часто приобретается путем получения первого нуклеотида или выравнивания последовательностей белков, а затем с базами илиаминокислот в соответствующей позиции в соотношении как символы. Последовательности достигнуто это может выглядеть AGCGGAGCTTA и GCCGTAGACGC.

Замена модели используются для целого ряда вещей:

  1. Построение эволюционных деревьев в Филогенетика или Cladistics.
  2. Моделирование последовательностей для тестирования других методов и алгоритмов.

Содержание 

[hide]

[Править]нейтрального, независимого, конечных моделей сайты

Большинство замещение моделей, используемых на сегодняшний день нейтральный, независимый, конечных моделей объектов.

Нейтральные
Выбор не действуют на замены, и поэтому они непринужденно.
Независимые
Изменения в одном месте не влияет на вероятность изменений в другом сайте.
Конечные сайты
Есть конечное множество сайтов, и поэтому более эволюция одного сайта может быть изменен несколько раз. Это означает, что, например, если символ имеет значение 0 в момент времени 0 и в момент времени T,это может быть, что произошло никаких изменений, или что оно изменилось к 1 и обратно на 0, или что оно изменилось к 1 и Вернуться к 0, а затем на 1, а затем обратно на 0, и так далее.

[Править]молекулярные часы и единиц времени

Различные замещение моделям сделку со временем по-разному.

  • Очень часто для измерения времени в замен. Например, если кто не собирался построить филогенетического дерева применяя модель замещения, можно просто измерить расстояния по ветвям деревьев в замен. Это удобно, так как позволяет избежать любых вопрос о ставке замещения по отношению к единице времени изменилась или нет (поскольку по определению числа замен на замещение является одной), и она не нуждается в какой-либо информации о сроках, которые могут быть поставлена под сомнение.
  • Молекулярная предположение часы Также очень распространены, а именно, что скорость замен по времени является постоянным. Это всего лишь множитель (обычно называемые μ, число замен в единицу времени) по сравнению с измерением времени в замен. Для проведения подобного анализа, необходимо оценить μпервый (который требует знаний, по крайней мере одна ветвь длиной впереди времени, зачастую трудные задачи, которые могут легко быть оспорена другими).
  • Предположение о молекулярных часов зачастую нереалистичным, особенно через длительный период эволюции. Например, хотя грызуны, генетически очень похожи на приматов, они претерпели гораздо большее число замен в расчетное время с расхождением в некоторых регионах генома [1]. Это может быть связано с более коротким периодом [2], более высокий уровень метаболизма, повышение структурирования населения, увеличение темпов видообразования, или меньший размер тела [3] [4]. При изучении таких событиях, каккембрийского взрыва под предположения молекулярных часов, согласие между бедными кладистическое и филогенетические данные часто наблюдается. Там была определенная работа по модели, позволяющие переменной скоростью эволюции (см., например, [5] и [6]).

[Править]Время-обратимые моделями

Большинство полезных моделей замещения времени обратимы. Что касается замены моделей, это просто означает, что с течением времени, относительные частоты каждого символа не меняются.

За время обратимо модели, не существует предположение, что преимущественное замен изменений в определенных направлениях с течением времени. Например -> C -> G так же, как G -> C -> А.

Причина этого в том, что при выполнении анализа реальных биологических данных, существует, как правило, не имеют доступа к последовательности предков виде, только на вид и сегодня. Однако, когда модели обратимого времени, какие виды были исконные виды не имеет значения. Вместо этого филогенетического дерева может иметь корни вдоль ветви, ведущие к произвольной современных видов, вновь укоренившиеся позднее на основе новых знаний, или влево некорневых.

Время обратимо модель удовлетворяет следующему свойству π 1 Q 12 = 2 π Q 21 (см. ниже определения этой записи)

[Править]Математика замещения моделями

Нейтрального, независимого, конечных моделей сайтах (при условии постоянной скорости эволюции) есть два параметра, Π, вектор базы (или персонаж) частоты в начальный момент (на время обратимо модель, этот вектор обычно называют базу равновесие частотах, и распространяется на все времена), и скоростью матрицы, Q,которая описывает скорость, с которой базе одного типа изменений в базы другого типа, I J для I \ NE J это скорость, с которой Base I J идет на базу. Для удобства, диагональ матрицы Q выбраны таким образом сумма строк до нуля.

Q_ (II) = - (\ sum_ (I \ NE J) Q_ (IJ))

Функции матрицы перехода является функцией от длин филиала (в некоторых единицах времени, возможно, в замен), в матрицу условных вероятностей. Она обозначается P (T). Запись в I-м столбце и J-й строки (Р И Й (T))есть вероятность, за время т, что существует база J на данной позиции, условно от наличия базы и в этом положении на время 0. Если модель время обратимо, это может быть выполнена между любыми двумя последовательностями, даже если он не является предком другой стороны, если вы знаете, общая длина филиала между ними.

Асимптотических свойств я J (T) таковы, что P_ (IJ) (0) = \ Delta_ (IJ) \,, где δ I J является функция Кронекера дельты.То есть, нет никаких изменений в базу состава между последовательностью и с собой. На другом полюсе, \ lim_ (T \ Rightarrow \ infty) P_ (IJ) (T) = \ Pi_ (J) \,, или, другими словами, с течением времени стремится к бесконечности, вероятность нахождения на базе J позицию, которая там была база я в этой позиции, первоначально поступает в равновесии вероятность того, что является базой J в этой позиции, независимо от первоначальной базы.

Матрица перехода может быть вычислена по скорости матрицы и равновесия база частот P (T) = Q T. Так какQ является матрица, это матрица экспоненциальной и аппроксимируется рядом Тейлора расширение P (T) = \ sum_ (N = 0) ^ (\ infty) (Q ^ N (T ^ (N) \ над (N!))) \,.

Если Q является диагонализуемы, экспоненциальный можно вычислить прямо: пусть Q = P ^ (-1) \ Lambda () \, P быть Диагонализация Q, с

\ Lambda = \ (начать pmatrix) \ lambda_1 & \ ldots & 0 \ \ \ vdots & \ ddots & \ vdots \ \ 0 & \ ldots & \ lambda_4 \ (конец pmatrix) \,,

где (λ I) собственные значения Q, каждый повторяются в соответствии с его кратность. Тогда

P (T) = E ^ (QT) = E ^ (P ^ (-1) (\ Lambda T) P) = P ^ (-1) E ^ (\ Lambda T) \, P \,,

где E ^ (\ Lambda T) = \ (начать pmatrix) E ^ (\ lambda_1 T) & \ ldots & 0 \ \ \ vdots & \ ddots & \ vdots \ \ 0 & \ ldots & E ^ (\ lambda_4 T) \ END () pmatrix

Время обратимость (или стационарности) ограничение Π Q = 0, потому что строки были определены в сумме до нуля, а общая база частоты не должны систематически переход от Π. Это равносильно тому, Π P (T) = Π для всех T.

[Править]GTR: Общая время обратимо

ГТП является наиболее общим нейтральным, независимым, конечное-сайтов, время обратимо-модели возможно.Она была впервые описана в общем виде Симона Tavare в 1986 году. [7]

GTR параметры состоят из вектором частот щелочное равновесие, Π = (π 1, π 2, π 3, π 4), что дает частоту, на которой каждая базовая происходит на каждом участке, и скорость матрица

Q = \ (начало) (pmatrix - (x_1 + x_2 + x_3)) & (\ pi_1 x_1 \ над \ Pi_2) & (\ pi_1 x_2 \ над \ pi_3) & (\ pi_1 x_3 \ над \ pi_4) \ \ ( x_1) & (- ((\ pi_1 x_1 \ над \ Pi_2) + x_4 + x_5)) & (\ Pi_2 x_4 \ над \ pi_3) & (\ Pi_2 x_5 \ над \ pi_4) \ \ (x_2) & () x_4 & (- ((\ pi_1 x_2 \ над \ pi_3) + (\ Pi_2 x_4 \ над \ pi_3) + x_6)) & (\ pi_3 x_6 \ над \ pi_4) \ \ (x_3) & x_5 () & () x_6 & (- ((\ pi_1 x_3 \ над \ pi_4) + (\ Pi_2 x_5 \ над \ pi_4) + (\ pi_3 x_6 \ над \ pi_4))) \ (конец pmatrix)

Таким образом, ОТО (для четырех символов государства, как это часто бывает в Филогенетика, а именно при работе с ДНК или РНК данные) требует 6 замещение параметрами скорости, а также 4 равновесных параметров базовой частоты. С 4 частотных параметров должны сумма к 1, на самом деле только 3 свободных параметров частоты. Это обычно дополнительно сокращено до 8 плюс параметры μ, общее число замен в единицу времени.При измерении времени в замен  = 1), только 8 свободных параметров остается.

В общем, для вычисления количества параметров, вы подсчитать количество записей выше диагонали в матрице, т.е. для N значений за чертой сайта ((N ^ 2-N) \ более 2) , А затем добавить N-1 на частотах равновесия база, и вычесть 1, так как фиксируется μ. Вы получите

((N ^ 2-N) \) свыше 2 + (N - 1) - 1 = (1 \ более 2) N ^ 2 + (1 \ более 2) N - 2.

Например, для последовательности аминокислот (есть 20 "стандарт" аминокислоты, составляющие белки), вы обнаружите, есть 208 параметрам. Однако при изучении кодирующих областей генома, это более общие для работы с моделью замещение кодона (кодон три базы и кодов для одной аминокислоты в белке). Есть 3 = 64кодона, в результате чего в 2078 свободных параметров, но когда ставки для переходов между кодонов, которые отличаются более чем на одну базовую считаются равными нулю, то есть только ((20 \ 19 раза \ раза 3) \ более 2) + 63 - 1 = 632 параметры.

[Править]Механистическое против эмпирических моделей

Основное отличие моделей эволюционного сколько параметров оценивается каждый раз для набора данных на стадии рассмотрения и сколько из них оценивается один раз на большом наборе данных. Механистическое модели описывают все замещения в зависимости от ряда параметров, которые оцениваются для каждого набора данных проанализированы, желательно с использованием максимального правдоподобия. Это имеет то преимущество, что эта модель может быть приспособлен к особенностям конкретного набора данных (например, различные предубеждения в состав ДНК). Проблемы могут возникнуть, когда используется слишком много параметров, особенно если они могут компенсировать друг друга. Тогда это часто бывает, что набор данных слишком мало для получения достаточной информации, чтобы оценить все параметры точно.

Эмпирических моделей, созданных с помощью оценки многим параметрам (как правило, все записи скорости матрицы и характер частоты, см. выше модель ОТО) с большим набором данных. Эти параметры затем фиксируется и будет использоваться для каждого набора данных. Это имеет то преимущество, что эти параметры могут быть оценены более точно. Как правило, это не представляется возможным оценить все элементы матрицы от замещения текущего набора данных только. С другой стороны, предполагаемые параметры могут быть слишком общими и не соответствуют конкретному набору данных достаточно хорошо.

При больших масштабах секвенирование генома все еще производят очень больших количеств ДНК и белковых последовательностей, есть достаточно данных для создания эмпирических моделей с любым числом параметров. Из-за проблем, упомянутых выше, эти два подхода, часто сочетаются, по оценке большинства параметров сразу на больших масштабах данные, а некоторые оставшиеся параметры затем корректируются с данными, на стадии рассмотрения. В следующих разделах дается обзор различных подходов, принятых для ДНК, белка или кодон основе моделей.

[Править]моделей ДНК замещения

Основная статья: Модель ДНК, эволюция для более формальных описаний ДНК моделей.

Модели развития ДНК была впервые предложена в 1969 году Джукс и Кантора [8], при равном ставкам перехода, а также равные частоты равновесия во всех базах. В 1980 году Кимура [9] представила модель с двумя параметрами: один для переходного периода и одного для скорости перевала и в 1981 году, Felsenstein [10]сделал модель, в которой соответствует ставка замещения к равновесной частоты целевой нуклеотид. Хасэгава, Kishino и Яно (HKY) [11] объединил два последних моделей шести параметров модели. В 1990-х годов, модели похожи на HKY были разработаны и уточнены некоторые исследователи (например, [12] и [13]).

Для моделей ДНК замещения, в основном механистической модели (как описано выше) заняты. Небольшое количество параметров для оценки делает это возможным, но и ДНК часто оптимизированы для конкретных целей (например, быстро выражения или стабильности) в зависимости от организма и тип гена, что делает необходимым, чтобы настроить модель на эти обстоятельства.

[Править]Модели аминокислотных замен

Для многих анализов, особенно для большой эволюционный расстояния, эволюция смоделированный на амино уровня кислоты. Поскольку не все ДНК замещения также изменить закодированы аминокислоты, информация не будет потеряна при взгляде на аминокислоты вместо нуклеотидных оснований. Однако ряд преимуществ, говорят в пользу использования информации амино кислоты: ДНК является гораздо более склонны показыватькомпозиционную предвзятость, чем аминокислоты, не все позиции в ДНК развиваться с той же скоростью (Non-синонимами мутации чаще стали зафиксированные в населения, чем те синонимы), но, вероятно, самое главное, из-за этих быстро меняющихся позиций и ограниченный размер алфавита (возможно только четыре государства), ДНК гораздо больше страдает от задней замен, что затрудняет точную оценку большие расстояния.

В отличие от ДНК моделями, амино-кислот моделях традиционно эмпирических моделей. Они были первыми в 1970-х Dayhoff с сотрудниками [14], по оценке коэффициент замещения от белка группировок, по крайней мере 85% идентичность. Это минимуму вероятность наблюдения несколько замен на сайте. С оценками матрицу курс, были получены серия замена матрицы вероятностей, известный под такими именами, как PAM 250. Dayhoff модель была использована для оценки значимости результатов поиска гомологии, но и для филогенетического анализа. Dayhoff PAM матрицы были основаны на относительно небольшое число группировок (так как больше не было на тот момент), но в 1990, Нью-матрицы были рассчитаны с использованием почти такой же методологии, но основанные на больших базах данных белков доступно, то ([15] [ 16], причем последняя известная как "JTT" матрицы ").

[Править]Ссылки

  1. ^ X и W Гу Ли (1992): Более высокие темпы замещения аминокислот у грызунов, чем у человека. Молекулярная Филогенетика и эволюция ", 1:211-214. DOI
  2. ^ WH Ли, J Ellsworth, BH Крушкаль, J Чанг, D-Хьюитт Emmett (1996): Курсы нуклеотидные замены в приматов и грызунов поколения гипотеза время эффект. Молекулярная Филогенетика и эволюция ", 5:182-187. DOI
  3. ^ П. Мартин и SR Palumbi (1993): размер тела, метаболические процессы, время генерации, и молекулярные часы. Труды Национальной академии наук, США, 90:4087-4091. PNAS
  4. ^ Z Янга и R Нильсен (1998): синонимами и nonsynonymous изменения скорости в ядерный геном млекопитающих. Журнал молекулярной эволюции, 46:409-418. DOI
  5. ^ H Kishino, JL Торн и WJ Бруно (2001): Эффективность метода оценка расхождений по вероятностной модели скорости эволюции. Молекулярной биологии и эволюции 18: 352-361. PubMed
  6. ^ JL Торн, H Kishino и ИС Painter (1998): Оценка скорости эволюции скорость молекулярной эволюции: молекулярная биология и эволюция 15: 1647-1657. МПЭ
  7. ^ Tavare С. "Некоторые вероятностные и статистические задачи в анализе ДНК последовательностей". Американского математического общества: Лекции по математике в науках о жизни 17:
  8. ^ Джукс, TH и Кантора, Cr. 1969. Эволюция белковых молекул. Стр. 21-123 в HN Мунро, ред. Млекопитающих метаболизма белков. Academic Press, New York.
  9. ^ Кимура, М. 1980. Простой метод оценки эволюционного базовой ставки замещения путем сравнительного исследования нуклеотидных последовательностей. Журнал молекулярной эволюции 16 :111-120. DOI
  10. ^ Felsenstein, J. 1981. Эволюционных деревьев от ДНК последовательностей: Метод максимального правдоподобия. Журнал молекулярной эволюции 17 :368-376. DOI
  11. ^ Хасегава, М., Kishino, H и Яно, Т. 1985. Знакомства человека и обезьяны путем расщепления молекулярные часы митохондриальной ДНК. Журнал молекулярной эволюции 22 :160-174. DOI
  12. ^ Тамура, K. 1992. Оценка числа нуклеотидных замен, когда есть сильные переходного перевала и предубеждения G + C содержание. Молекулярной биологии и эволюции 9 :678-687. МПЭ
  13. ^ Тамура, К. и М. Нея. 1993. Оценка числа нуклеотидных замен в область управления митохондриальной ДНК у человека и шимпанзе. Молекулярной биологии и эволюции 10 :512-526. МПЭ
  14. ^ Dayhoff МО, Р. Шварц, Orcutt BC (1978). "Модель для эволюционных изменений в белках". Атлас последовательности белка и структура 5: 345-352.
  15. ^ Gonnet GH, Коэн М., Беннер SA (1992). "Исчерпывающий соответствия всей базы данных последовательность белка".Science 256: 1443-1445. DOI: 10.1126/science.1604319. PMID 1604319.
  16. ^ ДТ Джонс, Тэйлор WR, Торнтон JM (1992). "Быстрое поколения мутации данные матрицы из белковых последовательностей". Comput Applic Biosci 8: 275-282.
Comments