Информация

Доступность растворителей, метод отсечки 20%

Доступность растворителей, метод отсечки 20%


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Я читаю документы, ссылки на которые приведены ниже, и все три из них упоминают 20% -ное ограничение для захороненных / открытых остатков путем расчета значения относительной доступности растворителя (RSA).

Я понимаю, как рассчитывается RSA, путем деления рассчитанной доступности растворителя на общие значения доступности растворителя из таблицы 2 в документе 4.

RSA = рассчитано / всего

например если рассчитано, что аргинин имеет доступность для растворителя, равную 55,43, а его общая доступность для растворителя составляет 241, тогда RSA = 55,43 / 241 = 23%, поэтому этот аргинин считается подверженным воздействию (см. утверждение 1 ниже).

Что меня смущает, так это определение или отсутствие метода 20% для определения обнаженных или захороненных остатков.

Я предполагаю, что это означает одно из следующего:

  1. Если RSA аминокислоты ниже 20%, он закапывается, а выше 20% - обнажается. Так что для аминокислоты с RSA 21% это значение кажется мне немного низким. Я думаю, что утверждение 2 имеет смысл.

  2. Если RSA аминокислоты ниже 20%, он закапывается, а выше 80% - обнажается.

Какое из утверждений правильное?

Документ 1 - см. Первый абзац раздела методов

Бумага 2 - см. Рисунок 5 и таблицу 3

Документ 3 - см. Аннотацию и набор данных

Документ 4 - общие значения см. В таблице 2


Его 1. Ниже границы, похороненный, выше отсечки доступный.

Документ 1: «Пороговое значение в 20% было использовано для определения двух состояний, погребенного или обнаженного. С этим определением набор данных был примерно равномерно разделен между два государства."

Возможны только два состояния: доступ к растворителю и скрытый.

Документ 2: «Данный остаток определяется как незащищенный (e) если его RSA больше порогового значения, в противном случае он определяется как скрытый (б) ".

Резюме для работы 3: ограничение на 20% для двухгосударственный определение доступности растворителей.

Если бы это было def # 2, это было бы определение трех состояний.

Документ 4: «В среднем 15% остатков в небольших белках и 32% в более крупных могут быть классифицированы как« захороненные остатки », так как менее 5% их поверхности доступны для растворителя…»

В этой статье декана структурного анализа Сайруса Чотиа используется пороговое значение 5%, а не 20% ...

Далее в аннотации говорится… «Доступность большинства других остатков равномерно распределена в диапазоне от 5 до 50%».

Этот отрывок намекает, что SA не поднимается даже до 80%. Просто учитывая, что вы часто не получите больше, чем, скажем, 60% с этим расчетом. Я просто догадываюсь; но мысль состоит в том, что если вы не находитесь на конце белка, который часто неупорядочен и не проявляется в кристаллической структуре, у вас будет две соседние аминокислоты для каждого остатка - только доступная для растворителя область, занятая контакт с соседями легко может составлять 20% от общего числа.


Вы уверены, что формула RSA верна? Я нашел другое описание : Относительные классы доступности растворителей обычно выводятся из программы DSSP путем их нормализации по максимальному значению открытой площади поверхности, доступному для каждого остатка. Для определения бинарных категорий (захороненные и захороненные) выбираются различные произвольные пороговые значения доступности растворителя. открытые) или тройные категории (захоронены, частично обнажены или обнажены).

Полластри, Г., Балди, П., Фаризелли, П., и Касадио, Р. (2002). Прогноз координационного числа и относительной доступности растворителей в белках. Белки: структура, функция и биоинформатика, 47 (2), 142-153.


Прогнозирование доступности белковых растворителей с помощью машин опорных векторов

Система машинного обучения опорных векторов была обучена предсказывать доступность белкового растворителя по первичной структуре. Были исследованы различные функции ядра и размеры скользящего окна, чтобы выяснить, как они влияют на производительность прогнозирования. Используя порог отсечения в 15%, который равномерно разделяет набор данных (равное количество обнаженных и скрытых остатков), этот метод смог достичь точности прогноза 70,1% для ввода одной последовательности и 73,9% для ввода нескольких последовательностей выравнивания. соответственно. Прогнозирование трех и более состояний доступности растворителя также изучалось и сравнивалось с другими методами. Точность прогнозов лучше или сравнима с точностью, полученной другими методами, такими как нейронные сети, байесовская классификация, множественная линейная регрессия и теория информации. Кроме того, наши результаты предполагают, что эту систему можно комбинировать с другими методами прогнозирования для достижения более надежных результатов, и что метод машины опорных векторов является очень полезным инструментом для анализа биологической последовательности.


Вступление

Палиндром относится к набору символов в последовательности, которая читается одинаково в обоих направлениях. Палиндромы присутствуют в последовательностях нуклеиновых кислот и белков. Почти 30% остатков в белке являются членами пептидных палиндромов, трипептидов и более длинных [1]. Нередки палиндромы длиной более 10 остатков [2]. По мере уменьшения длины палиндромной последовательности известно, что в белках встречается большее количество палиндромов [3]. 26% белковых последовательностей в базе данных SwissProt содержат по крайней мере один палиндромный повтор [4]. Последовательности палиндрома имеют высокую тенденцию к образованию & # x003b1-спиралей [5]. Как правило, роль палиндрома в белке не ясна.

В настоящем исследовании мы проанализировали определенные последовательности и структурные свойства, связанные с палиндромами в белках, такие как вероятность появления аминокислотных остатков в отдельных положениях в последовательностях палиндрома определенной длины, конформация вторичной структуры, гидрофобность, доступность растворителя, соседство остатков. контакты, взаимодействие с остатками каталитического центра или активного центра, лигандом или металлом в белках и идентификация семейств белков, составляющих палиндромы. Мы обсуждаем эти особенности для пентапептида и больших палиндромов, идентифицированных в репрезентативных белках известной трехмерной структуры. Далее мы исследуем на некоторых иллюстративных примерах «окружение» палиндромов, характеризующееся одинаковой длиной, последовательностью и вторичной структурой в разных белках.


Полученные результаты

Набор данных связанных и несвязанных структур

Набор данных состоит из 126 комплексов белок-РНК, для которых по крайней мере один взаимодействующий партнер доступен в несвязанной форме. Из этих 126 комплексов 28 относятся к классу A, 5 - к классу B, 40 - к классу C и 53 - к классу D (см. Раздел «Материалы и методы» и дополнительную таблицу S1). Основываясь на их наличии в несвязанной форме, мы находим 21 из PUрU типа, где и белок, и РНК доступны в несвязанной форме, 95 относятся к PUрB типа, где только белок доступен в несвязанной форме, а 10 относятся к PBрU типа, где в несвязанном виде доступна только РНК (таблица 1). Локальное выравнивание полипептидных цепей между несвязанной и связанной (U / B) структурами показывает, что 93 из 116 имеют идентичность последовательностей> 98%, тогда как остальные имеют значения между 90% и 98%. С другой стороны, идентичность последовательностей 20 из 31 пары полинуклеотидов U / B имеет значения & gt98%, а остальные имеют значения от 90% до 98%. Мы отбросили 896 (

6,7%) нуклеотидов во всем наборе данных из-за несоответствия в выравнивании между парами U / B.

Изменение доступности на интерфейсах белок-РНК

Общее изменение доступности при связывании является кумулятивным эффектом многих локальных конформационных перестроек. Некоторые остатки обнажаются, закапывая другие, или наоборот. Изменение доступности интерфейсных атомов при связывании рассчитывалось путем сравнения их значений SASA в связанном и несвязанном состояниях. В среднем RBPs увеличивают доступность растворителя на границе раздела на 120,5 Å 2 после связывания с РНК (таблица 1). Мы обнаруживаем, что в 92 из 116 случаев область интерфейса RBP становится доступной после привязки со средним значением ( delta _

^ < mathrm> ) (см. раздел «Материалы и методы») −172,0 Å 2. В остальных 24 случаях положительные изменения в ( delta _

^ < mathrm> ) наблюдаются со средним значением 77,2 Å 2, что указывает на потерю доступности на интерфейсе. В среднем, интерфейсная область РНК получает доступность растворителя на 92,5 Å 2 при связывании с RBP. Большинство из них, 80% (25 из 31), показывают отрицательные ( delta _^ < mathrm> ) со средним значением -144,1 Å 2 (таблица 1). Остальные, только 20%, показывают положительные изменения со средним значением 122,7 Å 2, что указывает на потерю доступности.

Распределение изменения доступности в RBP и РНК при связывании. (А) Корреляция между | ∆Aп| и | ∆Aр| на интерфейсах белок-РНК для 21 случая UU. Различные классы комплексов показаны разными символами. Распределение δA в 116 RBP и в 31 РНК на белок-РНК (В) интерфейс и (С) неинтерфейсные регионы.

Изменение доступности в неинтерфейсной области

Мы оценили изменение доступности аминокислотных остатков и нуклеотидов в неинтерфейсной области. Здесь среднее изменение доступности RBP составляет всего 3,4 Å 2 (таблица 1), что значительно ниже, чем у интерфейсной области. Во всем наборе данных 50% RBP показывают отрицательные изменения со средним значением -24,6 Å 2, а 50% показывают положительные изменения со средним значением 30,4 Å 2. В неинтерфейсной области РНК среднее изменение доступности составляет 40,3 Å 2. Во всем наборе данных большинство (71%) РНК теряют доступность при связывании со средним значением ( delta _^ > < rm> < rm> < rm>> ) 67,3 Å 2. Только девять РНК (29%) показывают отрицательные изменения со средним значением -25,6 Å 2.

Распределение δA в основной цепи и боковой цепи рассчитано по 116 RBP. (А), а в фосфате, сахаре и основаниях в расчете на 31 РНК (В). Средние значения представлены для скрытых (Bu) и открытых (Ex) поверхностей в интерфейсных и не интерфейсных областях различных классов комплексов.

Влияние конформационных изменений на доступность

Конформационные изменения между несвязанными и связанными формами оцениваются с точки зрения я-rmsd - среднеквадратичное отклонение интерфейса Cα и атомы P аминокислот и нуклеотидов соответственно. По степени конформационных изменений связывание белок-РНК можно классифицировать как твердое тело (я-rmsd & lt 1,5 Å), полугибкий (я -rmsd в пределах от 1,5 Å до 3,0 Å) и полностью гибкий (я-rmsd & gt 3,0 Å) 11,13. Хотя мы находим среднее изменение ( delta _

^ < mathrm> ) составляет -96 Å 2 и -100,4 Å 2 для жестких и полугибких связок, соответственно, изменение значительно выше (-248 Å 2) для полного гибкого связывания. Мы находим умеренную корреляцию (R = 0,6) между ( delta _

^ < mathrm> ) и я-rmsd. Кроме того, мы также обнаружили, что изменение доступности интерфейса в значительной степени обусловлено конформациями боковой цепи (рис. 2A), которые игнорируются в ярасчет среднеквадратичного значения. Это можно проиллюстрировать на рис. 3A, B, где эндонуклеаза сплайсинга тРНК подвергается ассоциации твердого тела (я-rmsd составляет 1,0 Å), однако его интерфейс показывает значительное изменение доступности ( ( delta _

^ < mathrm> ) составляет -410,7 Å 2) при связывании с партнерской РНК. Здесь боковая цепь ( ( delta _

^ < mathrm> ) составляет −356 Å 2) объясняет большее изменение доступности, чем его основная цепочка ( ( delta _

^ < mathrm> ) равно -54,6 Å 2). Также наблюдаются встречные примеры, где небольшое изменение доступности интерфейса не коррелирует с высоким я-среднеквадратичные значения. Примером этого является рибосомный белок L1, который претерпевает значительные конформационные изменения (я-rmsd составляет 5,1 Å) при связывании с партнерской РНК, даже если изменение доступности составляет всего -2,2 Å 2. N- и C-концевые домены L1 связаны короткой и длинной петлей (Fig. 3C). В несвязанном виде площадь скрытой поверхности между этими двумя доменами очень мала. При связывании с РНК длинная петля действует как шарнир и раздвигает оба домена, облегчая связывание РНК. Это перемещение домена приводит к более высокому я-rmsd, не влияя на общее изменение доступности. Точно так же изменения в доступности также можно отнести к скелету, а также к конформационным изменениям сахара и оснований РНК. Например, E. кишечная палочка Ras-подобный белок (ERA), который действует как шаперон для укладки и созревания 16S рРНК, вызывает большие конформационные изменения в 12-нуклеотидном 3'-конце 16 S рРНК. РНК принимает Z-подобную структуру после связывания с доменом KH ERA 14, и по оценкам ( delta _^ < mathrm> ) равно −311,7 Å 2. Второй U с 5'-конца 12-нуклеотидной последовательности изменяет конформацию основания (анти-син) и сахарной складки (C2'-эндо-на-C3'-эндо) и вносит вклад -96,5 Å 2 изменение доступности (рис. 3D).

Изменение доступности при локальных и глобальных конформационных изменениях. (А) Наложенные структуры эндонуклеазы сплайсинга РНК в связанных 42 (оранжевый, PDB id: 2GJW) и в несвязанных 43 (голубых, PDB id: 1R0V) конформациях с РНК (показаны серым). Показан сэндвич Arg-нуклеотид-Arg в сайте расщепления нуклеазой. Оба Arg помечены и показаны на стикере. Изменение конформации R302 позволяет A13 (синий) выступать в карман эндонуклеазы и укладываться двумя Arg. (В) Вид сверху на вышеупомянутую структуру в сфере представления. Оба значения Arg показаны желтым цветом. В несвязанной структуре эндонуклеазный карман недоступен для нуклеотида. Изменение внешнего вида R302 делает карман более доступным. (С) Несвязанные 44 (PDB id: 1AD2) и связанные 45 (PDB id: 2HW8) структуры рибосомного белка L1 (в голубом). Петля в области шарнира, соединяющая два домена, окрашена в красный цвет. Молекула РНК в связанной структуре показана серым рисунком. (D) Наложенные структуры несвязанной (PDB id: 1SDR, желтый цвет) и связанной (PDB id: 3IEV, серый цвет) форм 12-нуклеотидного длинного 3'-конца 16 S рРНК с ERA. Белок представлен оранжевым рисунком.

Изменения вторичных структурных элементов в RBP при связывании

Изменения конформации могут изменить вторичные структуры во время перехода от несвязанного к привязанному, что приведет к изменению доступности. На рисунке 4A показано среднее значение | ΔAп| учитывает разные типы переходов во вторичных структурных элементах при связывании. Мы обнаружили, что среднее изменение доступности в интерфейсе является самым высоким (| ΔAп| = 47,5 Å 2) при переходах от петли к спирали с последующими переходами от спирали к петле (| ΔAп| = 41 Å 2) и от петли к листу (| ΔAп| = 38,4 Å 2). На рисунке 4B показан пример перехода петля к спирали, где неструктурированная α1-спираль белка L25 в несвязанном состоянии (PDB id: 1B75) принимает спиральную конформацию после связывания с большой бороздкой 5 s рРНК (PDB id: 1DFU ) 15. Спираль α1 теряет 230 Å 2 при связывании со своей партнерской РНК. Мы не обнаружили перехода от спирали к листу или наоборот на интерфейсе.

Изменения | ΔA | за счет переходов вторичных структурных элементов в RBP при связывании с РНК. (А) Среднее | ΔA | рассчитанные для каждого перехода представлены как для интерфейсных, так и для не интерфейсных областей. (В) Переход от петли к спирали. Здесь α1-спираль L25 (от Lys14 до Ala23, окрашена в красный цвет) неструктурирована в несвязанном состоянии (PDB id: 1B75), которая принимает спиральную конформацию при связывании с большой бороздкой 5 s рРНК (PDB id: 1DFU ). (С) Переход от листа к спирали. Здесь Arg57 и Ala58 (показаны красной палочкой) фактора элонгации трансляции EF-Tu находятся в конформации листа в несвязанном состоянии (PDB id: 1TUI), которые принимают спиральные конформации при связывании с тРНК (Cys) (PDB id: 1B23). ). (D) Еще один пример перехода от листа к спирали. Здесь Ala85 и Val86 (показаны красной палочкой) фермента, добавляющего CCA, находятся в конформациях β-слоя в несвязанном состоянии (PDB id: 1UET) фермента, которые принимают α-спиральные конформации при связывании с т-РНК ( Идентификатор PDB: 2DRB). На всех этих рисунках белок в связанном и несвязанном состояниях показан оранжевым и бирюзовым цветом соответственно, а РНК показана серым цветом.

В неинтерфейсной области наибольшее изменение доступности наблюдается при переходах от листа к спирали (| ΔAп| = 64,9 Å 2). Это изменение наблюдается в следующих четырех остатках двух разных RBP. Два остатка, Arg57 и Ala58 в факторе элонгации трансляции EF-Tu (PDB id: 1TUI), претерпевают переходы от листа к спирали при связывании с тРНК (Cys) (PDB id: 1B23) (фиг. 4C). Два других остатка, Ala85 и Val86 в несвязанном состоянии фермента, добавляющего CCA (PDB id: 1UET), претерпевают переходы от листа к спирали при связывании с тРНК (PDB id: 2DRB) (рис. 4D). Переходы от петли к спирали также вносят значительный вклад в изменение доступности (среднее значение | ΔAп| = 34,3 Å 2) в областях, не находящихся на границе раздела, тогда как переходы от спирали к петле или от петли к листу вносят умеренный вклад.

Влияние межмолекулярных водородных связей на доступность

Мы оцениваем влияние межмолекулярных Н-связей на изменение доступности для растворителя аминокислотных остатков и нуклеотидов на интерфейсах белок-РНК. Мы обнаружили, что изменение доступности является значительным для остатков, которые не участвуют в какой-либо Н-связи с нуклеотидами-партнерами через интерфейсы, по сравнению с остатками, участвующими в Н-связи (Рис. 5A). Эта тенденция наблюдается во всем наборе данных, а также среди различных классов. Среднее значение | δAп| составляет 61,3 Å 2 для остатков, участвующих в Н-связях на границе раздела, тогда как те, которые не участвуют в Н-связях, имеют в среднем 93 Å 2.

Распределение δA в основной цепи и боковой цепи рассчитано на 116 RBP. (А), а в фосфате, сахаре и основаниях в расчете на 31 РНК (В). Средние значения представлены для скрытых (Bu) и открытых (Ex) поверхностей различных классов комплексов. Приведены значения как для остатков с водородной связью (HB), так и без водородной связи (Non HB). Склонности (С) аминокислотные остатки и (D) нуклеотиды, которые должны быть обнажены или захоронены при связывании.

На стороне РНК изменение доступности значительно выше для нуклеотидов, которые не участвуют в какой-либо Н-связи, по сравнению с нуклеотидами, участвующими в Н-связи через интерфейс (Рис. 5B). Это явление наблюдается во всем наборе данных, а также среди различных классов. Интересно, что наблюдается иная тенденция в | δAр| среди фосфатов, сахара и щелочей. Среди тех, кто участвует в водородных связях через интерфейс, наибольшее изменение среднего значения | δAр| наблюдается в основаниях (38,3 Å 2), за которыми следуют фосфат (32,5 Å 2) и сахар (14,4 Å 2). Напротив, они не участвуют ни в каких водородных связях на границе раздела, наибольшее изменение среднего значения | δAр| наблюдается в основаниях (183,7 Å 2), затем следуют сахар (163 Å 2) и фосфат (83,5 Å 2).

Доступность остатков и нуклеотидов при связывании

Склонность аминокислотных остатков к захоронению или обнажению при связывании показана на фиг. 5C. При связывании положительная склонность означает, что остатки предпочитают подвергаться воздействию, в то время как отрицательная склонность указывает на их предпочтение быть захороненными. Среди положительно заряженных остатков Arg показывает небольшое предпочтение захоронения как на границе раздела, так и в неинтерфейсных областях, в то время как Lys показывает противоположную тенденцию в обеих областях. Среди отрицательно заряженных остатков Asp проявляет сильное предпочтение, чтобы быть захороненным на границе раздела, в то время как Glu проявляет аналогичное предпочтение в области без интерфейса, но в меньшей степени. Между Asn и Gln, первый предпочитает быть представленным только в неинтерфейсных областях, в то время как последний предпочитает быть скрытым как в интерфейсе, так и в неинтерфейсных областях. Среди нейтральных полярных остатков His и Thr предпочитают подвергаться воздействию, тогда как Ser предпочитает быть захороненным как на границе раздела, так и в областях, не являющихся границами раздела. Из трех ароматических остатков Tyr и Phe предпочитают подвергаться воздействию на границе раздела с разной величиной, в то время как Trp предпочитает оставаться на границе раздела и подвергаться воздействию на границе раздела. Оба серосодержащих остатка, Cys и Met, предпочитают захораниваться как на границе раздела, так и в областях, не являющихся межфазной границей, однако с разной величиной первые более предпочтительны, чем более поздние. Среди гидрофобных остатков Leu, Val и Ala предпочитают подвергаться воздействию как на границе раздела, так и на неинтерфейсных областях, в то время как Gly предпочитает экспонироваться только на границе раздела. Напротив, Pro предпочитает зарываться как в интерфейсных, так и в неинтерфейсных областях. Иль ведет себя по-другому, он предпочитает зарываться в интерфейс и подвергаться воздействию неинтерфейсных областей.

Среди четырех нуклеотидов аденин и цитозин предпочитают зарываться на границе раздела и подвергаться воздействию неинтерфейсных областей. Гуанин предпочитает быть захороненным, в то время как урацил предпочитает подвергаться воздействию как на границе раздела, так и на неинтерфейсных областях (рис. 5D).

Изменение SASA можно использовать как параметр для оценки ложных результатов белок-РНК.

Индуцированные связыванием конформационные переходы приводят к изменению SASA отдельных атомов во взаимодействующих субъединицах. Немногие из атомов получают доступную поверхность и немногие теряют. Мы обнаружили, что средний коэффициент усиления доступной площади поверхности (отношение GL) к потере при связывании составляет 1,7 и 1,0 (значение p = 1,6E-04, односторонний t-критерий) на границе раздела и в областях, не соприкасающихся с интерфейсом, соответственно. . В большинстве случаев это отношение близко к единице в неинтерфейсной области. Это соотношение никогда не использовалось ни в каких доступных алгоритмах стыковки белок-РНК 16 и может быть эффективно использовано для оценки гибких моделей стыковки для определения близкого к естественному решению. На рис. 6A и 6B показано распределение соотношения GL в 115 RBP и в 31 РНК, соответственно. Наибольшее соотношение GL (18,7) обнаружено в структуре регуляторного белка железа 1 (IRP1) в комплексе с РНК ферритина H IRE (PDB id: 3SNP). Это высокое соотношение может быть связано с большим конформационным изменением IRP1 при связывании с РНК, чему способствует большая перестройка двух доменов IRP1 17 (Рис. 6C), что обеспечивает доступность 1279 Å 2 на интерфейсе. Наименьшее соотношение GL (0,5) наблюдается в комплексе между поли (A) полимеразой и олиго (A) РНК (PDB id: 2Q66). В полимеразе каталитический сайт расположен в нижней части щели между N- и C-концевыми доменами полимеразы 18. В несвязанном состоянии оба домена полимеразы остаются в открытой конформации и принимают закрытую конформацию при связывании с РНК, тем самым теряя площадь поверхности 163,6 Å 2 на границе раздела (рис. 6D). Наивысшее соотношение GL (2,8) на поверхности связывания РНК наблюдается в сегменте РНК аналога Т-образного плеча (PDB id: 1EVV) в комплексе с 5-метилуридинметилтрансферазой TrmA (PDB id: 3BT7). В несвязанном состоянии U54 остается похороненным внутри Т-петли тРНК и образует пару оснований обратного Хугстина с A58 19. В связанном состоянии петля меняет свою конформацию, и U54 разворачивается к активному центру фермента, тем самым обеспечивая доступность поверхности 310,4 Å 2 (рис. 6E).

Увеличение или уменьшение доступности. (А) Распределение соотношения GL RBP в интерфейсных и неинтерфейсных областях. (В) Распределение соотношения GL РНК в интерфейсных и не интерфейсных областях. (С) В несвязанном состоянии IRP1 (PDB id: 2B3Y) домены 3 и 4 находятся в закрытой конформации, которая трансформируется в открытую конформацию при связывании с РНК (PDB id: 3SNP). Оба домена раздвигаются (двунаправленная стрелка), тем самым увеличивая значительную площадь поверхности для размещения РНК. Домены 3 и 4 окрашены в синий и оранжевый цвета соответственно, а остальная часть белка окрашена в бирюзовый цвет. (D) Пример изменения конформации «открытое-закрытое» в поли (А) полимеразе и олиго (А) РНК-комплексе (PDB id: 2Q66). В несвязанном состоянии (цвет бирюзового PDB id: 2HHP) щель для связывания между N- и C-концевыми доменами остается широко открытой, которая трансформируется в закрытую конформацию при связывании с РНК и, следовательно, теряет доступность. (E) Наложенный сегмент аналоговой РНК Т-образной ветви в связанном (серый PDB id: 3BT7) и несвязанном (желтый PDB id: 1EVV) состояниях. U54 (пурпурный) в несвязанном состоянии остается внутри петли, которая переворачивается в активный центр после связывания с 5-метилуридинметилтрансферазой TrmA (показана оранжевым).


3. Результаты

3.1 Особенности

Мы использовали ряд функций для настройки предсказателя растворимости SOLart, которые описаны ниже.

3.1.1 Статистические возможности

Мы применили и расширили статистические потенциалы, зависящие от растворимости, недавно введенные в Hou и другие. (2018), которые доказали, что дают объективное и информативное описание взаимодействий, которые модулируют свойства растворимости белков. Идея заключалась в том, чтобы разделить набор данных D E. coli на два подмножества равного размера, называемые D E. coli insol и D E. coli sol ⁠, которые содержат склонные к агрегации и растворимые белки, соответственно, и для получения потенциалов расстояния от каждого из двух подмножеств (см. Hou и другие., 2018 для подробностей). Таким образом, мы определили два различных потенциала, называемых «нерастворимым» и «растворимым».

Анализ этих потенциалов привел к обнаружению тенденции определенных взаимодействий аминокислот, таких как Lys-содержащие солевые мостики и алифатические взаимодействия, в пользу растворимости белка. Напротив, остаточные взаимодействия с участием делокализованных π-электроны, такие как ароматические и катионные-π было показано, что взаимодействия способствуют агрегации белков (Hou и другие., 2018).

Мы построили 11 статистических потенциалов, зависящих от растворимости, из различных комбинаций s а также c элементы, перечисленные в таблице 2. Мы назвали потенциалы в соответствии с типом и количеством дескрипторов последовательности и структуры. Например, «sa» представляет потенциал, в котором указаны один тип аминокислоты и доступность одного растворителя, тогда как «sds» описывает потенциал, в котором указаны два типа аминокислот и их расстояние между остатками.

Список всех функций, протестированных для SOLart

Функции . Описание . SOLart.
Статистические возможности
сд: Δ Δ G сд 1 аминокислота, 1 расстояние ✓✓
sds: Δ Δ G sds 2 аминокислоты, 1 расстояние ✓✓
sa: Δ Δ G sa 1 аминокислота, 1 доступность растворителя ✓✓
saa: Δ Δ G saa 1 аминокислота, 2 доступных растворителя ✓✓
ssa: Δ Δ G ssa 2 аминокислоты, 1 доступность растворителя ✓✓
ст: Δ Δ G ст 1 аминокислота, 1 домен торсионного угла ✓✓
stt: Δ Δ G stt 1 аминокислота, 2 домена торсионных углов ✓✓
sst: Δ Δ G sst 2 аминокислоты, 1 домен торсионного угла ✓✓
грустный: Δ Δ G грустный 1 аминокислота, 1 расстояние и 1 доступность растворителя ✓✓
стд: Δ Δ G стд 1 аминокислота, 1 расстояние и 1 домен торсионного угла ✓✓
sta: Δ Δ G sta 1 аминокислота, 1 расстояние и 1 доступность растворителя ✓✓
Размер белка и доступная для растворителя площадь поверхности
Λ длина белка ✓✓
SAcc доступность белковых растворителей ✓✓
SAcc / Λ доступность белкового растворителя, разделенная на длину ✓✓
Содержание вторичной структуры
β _b фракция погребенного β остатки ✓✓
β_m фракция умеренно захороненных β остатки ✓✓
β_e доля выставленных β остатки
α_b фракция погребенного α остатки
α_m фракция умеренно захороненных α остатки ✓✓
α_e доля выставленных α остатки ✓✓
γ_b доля остатков погребенной катушки
γ_m доля умеренно захороненных остатков змеевика
γ_e доля открытых остатков змеевика
Аминокислотный состав
C i (i = 1..20) фракция каждого из 20 типов аминокислот
K + R доля положительно заряженных остатков
K − R доля K минус доля R ✓✓
D + E доля отрицательно заряженных остатков ✓✓
D − E доля D минус доля E
K + R + D + E доля заряженных остатков ✓✓
K + R-D-E доля положительно минус отрицательно заряженных остатков ✓✓
F + W + Y фракция ароматических остатков ✓✓
_b, m, e idem с разницей между захороненными, умеренно захороненными и обнаженными остатками
Функции . Описание . SOLart.
Статистические возможности
сд: Δ Δ G сд 1 аминокислота, 1 расстояние ✓✓
sds: Δ Δ G sds 2 аминокислоты, 1 расстояние ✓✓
sa: Δ Δ G sa 1 аминокислота, 1 доступность растворителя ✓✓
saa: Δ Δ G saa 1 аминокислота, 2 доступных растворителя ✓✓
ssa: Δ Δ G ssa 2 аминокислоты, 1 доступность растворителя ✓✓
ст: Δ Δ G ст 1 аминокислота, 1 домен торсионного угла ✓✓
stt: Δ Δ G stt 1 аминокислота, 2 домена торсионных углов ✓✓
sst: Δ Δ G sst 2 аминокислоты, 1 домен торсионного угла ✓✓
грустный: Δ Δ G грустный 1 аминокислота, 1 расстояние и 1 доступность растворителя ✓✓
стд: Δ Δ G стд 1 аминокислота, 1 расстояние и 1 домен торсионного угла ✓✓
sta: Δ Δ G sta 1 аминокислота, 1 расстояние и 1 доступность растворителя ✓✓
Размер белка и доступная для растворителя площадь поверхности
Λ длина белка ✓✓
SAcc доступность белковых растворителей ✓✓
SAcc / Λ доступность белкового растворителя, разделенная на длину ✓✓
Содержание вторичной структуры
β _b фракция погребенного β остатки ✓✓
β_m фракция умеренно захороненных β остатки ✓✓
β_e доля выставленных β остатки
α_b фракция погребенного α остатки
α_m фракция умеренно захороненных α остатки ✓✓
α_e доля выставленных α остатки ✓✓
γ_b доля остатков погребенной катушки
γ_m доля умеренно захороненных остатков змеевика
γ_e доля открытых остатков змеевика
Аминокислотный состав
C i (i = 1..20) фракция каждого из 20 типов аминокислот
K + R доля положительно заряженных остатков
K − R доля K минус доля R ✓✓
D + E доля отрицательно заряженных остатков ✓✓
D − E доля D минус доля E
K + R + D + E доля заряженных остатков ✓✓
K + R-D-E доля положительно минус отрицательно заряженных остатков ✓✓
F + W + Y фракция ароматических остатков ✓✓
_b, m, e idem с разницей между захороненными, умеренно захороненными и обнаженными остатками

Примечание: Те, которые использовались в окончательной версии, отмечены значком ✓✓ те, для которых используется подмножество, отмечены .

Список всех функций, протестированных для SOLart

Функции . Описание . SOLart.
Статистические возможности
сд: Δ Δ G sd 1 аминокислота, 1 расстояние ✓✓
sds: Δ Δ G sds 2 аминокислоты, 1 расстояние ✓✓
sa: Δ Δ G sa 1 аминокислота, 1 доступность растворителя ✓✓
saa: Δ Δ G saa 1 аминокислота, 2 доступных растворителя ✓✓
ssa: Δ Δ G ssa 2 аминокислоты, 1 доступность растворителя ✓✓
ст: Δ Δ G ст 1 аминокислота, 1 домен торсионного угла ✓✓
stt: Δ Δ G stt 1 аминокислота, 2 домена торсионных углов ✓✓
sst: Δ Δ G sst 2 аминокислоты, 1 домен торсионного угла ✓✓
грустный: Δ Δ G грустный 1 аминокислота, 1 расстояние и 1 доступность растворителя ✓✓
стд: Δ Δ G стд 1 аминокислота, 1 расстояние и 1 домен торсионного угла ✓✓
sta: Δ Δ G sta 1 аминокислота, 1 расстояние и 1 доступность растворителя ✓✓
Размер белка и доступная для растворителя площадь поверхности
Λ длина белка ✓✓
SAcc доступность белковых растворителей ✓✓
SAcc / Λ доступность белкового растворителя, разделенная на длину ✓✓
Содержание вторичной структуры
β _b фракция погребенного β остатки ✓✓
β_m фракция умеренно захороненных β остатки ✓✓
β_e доля выставленных β остатки
α_b фракция погребенного α остатки
α_m фракция умеренно захороненных α остатки ✓✓
α_e доля выставленных α остатки ✓✓
γ_b доля остатков погребенной катушки
γ_m доля умеренно захороненных остатков змеевика
γ_e доля открытых остатков змеевика
Аминокислотный состав
C i (i = 1..20) фракция каждого из 20 типов аминокислот
K + R доля положительно заряженных остатков
K − R доля K минус доля R ✓✓
D + E доля отрицательно заряженных остатков ✓✓
D − E доля D минус доля E
K + R + D + E доля заряженных остатков ✓✓
K + R-D-E доля положительно минус отрицательно заряженных остатков ✓✓
F + W + Y фракция ароматических остатков ✓✓
_b, m, e idem с разницей между захороненными, умеренно захороненными и обнаженными остатками
Функции . Описание . SOLart.
Статистические возможности
сд: Δ Δ G sd 1 аминокислота, 1 расстояние ✓✓
sds: Δ Δ G sds 2 аминокислоты, 1 расстояние ✓✓
sa: Δ Δ G sa 1 аминокислота, 1 доступность растворителя ✓✓
saa: Δ Δ G saa 1 аминокислота, 2 доступных растворителя ✓✓
ssa: Δ Δ G ssa 2 аминокислоты, 1 доступность растворителя ✓✓
ст: Δ Δ G ст 1 аминокислота, 1 домен торсионного угла ✓✓
stt: Δ Δ G stt 1 аминокислота, 2 домена торсионных углов ✓✓
sst: Δ Δ G sst 2 аминокислоты, 1 домен торсионного угла ✓✓
грустный: Δ Δ G грустный 1 аминокислота, 1 расстояние и 1 доступность растворителя ✓✓
стд: Δ Δ G стд 1 аминокислота, 1 расстояние и 1 домен торсионного угла ✓✓
sta: Δ Δ G sta 1 аминокислота, 1 расстояние и 1 доступность растворителя ✓✓
Размер белка и доступная для растворителя площадь поверхности
Λ длина белка ✓✓
SAcc доступность белковых растворителей ✓✓
SAcc / Λ доступность белкового растворителя, разделенная на длину ✓✓
Содержание вторичной структуры
β _b фракция погребенного β остатки ✓✓
β_m фракция умеренно захороненных β остатки ✓✓
β_e доля выставленных β остатки
α_b фракция погребенного α остатки
α_m фракция умеренно захороненных α остатки ✓✓
α_e доля выставленных α остатки ✓✓
γ_b доля остатков погребенной катушки
γ_m доля умеренно захороненных остатков змеевика
γ_e доля открытых остатков змеевика
Аминокислотный состав
C i (i = 1..20) фракция каждого из 20 типов аминокислот
K + R доля положительно заряженных остатков
K − R доля K минус доля R ✓✓
D + E доля отрицательно заряженных остатков ✓✓
D − E доля D минус доля E
K + R + D + E доля заряженных остатков ✓✓
K + R-D-E доля положительно минус отрицательно заряженных остатков ✓✓
F + W + Y фракция ароматических остатков ✓✓
_b, m, e idem с разницей между захороненными, умеренно захороненными и обнаженными остатками

Примечание: Те, которые использовались в окончательной версии, отмечены значком ✓✓ те, для которых используется подмножество, отмечены .

3.1.2 Размер белка и доступная площадь поверхности

Мы рассмотрели три общие характеристики белков, а именно длину белка (Λ), площадь его доступной для растворителя площадь поверхности (SAcc), оцененные с помощью собственной программы (Dalkas и другие., 2014), а его доступную для растворителя площадь поверхности, деленную на длину белка (SAcc / Λ), в последнем случае мы использовали длину последовательности, структура которой была определена. Обратите внимание, что первая функция основана на последовательности, а две последние требуют знания трехмерной структуры.

3.1.3 Содержание вторичной структуры

Была добавлена ​​еще одна серия функций, основанных на структуре, которые представляют собой долю белковых остатков, находящихся в α-спиральный, β-прядь или катушка (называемые здесь γ) конформация. Мы различали α, β а также γ остатки, которые погребены в ядре белка (доступность растворителя ≤ 20%), умеренно захоронены (от 20% до 50%) и подвержены воздействию растворителя (⁠ ≥ 50%). Наша внутренняя программа (Далкас и другие., 2014) использовалась для определения вторичной структуры и доступности растворителя.

3.1.4 Аминокислотный состав

Мы интегрировали 20 функций, основанных исключительно на последовательностях, соответствующих доле каждой из 20 аминокислот, присутствующих в белке. Мы также рассмотрели долю аминокислотных групп, т.е. положительно заряженные остатки (K + R), отрицательно заряженные остатки (D + E), заряженные остатки (K + R + D + E), ароматические остатки (F + W + Y), а также разница между долями K и R (K − R), D и E (D − E) и K + R и D + E (K + R − D − E). Мы объединили эти особенности с доступностью растворителя и определили три категории для каждой аминокислоты или аминокислотной группы, в зависимости от того, открыт ли остаток, умеренно захоронен или захоронен. Это дало 81 дополнительную функцию, основанную на структуре.

3.2 Выбор функций

Следующий шаг заключался в выборе из определенных выше 28 признаков, основанных исключительно на последовательностях, и 103 признаков, основанных на структуре, подмножества признаков, которые являются наиболее информативными для растворимости белка. Мы использовали для этого D E. coli, который содержит 406 неизбыточных рентгеновских структур высокого разрешения Э.кишечная палочка белки с низкой парной идентичностью последовательностей и экспериментально измеренной растворимостью (см. раздел 2.2). Отбор признаков производился с использованием алгоритма Борута (Курса и другие., 2010), реализованный в пакете Caret R (Kuhn и другие., 2008), оболочка, построенная вокруг алгоритма случайной классификации лесов (Liaw и другие., 2002), который сравнивает важность реальных признаков со случайными (теневыми) признаками с помощью статистического тестирования. Результаты получены как среднее значение для нескольких прогонов (здесь 1000) случайного леса.

Мы отфильтровали функции, средняя важность которых, измеренная алгоритмом Борута, ниже 1. Это привело к тому, что мы оставили в общей сложности 52 функции, которые показаны на рисунке 1 и дополнительном рисунке S2. Из них 37 требуют знания конструкции.

30 самых важных функций, определяемых путем выбора функций слева направо. Имена, написанные строчными буквами, указывают на разность свободной энергии сворачивания, например sst означает Δ Δ G sst

30 самых важных функций, определяемых путем выбора функций слева направо. Имена, написанные строчными буквами, указывают на разность свободной энергии сворачивания, например sst означает Δ Δ G sst

Поразительно, что четырьмя главными характеристиками являются разности свободной энергии сворачивания Δ Δ G, вычисленные на основе наших зависящих от растворимости потенциалов: потенциал угла скручивания основной цепи sst, потенциал доступности растворителя ssa и два потенциала расстояния sd и sds (см. Таблицу 2). Следующей по важности характеристикой является длина белка Λ, за которой следует доступность растворителя и доли некоторых типов аминокислот. Объекты, основанные на вторичной структуре, не входят в число 30 основных функций, но некоторые появляются в списке из 52 выбранных объектов.

3.3 Настройка SOLart

52 выбранных функции были объединены, чтобы настроить предсказатель растворимости целевых белков SOLart на основе их трехмерных структур. Мы использовали для этого D E. coli в качестве обучающего набора и алгоритм регрессии случайного леса (Liaw и другие., 2002), реализованный в пакете Caret для построения модели. Этот алгоритм представляет собой древовидную систему, состоящую из нескольких деревьев регрессии, количество деревьев здесь установлено равным 500. Процесс обучения начинается со случайно выбранного подмножества исходного набора данных, из которого строится дерево регрессии путем итеративного разбиения данных. пространство на более мелкие подмножества. В каждом узле дерева используются произвольно выбранные функции. Количество функций зависит от глобального параметра «mtry», взятого здесь от 1 до 52, то есть общего количества функций. Оптимальное значение mtry получается с помощью процедуры поиска по сетке. Его влияние на характеристики прогнозирования показано на дополнительном рисунке S5. Регрессия для целевого белка получается путем усреднения прогнозов по всем деревьям.

3.4 Производительность SOLart

Поскольку модель прогнозирования построена на основе выбранных функций, но также зависит от значения параметра mtry, мы выполнили вложенную 10-кратную перекрестную проверку, чтобы оценить производительность SOLart на D E. coli с внешним циклом перекрестной проверки и внутренним циклом перекрестной проверки, вложенным во внешний цикл, как описано в дополнительном разделе S4. Для перекрестной проверки внешнего цикла было выполнено в общей сложности 30 повторов с различными случайными разделениями на складки, и характеристики были вычислены как средние по повторам.

Наша вычислительная модель достигает хорошего коэффициента линейной корреляции р = 0,66 между предсказаниями растворимости SOLart и экспериментальными значениями, и среднеквадратичная ошибка, RMSE = 25% (Таблица 3).

Показатели SOLart при перекрестной проверке на обучающем наборе D E. coli ⁠ и на трех независимых тестовых наборах: D S. cerevisiae, содержащие рентгеновские структуры, и М.Е. coli и M S. cerevisiae, содержащие смоделированные структуры

. D E. coli. МЕНЯ . coli. D S. cerevisiae. РС . cerevisiae.
р0.66 0.51 (0.67) 0.67 (0.78) 0.63 (0.70)
RMSE 25% 28% (23%) 23% (19%) 24% (20%)
. D E. coli. МЕНЯ . coli. D S. cerevisiae. РС . cerevisiae.
р0.66 0.51 (0.67) 0.67 (0.78) 0.63 (0.70)
RMSE 25% 28% (23%) 23% (19%) 24% (20%)

Примечание: Значения в скобках соответствуют производительности с удаленными выбросами на 10%.

Показатели SOLart при перекрестной проверке на обучающем наборе D E. coli ⁠ и на трех независимых тестовых наборах: D S. cerevisiae, содержащие рентгеновские структуры, и М.Е. coli и M S. cerevisiae, содержащие смоделированные структуры

. D E. coli. МЕНЯ . coli. D S. cerevisiae. РС . cerevisiae.
р0.66 0.51 (0.67) 0.67 (0.78) 0.63 (0.70)
RMSE 25% 28% (23%) 23% (19%) 24% (20%)
. D E. coli. МЕНЯ . coli. D S. cerevisiae. РС . cerevisiae.
р0.66 0.51 (0.67) 0.67 (0.78) 0.63 (0.70)
RMSE 25% 28% (23%) 23% (19%) 24% (20%)

Примечание: Значения в скобках соответствуют производительности с удаленными выбросами на 10%.

Мы также протестировали SOLart на независимом тестовом наборе, который содержит С.cerevisiae белки с хорошо разрешенной рентгеновской структурой, сгруппированные в D S. cerevisiae (см. раздел 2.2). Производительность SOLart на этом наборе оценивается коэффициентом линейной корреляции. р = 0,67 и RMSE = 23% ⁠. При удалении 10% выбросов оценка увеличивается до р = 0,78 и RMSE = 19% (Таблица 3). Таким образом, оценки на этом независимом наборе даже немного лучше, чем оценки, полученные при перекрестной проверке на обучающем наборе D E. coli ⁠.

Для дальнейшего анализа этого результата мы оценили важность каждой функции в прогнозе SOLart, используя функцию на основе схемы перестановки varImp (Kuhn и другие., 2008). Он продолжает случайным образом переставлять каждую функцию по очереди, чтобы разорвать ее связь с ответом, а затем использует ее вместе с оставшимися неизмененными функциями для прогнозирования. Снижение точности прогноза является мерой важности переставляемого объекта. Эта мера оценивает вес каждой отдельной характеристики в предсказателе, тогда как алгоритм выбора характеристик, примененный в разделе 3.2, измеряет релевантность функции независимо от модели предсказания. Таким образом, они дают немного разные рейтинги.

20 наиболее важных характеристик нашей модели прогнозирования показаны на рисунке 2 (см. Также дополнительный рисунок S3). Интересно, что почти все особенности, которые соответствуют разностям свободной энергии сворачивания (⁠ Δ Δ G ⁠), находятся в этом списке (9 из 11), а шесть главных особенностей - это Δ Δ G s, вычисленные на основе потенциалов ssa, sst, sd, sds, saa и sa (таблица 2). Два лучших, почти бывший æquo, являются Δ Δ G ssa и Δ Δ G sst ⁠, которые также занимают первое место в выборе признаков (рис. 1). Они вычисляются из склонности пар аминокислот к определенному диапазону доступности растворителя. а или определенная область углов кручения позвоночника т остатка. Эти склонности различаются между растворимыми и склонными к агрегации белками, и именно эта разница измеряется с помощью характеристик Δ Δ G. Следующими наиболее ранжированными характеристиками являются Δ Δ G sd и Δ Δ G sds ⁠, вычисленные из склонности пар остатков к разделению на определенное пространственное расстояние, за которыми следуют два других потенциала доступности Δ Δ G saa и Δ Δ G sa ⁠.

20 самых важных функций SOLart, справа налево. Имена, написанные строчными буквами, указывают на разность свободной энергии сворачивания, например sst означает Δ Δ G ssa

20 самых важных функций SOLart, справа налево. Имена, написанные строчными буквами, указывают на разность свободной энергии сворачивания, например sst означает Δ Δ G ssa

Эти особенности свободной энергии сворачивания требуют в качестве входных данных белковой структуры. Фактически, более половины из 20 основных характеристик основаны на структуре, что подтверждает актуальность структурной информации для определения свойств растворимости белка. Первая функция, основанная на последовательности, занимает седьмое место. Это длина последовательности Λ: как правило, чем меньше последовательность, тем лучше растворяется белок (Kramer и другие., 2012). Две взаимосвязанные характеристики, то есть доступная для растворителя площадь поверхности SAcc, деленная или не деленная на длину, также входят в число 20 основных характеристик.

Остальные особенности в топ-20 основаны на последовательности: разница между составом Lys и Arg (K-R), которая положительно коррелирует с растворимостью (Hou и другие., 2018 Уорвикер и другие., 2014), процент ароматических остатков (F + Y + W), которые способствуют агрегации (Hou и другие., 2018 Нива и другие., 2009), и общая доля отрицательно заряженных остатков (D + E), которые, как было показано, способствуют растворимости (Hou и другие., 2018 Нива и другие., 2009). Следующие особенности - это состав в R и Q, который не способствует растворимости, состав в E и K, который вместо этого способствует растворимости, и разница между долей положительно и отрицательно заряженных остатков (K + R-D-E), которая увеличивает нерастворимость.

Обратите внимание, что все эти основанные на последовательностях особенности также использовались предикторами растворимости, доступными в литературе. Однако в дополнение к этим обычно используемым характеристикам мы использовали ряд структурных характеристик, среди которых наиболее важные получены из недавно разработанных статистических потенциалов, зависящих от растворимости. Они более точно отражают свойства растворимости и представляют собой ключевой инструмент нашего подхода.

Чтобы дополнительно проверить важность рассмотрения трехмерной структуры, мы обучили модель прогнозирования 28 рассматриваемым здесь признакам последовательности. Как показано в дополнительной таблице S2, эта модель получила оценку р = 0,59 во вложенной перекрестной проверке на D E. coli, что примерно на 12% ниже, чем оценка SOLart р = 0.66.

3.5 Характеристики смоделированных белковых структур

Было показано, что SOLart является точным, когда известна трехмерная структура целевого белка. Чтобы расширить его применимость, мы протестировали его на структурах с низким разрешением, полученных с помощью моделирования гомологии. Сначала мы применили его к M E. coli, содержащий 550 белков из Э.кишечная палочка (см. раздел 2.2). Мы получили соотношение р = 0,51 и среднеквадратичное значение 28%, что относительно хорошо, но ниже, чем у D E. coli (таблица 3). Это падение ожидается, поскольку мы должны учитывать возможные неточности в моделируемых структурах, которые должны быть добавлены к ошибке нашего вычислительного метода. После удаления 10% выбросов производительность увеличивается до р = 0,67 и среднеквадратичное значение = 23% ⁠, и, таким образом, достигается такая же производительность, как и на структурах с хорошим разрешением.

В качестве последнего набора тестов мы использовали M S. cerevisiae, содержащий С.cerevisiae белки с смоделированными структурами. Производительность SOLart на этом наборе определяется р = 0,63 и RMSE = 24% ⁠, и увеличивается до р = 0,70 и RMSE = 20% без 10% выбросов. Таким образом, баллы на этом наборе тестов намного выше, чем на Э.кишечная палочка набор тестов, который предполагает, что некоторые структурные модели белков или экспериментальные значения растворимости могут быть менее точными на Э.кишечная палочка установить, чем на С.cerevisiae установленный.

Обратите внимание, что эти тесты являются довольно строгими, поскольку между этими наборами тестов и обучающим набором наблюдается низкое сходство последовательности (≤25%). Таким образом, мы заключаем, что SOLart можно надежно использовать для предсказания растворимости не только для экспериментальных структур с высоким разрешением, но также для смоделированных или других структур с низким разрешением.

3.6 Сравнение с другими методами прогнозирования растворимости

Эффективность SOLart сравнивалась с производительностью других методов прогнозирования растворимости для комбинации D S. cerevisiae и M S. cerevisiae, которые группируют рентгеновские и смоделированные структуры из С.cerevisiae белки, поскольку это независимые наборы тестов, которые не входят в обучающие наборы ни одного из предикторов. Точнее, мы протестировали методы Protein-SOL (Hebditch и другие., 2017), ccSOL (Агостини и другие., 2014), CamSol (Сорманни и другие., 2015), ПРОСО (Смяловский и другие., 2007), PROSO II (Смяловский и другие., 2012), Aggrescan3D 2.0 (Куриата и другие., 2019), DeepSol (Хурана и другие., 2018), PaRSnIP (Рави и другие., 2018) и SOLpro (Magnan и другие., 2009), отправив на соответствующие веб-серверы все белки из наших тестовых наборов данных или установив локально их программы. Обратите внимание, что все эти методы основаны на последовательностях, за исключением Aggrescan3D 2.0.

Коэффициент линейной корреляции р между прогнозами растворимости и экспериментальными значениями для всех этих предикторов приведены в таблице 4. Наш метод явно превосходит конкурентов (р = 0,65 против р = 0,55 для второго лучшего метода). Это демонстрирует важность использования структурной информации.

Сравнение производительности различных предикторов на комбинации D S. cerevisiae и M S. cerevisiae, на основе коэффициента корреляции Пирсона между предсказанными и экспериментальными значениями растворимости

Предиктор. р .
SOLart 0.65
ccSOL 0.55
Протеин-Соль 0.53
CamSol 0.40
Aggrescan3D 2.0 0.36
DeepSol 0.30
PROSO 0.28
SOLpro 0.18
PROSO II 0.12
Пастернак 0.09
Предиктор. р .
SOLart 0.65
ccSOL 0.55
Протеин-Соль 0.53
CamSol 0.40
Aggrescan3D 2.0 0.36
DeepSol 0.30
PROSO 0.28
SOLpro 0.18
PROSO II 0.12
Пастернак 0.09

Сравнение производительности различных предикторов на комбинации D S. cerevisiae и M S. cerevisiae, на основе коэффициента корреляции Пирсона между предсказанными и экспериментальными значениями растворимости

Предиктор. р .
SOLart 0.65
ccSOL 0.55
Протеин-Соль 0.53
CamSol 0.40
Aggrescan3D 2.0 0.36
DeepSol 0.30
PROSO 0.28
SOLpro 0.18
PROSO II 0.12
Пастернак 0.09
Предиктор. р .
SOLart 0.65
ccSOL 0.55
Протеин-Соль 0.53
CamSol 0.40
Aggrescan3D 2.0 0.36
DeepSol 0.30
PROSO 0.28
SOLpro 0.18
PROSO II 0.12
Пастернак 0.09

3.7 Веб-сервер

Мы предоставили свободно доступный интерфейс веб-сервера для нашего метода прогнозирования, ориентированного на неспециалистов (http://babylone.ulb.ac.be/SOLART/index.php) (рис. 3). Входные данные представляют собой трехмерную структуру целевого белка в формате PDB. Он может быть загружен непосредственно пользователем или импортирован из PDB (Berman и другие., 2000), набрав его четырехбуквенный код. Затем веб-сервер предоставляет краткое описание некоторых характеристик белка и позволяет пользователю выбрать одну из белковых цепей. Вычисление начинается после отправки запроса. Все характеристики свободной энергии, вторичной структуры и доступности растворителя на основе структуры сначала вычисляются, а затем интегрируются с другими характеристиками, основанными на последовательности.

Интерфейс веб-сервера SOLart

Интерфейс веб-сервера SOLart

На странице вывода, к которой можно перейти по предоставленной ссылке, приводится значение прогнозируемой масштабированной растворимости S. Если оценка близка к нулю, целевой белок прогнозируется как склонный к агрегации, а когда он близок к 130, как растворимый. Кроме того, чтобы иметь представление о вкладе каждого отдельного признака в прогноз растворимости целевого белка, мы также показываем диаграмму с предсказанием растворимости для каждого признака, взятого индивидуально и с помощью SOLart. Прогноз для каждого отдельного признака вычисляется на основе случайной модели леса, обученной экспериментальным значениям растворимости D E. coli установлен. Этот рисунок можно использовать в качестве источника вдохновения, чтобы предложить характеристики, которые следует изменить с учетом изменения растворимости. На рисунке 4 показан пример ацилтрансферазы из Э.кишечная палочка.

Прогнозируемая растворимость примерного белка (код PDB 2qia, код Uniprot P0A722) со всеми функциями, используемыми в SOLart (горизонтальная линия), или только с каждой отдельной функцией (столбцы гистограммы)

Прогнозируемая растворимость примерного белка (код PDB 2qia, код Uniprot P0A722) со всеми функциями, используемыми в SOLart (горизонтальная линия), или только с каждой отдельной функцией (столбцы гистограммы)

Мы ожидаем, что благодаря своей простоте использования этот веб-сервер будет интересен исследователям в академических кругах и промышленности, которые заинтересованы в изменении растворимости белков без каких-либо предварительных знаний в области биоинформатики.


UCLA MBI и сервер поисковой выдачи mdash: Введение

Цель этого инструмента состоит в том, чтобы предложить кандидатов на мутации, которые, вероятно, улучшат способность белков к кристаллизации посредством создания кристаллических контактов с помощью подхода Surface Entropy Reduction (SER), описанного Derewenda (2004).

Деревенда утверждает, что способность к кристаллизации связана с поверхностными свойствами белков и что глобулярные белки, не поддающиеся кристаллизации, содержат на своей поверхности «энтропийный щит», состоящий из длинных гибких полярных боковых цепей, которые препятствуют способности белка образовывать межмолекулярные контакты и, таким образом, к собрать в кристаллическую решетку. Кристаллизация происходит за счет изменения свободной энергии перенасыщенного раствора белка на кристаллы белка в растворителе.Учитывая, что значения энтальпии межмолекулярных взаимодействий в кристаллической решетке обычно невелики, кристаллизация очень чувствительна к изменениям энтропии с участием как растворителя, так и белка. Включение белковых молекул в решетку связано с отрицательной энтропией, и это неизбежная термодинамическая цена. Кроме того, иммобилизация боковых цепей и растворителя в точках контакта кристаллов вызывает дополнительную потерю энтропии.

Подход с уменьшением поверхностной энтропии включает замену открытых на поверхности аминокислот с высокой энтропией остатками с небольшими боковыми цепями с низкой энтропией, такими как аланины. Лизины и глутаматы имеют особое значение, поскольку статистический анализ показывает, что оба типа остатков локализованы преимущественно на поверхности (Baud and Karlin, 1999) и не являются предпочтительными на границах раздела белок-белок (Conte et al., 1999).

Подача вакансий

  • Аминокислотная или ДНК-последовательность для анализа
  • Короткий идентификатор имени последовательности (в первую очередь для удобства пользователя)
  • Электронный адрес для доставки результатов

Первоначальная обработка обычно занимает несколько минут. Пользователь будет уведомлен по электронной почте о завершении текущего задания, а статус очереди будет показан на веб-странице. Последующие изменения параметров задания занимают всего несколько секунд и обрабатываются по запросу.

Краткое описание процесса

Представленная последовательность проходит следующие три основных анализа. Каждый анализ присваивает положительный или отрицательный результат каждому остатку в последовательности. В совокупности эти анализы идентифицируют остатки, наиболее благоприятные для мутации. Положительный вклад от каждой модели не требуется, хотя более высокие положительные баллы указывают на лучших кандидатов.

    Прогнозирование вторичной структуры
    Вторичная структура прогнозируется с помощью PSIPRED, который включает две нейронные сети с прямой связью, которые выполняют анализ выходных данных, полученных из PSI-BLAST. Предсказанные области спирали отмечены как благоприятные участки для мутации, поскольку они имеют тенденцию быть открытыми на поверхности и до сих пор оказались очень эффективными, концепция снижения энтропии оказалась менее эффективной, если целевой участок лежит на открытой для растворителя стороне спирали.
    Вклад анализа вторичной структуры прямо пропорционален достоверности того, что остаток находится в области спирали. График, показывающий достоверность вторичной структуры, представлен на вкладке «Графики».

  • Предпочитайте остатки, получившие положительную оценку в первичных анализах.
  • Увеличьте длину пост-мутации патча с низкой энтропией.
  • Минимизируйте пробелы в области низкой энтропии.
  • Сведите к минимуму количество требуемых мутаций.
  • Максимальное снижение энтропии боковой цепи.

Все предлагаемые мутации в кластере необходимо вводить одновременно, чтобы обеспечить достаточное снятие «энтропийного щита». По умолчанию кластер будет содержать не более трех мутаций, чтобы ограничить снижение растворимости целевого белка. Обычно мутации только из одного кластера вводятся в белок-мишень за раз, хотя более крупные белки (> 80 кДа) могут потребовать одновременной мутации нескольких кластеров. Часто обнаруживается, что белок-мишень кристаллизуется в новых пространственных группах с мутировавшими участками, непосредственно участвующими в новых контактах с кристаллами.

Наконец, в представленной последовательности выполняется мета-поиск. Этот поиск пытается обнаружить другие потенциальные режимы сбоя кристаллизации, такие как потребность в ионах металлов или других небольших молекул или взаимодействующих белковых партнерах.

Полученные результаты

Результаты представлены в интерактивном режиме на веб-сайте с внутренними ссылками на детали анализа, а также ссылками на внешние источники. Краткую версию результатов также можно отправить по электронной почте.

Вкладка "Сводка". Вкладка «Сводка» содержит очень краткий обзор предлагаемых мутаций. Мутации предлагаются в группах или кластерах, и все предлагаемые мутации внутри кластера должны вводиться вместе. По умолчанию кластеры сортируются по достоверности предсказания, и поэтому ожидается, что первый возвращенный кластер будет наиболее успешным в улучшении качества кристаллизации и / или дифракции для предоставленной последовательности. Отображается оценка уверенности в успехе, так как два кластера могут иметь одинаковые оценки достоверности, и, таким образом, любое из обоих предложений следует рассматривать независимо.
Подробности анализа можно найти на вкладке «Подробности оценки». Графическое представление предполагаемых участков мутации, прогноз вторичной структуры и профили энтропии находятся на вкладке «Графики». Выровненные последовательности находятся на вкладке Blast.

Вкладка «Детали счета». На этой вкладке можно найти вклады в общий балл для каждой остаточной позиции. Кластер обычно имеет размер менее 10 аминокислот и содержит некоторые немутантные аминокислоты или аминокислоты с невысокой энтропией. Участок остатков в кластере, который, по прогнозам, будет наиболее успешным, выделен, предложенные мутации заштрихованы зеленым, а целевые остатки заштрихованы желтым.

    Уверенность в катушке СС: Уверенность в диапазоне 0–1,0 для остатка на участке спирали, как прогнозирует PSIPRED.

Вкладка "Графики". Следующие ниже графики предназначены для облегчения визуализации предполагаемых сайтов мутаций и для понимания вклада каждого анализа. Взятые вместе, все анализы определяют, какие сайты наиболее подходят для мутации.

Общий счет: этот составной график представляет вклад каждого анализа в общую оценку в каждой остаточной позиции. См. Легенду и вкладку «Графики». Пики указывают на области, которые, по прогнозам, содержат лучшие кандидаты на мутации для улучшения качества кристаллизации и / или дифракции.
Предлагаемые кластеры выделены, и показаны их ранг и оценка. Остатки, предложенные для мутации, заштрихованы зеленым.

Графическое представление целевых остатков с высокой энтропией, изменчивостью и низкой энтропией показано в нижней части этого графика как до, так и после мутации, соответственно.

    Результаты взрыва: Количество последовательностей, найденных с помощью поиска PSI-BLAST, содержащих тот же остаток, что и представленная последовательность (консервативный остаток) и целевой остаток (мутированный), соответственно.

Вкладка Blast. Результаты выравнивания, возвращенные PSI-BLAST. Отображаются первые 50 (или меньше) выравниваний в порядке BLAST по умолчанию с уменьшением идентичности. Ожидаемое значение, битовая оценка и процент идентичности последовательности для предоставленной последовательности показаны для каждого выравнивания. Предоставляются краткая аннотация последовательности и внешняя ссылка.

Для каждого предложенного кластера показаны остатки в выровненных последовательностях. Точка указывает на отсутствие изменений в указанной последовательности. Пробел в выровненной последовательности обозначается как «-». Вставка в выровненную последовательность не показана. Для удобства аминокислоты с высокой энтропией показаны красным, а целевые аминокислоты - зеленым.

Полное выравнивание и дополнительные ссылки (если есть) отображаются при нажатии на ссылку [+] расширения.

Вкладка Мета-поиск. На этой вкладке отображаются подробные результаты выполненных мета-поисков.
Каждая последовательность, выровненная с BLAST, проверяется на потенциальные функциональные связи. Для каждой выровненной последовательности показаны возможные совпадения. Щелкните ссылку раскрытия [+], чтобы просмотреть все связи, а также метод обнаружения и достоверность для каждой. Каждую связь можно дополнительно изучить на сервере ProLinks, используя предоставленную ссылку.


Доступность растворителей, метод отсечки 20% - Биология

Свойства органических растворителей

Значения в таблице ниже, за исключением отмеченного, были взяты из онлайн-компиляций и компиляций в твердом переплете. Значения относительной полярности, силы элюента, пороговых значений и давления пара были взяты из: Christian Reichardt, Растворители и их действие в органической химии, Wiley- VCH Publishers, 3-е изд., 2003 . Чтобы узнать о спектрах растворителей, перейдите в конец страницы http://murov.info/webercises.htm. Для Справочник по органической химии, видеть: http://murov.info/orgchem.htm .
Для Справочник химии, видеть: http://murov.info/webercises.htm
Для получения более полной информации о физических свойствах растворителей и их безопасности перейдите по ссылке:
http://www.knovel.com/web/portal/browse/display?_EXT_KNOVEL_DISPLAY_bookid=761
http://chem.sis.nlm.nih.gov/chemidplus/chemidlite.jsp
Приведенные ниже таблицы были опубликованы (23.10.98), отредактированы (28.07.09) и обновлены (10.04.10) Стивом Муровым, почетным профессором химии.

Растворитель формула точка кипения (o C) плавильная паста (o C) плотность
(г / мл)
растворимость в H2О 1 (г / 100г) родственник
полярность 2
сила элюента 3 пороговые значения 4 (ppm) давление пара 20 o C (гПа)
уксусная кислота C2ЧАС4О2 118 16.6 1.049 M 0.648 & gt1 10 15.3
ацетон C3ЧАС6О 56.2 -94.3 0.786 M 0.355 0.56 500 240
ацетонитрил C2ЧАС3N 81.6 -46 0.786 M 0.460 0.65 20 97
ацетил ацетон C5ЧАС8О2 140.4 -23 0.975 16 0.571
2 - аминоэтанол C2ЧАС7НЕТ 170.9 10.5 1.018 M 0.651 3 0.53
анилин C6ЧАС7N 184.4 -6.0 1.022 3.4 0.420 2 0.4
анизол C 7 ЧАС8О 153.7 -37.5 0.996 0.10 0.1 98
бензол C6ЧАС6 80.1 5.5 0.879 0.18 0.111 0.32 0.5 101
бензонитрил C7ЧАС5N 205 -13 0.996 0.2 0.333 10 12
бензиловый спирт C 7 ЧАС 8 О 205.4 -15.3 1.042 3.5 0.608
1-бутанол C4ЧАС10О 117.6 -89.5 0.81 7.7 0. 586 20 6.3
2-бутанол C4ЧАС10О 99.5 - 114.7 0.808 18.1 0 .506 100
я-бутанол C4ЧАС10О 107.9 -108.2 0.803 8.5 0 .552
2-бутанон C4ЧАС8О 79.6 -86.3 0.805 25.6 0.327 0.51 200 105
т-бутиловый спирт C4ЧАС10О 82.2 25.5 0.786 M 0.389 100 41
сероуглерод CS2 46.3 -111.6 1 .263 0.2 0.065 0.15 10 400
четыреххлористый углерод CCl4 76.7 -22.4 1.594 0.08 0.052 0.18 5 120
хлорбензол C6ЧАС5Cl 132 -45.6 1.106 0.05 0.188 0.30 10 12
хлороформ CHCl3 61.2 -63.5 1.498 0.8 0.259 10 2 10
циклогексан C6ЧАС12 80.7 6.6 0.779 0.005 0.006 0.04 100 104
циклогексанол C 6 ЧАС 12 О 161.1 25.2 0.962 4.2 0.509 50 1.2
циклогексанон C6ЧАС10О 155.6 -16.4 0.948 2.3 0.281 25 5
ди-н-бутилфталат C16ЧАС22О4 340 -35 1.049 0.0011 0.272
1,1-дихлорэтан C2ЧАС4Cl2 57.3 -97.0 1.176 0.5 0.269 100 240
диэтиленгликоль C4ЧАС10О3 245 -10 1.118 M 0.713 0.027
диглим C6ЧАС14О3 162 -64 0.945 M 0.244
диметоксиэтан (глим) C4ЧАС10О2 85 -58 0.868 M 0.231
N, N-диметиланилин C8ЧАС11N 194.2 2.4 0.956 0.14 0.179
диметилформамид (ДМФ) C3ЧАС7НЕТ 153 -61 0.944 M 0. 386 10 3.5
диметилфталат C10ЧАС10О4 283.8 1 1.190 0.43 0.309
диметилсульфоксид (ДМСО) C2ЧАС6Операционные системы 189 18.4 1.092 M 0.444 0.75
диоксан C4ЧАС8О2 101.1 11.8 1.033 M 0.164 0.56 20 41
спирт этиловый C2ЧАС6О 78.5 -114.1 0.789 M 0.654 0.88 100 59
эфир C4ЧАС10О 34.6 -116.3 0.713 7.5 0.117 0.38 400 587
этилацетат C4ЧАС8О2 77 -83.6 0.894 8.7 0.228 0.58 400 97
этилацетоацетат C6ЧАС10О3 180.4 -80 1.028 2.9 0.577
этилбензоат C9ЧАС10О2 213 -34.6 1.047 0.07 0.228
этиленгликоль C2ЧАС6О2 197 -13 1.115 M 0.790 1.11
глицерин C3ЧАС8О3 290 17.8 1.261 M 0.812
гептан C7ЧАС16 98 -90.6 0.684 0.0003 0.012 400 48
1-гептанол C 7 ЧАС 16 О 176.4 -35 0.819 0.17 0.549
гексан C6ЧАС14 69 -95 0.655 0.0014 0.009 0.01 50 160
1-гексанол C 6 ЧАС 14 О 158 -46.7 0.814 0.59 0.559
метанол CH4О 64.6 -98 0.791 M 0.762 0.95 200 128
метилацетат C 3 ЧАС 6 О2 56.9 -98.1 0.933 24.4 0.253 200 220
метил т-бутиловый эфир (МТБЭ) C5ЧАС12О 55.2 -109 0.741 4.8 0.1 24 0.20
метиленхлорид CH2Cl2 39.8 -96.7 1.326 1.32 0.309 0.42 50 475
1-октанол C 8 ЧАС 18 О 194.4 -15 0.827 0.096 0.537
пентан C5ЧАС12 36.1 -129.7 0.626 0.004 0.009 0.00 600 573
1-пентанол C 5 ЧАС 12 О 138.0 -78.2 0.814 2.2 0.568
2-пентанол C 5 ЧАС 12 О 119.0 -50 0.810 4.5 0.4 8 8
3-пентанол C 5 ЧАС 12 О 115.3 -8 0.821 5.1 0.463
2-пентанон C 5 ЧАС 10 О 102.3 -76.9 0.809 4.3 0.321
3-пентанон C5ЧАС12О 101.7 -39.8 0.814 3.4 0.265 200
1-пропанол C3ЧАС8О 97 -126 0.803 M 0.617 0.82
2-пропанол C3ЧАС8О 82.4 -88.5 0.785 M 0.546 0.82 400 44
пиридин C5ЧАС5N 115.5 -42 0.982 M 0.302 0.71 5 20
тетрагидрофуран (THF) C4ЧАС8О 66 -108.4 0.886 30 0.207 0.57 200 200
толуол C7ЧАС8 110.6 -93 0.867 0.05 0.099 0.29 50 29
воды ЧАС2О 100.00 0.00 0.998 M 1.000 & gt & gt1
вода, тяжелая D2О 101.3 4 1.107 M 0.991
п-ксилол C8ЧАС10 138.3 13.3 0.861 0.02 0.074 0.26 100 15

1 M = смешивается.
2 Значения относительной полярности нормированы на основе измерений сдвигов растворителей в спектрах поглощения и были
извлечено из Кристиана Райхардта, Растворители и их действие в органической химии, Wiley- VCH Publishers, 3-е изд., 2003.
3 Эмпирический параметр прочности элюента Снайдера для оксида алюминия. Извлечено из Reichardt, page 495.
4 Пороговые значения воздействия. Извлечено из Reichardt, страницы 501-502.

ТАБЛИЦА 2


Полученные результаты

Количество взорванных ложных срабатываний в сумеречной зоне

В отличие от 1990 года, когда Сандер и Шнайдер (1991) собрали свои данные, теперь пары белков разной структуры были обнаружены выше 30% -ного порога (рис. 2А). И это не были исключения: на уровне 32% (кривая HSSP + 7%, т.е. п = 7 в уравнении 1), количество ложных срабатываний уже равно количеству гомологов. Для исходной HSSP-кривой количество ложных срабатываний было в 20 раз больше, чем количество истинных пар. Переход от 20% к 30% идентичности последовательностей был крайне нелинейным как для истинных, так и для ложноположительных результатов (логарифмические шкалы на рисунке 2): количество истинных пар увеличилось в 5 раз, а количество ложных пар - в 200 раз ( Рисунок 2B). Таким образом, ниже области значимой парной идентичности последовательностей (& gt34%) количество ложноположительных результатов резко возросло. Однако также подавляющее большинство гомологов имели идентичность последовательностей менее 30%.

Соответствующая функциональная форма исходной кривой HSSP

Функциональная форма исходной кривой HSSP оказалась в основном правильной (рис. 3, серая линия с треугольниками). Однако анализируемый здесь более обширный набор данных детально выявил несколько проблем (рис. 3B). (i) Пороговое значение в 25% было неразумным для длины выравнивания ниже 150–200 остатков. (ii) Выше длины выравнивания около 100 остатков производная кривой, разделяющей истинные и ложные срабатывания, должна быть ниже, чем на длинах ниже 80. Я попытался решить эти проблемы, определив новую кривую для разделения истинных и ложных срабатываний (уравнение 2 Рисунок 3, серая линия с пунктирными кружками). Конкретная функциональная форма гарантировала приблизительное насыщение при длительных выравниваниях. Для выравниваний короче 11 остатков уравнение 2 дало значения выше 100%. Однако это было приемлемо, поскольку 100% идентичность фрагментов из 10–11 остатков действительно нет подразумевают структурное сходство (Cerpa и другие., 1996 Минор и Ким, 1996 Муньос и Серрано, 1996). Новая кривая насыщена примерно на 20% для выравниваний по более чем 250 остаткам.

Определение кривой попарного сходства последовательностей

Определение идентичности последовательностей не учитывает физико-химическую природу аминокислот. Любое выравнивание множественных последовательностей показывает, что, например, гидрофобность признака более консервативна, чем тип остатка. Для миллиона пар белков, исследованных здесь, это отразилось на смещении диаграммы разброса в сторону более низких процентных значений (рис. 4). В частности, для более длинных выравниваний ложноположительные результаты падают ниже 15% попарного сходства последовательностей. Это побудило введение порога специально для сходства последовательностей (уравнение 3 на Рис. 4 методов, серая линия с пунктирными кружками). Кривая превышает 100% для выравниваний короче 12 остатков и насыщается примерно на 10% для выравниваний более чем 500 остатков.

Лучшее обнаружение гомологов в сумеречной зоне по новым кривым

Новые кривые для зависящих от длины отсечений идентичности последовательностей (уравнение 2) и сходства (уравнение 3) привели к явно меньшему количеству ложноположительных результатов (более высокая точность), чем исходная кривая HSSP (Рисунок 5B и C). Это было оплачено меньшим количеством обнаруженных истинно положительных результатов (более низкий охват, рис. 5A). На п = 0 (уравнение 1–3) старая кривая дала примерно в два раза больше истинных положительных результатов, но более чем в 20 раз больше ложных положительных результатов по сравнению с новыми кривыми идентичности и сходства. Более того, на любом уровне обнаруженных истинно положительных результатов количество ложных срабатываний было меньше для новых кривых (уравнения 2–3), чем для исходной кривой HSSP (уравнение 1, рисунок 7). При применении отсечки в соответствии с простой идентичностью последовательностей (без учета длины выравнивания) точность упала ниже 10% на уровнях 30% идентичности последовательностей (рис. 5C). Таким образом, за счет новых кривых точность обнаружения выросла почти в 10 раз.

Повышение точности обнаружения с помощью экспертного правила

Эксперты часто применяют практические правила, чтобы визуально различать истинные и ложные срабатывания. Однако многие из таких простых правил оказались непригодными для автоматической реализации. В частности, распределения количества и длины вставок в среднем не различались между ложными и истинными срабатываниями (данные не показаны). Точность обнаружения незначительно повысилась за счет применения следующих правил: (i) вычислить расстояние для оценки сходства п S (уравнение 3), и оценка идентичности п I (уравнение 2), среднее по обоим ([п S + п I] / 2) и принимать пары, когда это среднее превышает некоторый порог. п (ii) брать пары всякий раз, когда идентичность или сходство превышают соответствующий порог (либо п S Ú п Я & gt п) (iii) брать пары, если оба значения находятся выше заданного порогового значения (п S Ù п Я & gt п). Напротив, точность обнаружения значительно повысилась за счет применения правила «больше похоже, чем идентично»: принимайте совпадения, обнаруженные при поиске в базе данных, только если процентное сходство больше, чем процентное совпадение. Это ограничение привело к точности обнаружения & gt98% при п = 0 пороговые уровни (уравнения 2–3), в то время как на этом уровне было обнаружено в 2–4 раза меньше истинных положительных результатов (рис. 5A и C). Следовательно, применяемое в качестве консервативного ограничения при автоматическом поиске в базе данных, это правило оказалось весьма действенным.

Повышение точности обнаружения за счет переключения между последовательностями

Перескок в пространстве последовательностей оказался успешным в отбрасывании ложных срабатываний. Уже минимальное ограничение для принятия пары, если хотя бы один белок был общим для двух семейств последовательностей, давал уровни точности около 80% даже до уровней отсечения, соответствующих 20% идентичности последовательностей (рис. 6A, по сравнению с точностью & lt20% для нормальные пороги Рис. 5C). Точность увеличивалась еще больше, когда требовалось больше белков, общих для обоих семейств (рис. 6А). Однако скачкообразная перестройка последовательности была возможна только для относительно небольшого количества пар белков (рис. 6В). Более того, повышение точности было менее очевидным при использовании скачкообразной перестройки в пространстве между последовательностями, чем при применении правила «больше похожих, чем идентичных» (рис. 5).

Точность против покрытия для BLAST и полного динамического программирования

Баланс между точностью (процент истинных пар) и охватом (процент всех истинных пар) позволяет выбирать автоматические пороги в соответствии с конкретной целью поиска в базе данных. Это также позволяет сравнивать разные методы (чем выше значения, тем лучше). (i) Как и ожидалось, обычно используемый простой уровень идентичности последовательностей (без учета длины выравнивания) снова оказался чрезвычайно плохим выбором. (ii) Удивительно, но метод быстрого поиска в базе данных BLAST показал себя относительно хорошо по сравнению с полным динамическим программированием (рис. 7A). (iii) И BLASTP версии 2, и PSI-BLAST были почти так же хороши, как полное динамическое программирование с ранее определенным порогом HSSP (Sander and Schneider, 1991). (iv) Наилучшие характеристики были достигнуты за счет нового порога сходства (уравнение 3). (v) Однако необработанная оценка выравнивания работала почти так же. (vi) BLASTP (Altschul и другие., 1990) выполнялся почти так же, как и более сложный и более поздний PSI-BLAST (Altschul и другие., 1997) (а для "высокой" точности даже немного лучше, на врезке на рис. 7A: с учетом того, что были выбраны стандартные параметры, это не было неожиданностью). Соответствующие пороги приведены на рисунке 5B для динамического программирования и на рисунке 7B для вероятностей PSI-BLAST.

Множество ложноотрицательных результатов при разумных пороговых значениях

Часто представляет интерес количество ложноотрицательных результатов, то есть количество белков, которые принадлежат к семейству структур, но не были обнаружены выше заданного порогового значения. Для наборов данных, используемых здесь, совокупный процент ложноотрицательных результатов был чрезвычайно высоким для всех разумных уровней отсечения (рис. 5D).Подавляющее большинство всех пар белков со сходной структурой заселяют полуночную зону ниже 10% идентичности последовательностей (Рост, 1997). Таким образом, чрезвычайно высокий уровень ложноотрицательных результатов доказал, что методы выравнивания двух белков просто на основе попарных уровней гомологии последовательностей явно не могут найти золотую жилу поиска в базе данных (и что более старые анализы, которые не смогли описать этот эффект, были основаны на смещенных наборах данных. ).

Пороги для практического использования

Для простоты функции (уравнения 1–3) были явно представлены в таблицах (Рост, 1998). На уровнях п = 0 (уравнение 1–3) совокупное количество истинно положительных результатов составило (Рисунок 5): кривая HSSP (уравнение 1), 12% новая кривая идентичности (уравнение 2), 56% новая кривая сходства (уравнение 3), 73%. Чтобы достичь уровня 99% правильных попаданий м процентные точки должны быть добавлены к кривым, где м была HSSP-кривая, м = 8 новая тождественная кривая, м = 5 новых кривых подобия, м = 12. Для сравнения, применение правила «больше похожих, чем идентичных» дало уровни от 99% до м = –1.


Сноски

Эта статья была отредактирована Королевским химическим обществом, включая ввод в эксплуатацию, процесс рецензирования и редакционные аспекты до момента принятия.

Опубликовано Королевским обществом в соответствии с условиями лицензии Creative Commons Attribution License http://creativecommons.org/licenses/by/4.0/, которая разрешает неограниченное использование при условии указания автора и источника.

Использованная литература

. 1963 г. Твердофазный пептидный синтез. I. Синтез тетрапептида. Варенье. Chem. Soc. 85, 2149–2154. (doi: 10.1021 / ja00897a025) Crossref, Google Scholar

. 1999 Стратегии ортогонального лигирования пептида и белка. Биополимеры 51, 311–332. (DOI: 10.1002 / (SICI) 1097-0282 (1999) 51: 5 & lt311 :: AID-BIP2 & gt3.0.CO2-A) Crossref, PubMed, Google Scholar

. 2000 Синтез нативных белков путем химического лигирования. Анну. Rev. Biochem. 69, 923–960. (DOI: 10.1146 / annurev.biochem.69.1.923) Crossref, PubMed, Google Scholar

. 2009 Общий химический синтез белков. Chem. Soc. Ред. 38, 338–351. (DOI: 10.1039 / B700141J) Crossref, PubMed, Google Scholar

. 2010 Достижения в стратегиях химического лигирования для синтеза гликопептидов и гликопротеинов. Chem. Commun. 46, 21–43. (DOI: 10.1039 / B913845E) Crossref, PubMed, Google Scholar

. 2014 Развитие технологий лигирования для синтеза пептидов и белков. Аминокислоты Pept. Белки 39, 1–20. (DOI: 10.1039 / 9781849739962-00001) Crossref, Google Scholar

. 2017 Прогресс в химическом синтезе пептидов и белков. Пер. Tianjin Univ. 23, 401–419. (DOI: 10.1007 / s12209-017-0068-8) Crossref, Google Scholar

Ци Ю.К., Тан С., Хуан Ю.К., Пан М., Чжэн Дж. С., Лю Л.

. 2016 Hmb off / on в качестве переключаемой тиоловой защитной группы для нативного химического лигирования. Орг. Biomol. Chem. 14, 4194–4198. (DOI: 10.1039 / C6OB00450D) Crossref, PubMed, Google Scholar

. 1998 Экспрессивное белковое лигирование, новый метод изучения межбелковых взаимодействий при транскрипции. J. Biol. Chem. 273, 16 205–16 209. (DOI: 10.1074 / jbc.273.26.16205) Crossref, Google Scholar

. 1998 Лигирование экспрессированных белков: общий метод белковой инженерии. Proc. Natl Acad. Sci.USA 95, 6705–6710. (DOI: 10.1073 / pnas.95.12.6705) Crossref, PubMed, Google Scholar

Беккер К., Хантер К.Ф., Зайдель Р., Кент С.Б.Х., Гуди Р.С., Энгельхард М.

. 2003 Полный химический синтез функциональной взаимодействующей пары белков: протоонкогена H-Ras и Ras-связывающего домена его эффектора c-Raf1. Proc. Natl Acad. Sci. Соединенные Штаты Америки 100, 5075–5080. (DOI: 10.1073 / pnas.0831227100) Crossref, PubMed, Google Scholar

. 2004 Полный синтез Крамбина в одном горшке. Энгью. Chem. 43, 2534–2538. (doi: 10.1002 / anie.200353540) Crossref, PubMed, Google Scholar

Ли Дж. Б., Ли Й., Он QQ, Ли Ю. М., Ли Х. Т., Лю Л.

. 2014 Нативное химическое лигирование пептидных гидразидов в одном горшке обеспечивает полный синтез модифицированных гистонов. Орг. Biomol. Chem. 12, 5435–5441. (DOI: 10.1039 / C4OB00715H) Crossref, PubMed, Google Scholar

Оливье Н., Виконь Дж., Валлин А., Дробек Х., Десмет Р., Махди К., Леклерк Б., Гурмахтиг Г., Фафер В., Мельник О.

. 2012 Стратегия трехсегментного лигирования с одним горшком для химического синтеза белка. Энгью. Chem. Int. Эд. 51, 209–213. (doi: 10.1002 / anie.201105837) Crossref, PubMed, Google Scholar

Айхара К., Ямаока К., Нарусэ Н., Инокума Т., Сигенага А., Отака А.

. 2016 Одноразовое / последовательное нативное химическое лигирование с использованием криптотиоэфира в фотокамере. Орг. Lett. 18, 596–599. (doi: 10.1021 / acs.orglett.5b03661) Crossref, PubMed, Google Scholar

Отака А, Сато К., Дин Х, Сигенага А

. 2012 Одноразовое / последовательное нативное химическое лигирование с использованием пептида N-сульфанилэтиланилида. Chem. Рек. 12, 479–490. (DOI: 10.1002 / tcr.201200007) Crossref, PubMed, Google Scholar

Асахина Й, Кавакамия Т, Ходжо Х

. 2017 Нативное химическое лигирование в одном горшке путем комбинации двух ортогональных предшественников тиоэфиров. Chem. Commun. 53, 2114–2117. (DOI: 10.1039 / C6CC10243C) Crossref, PubMed, Google Scholar

Bang D, Pentelute BL, Kent SB

. 2006 Кинетически контролируемое лигирование для конвергентного химического синтеза белков. Энгью. Chem. Int. Эд. Англ. 45, 3985–3988. (doi: 10.1002 / anie.200600702) Crossref, PubMed, Google Scholar

. 2007 Последовательное пептидное лигирование с использованием аутоактивирующего звена контролируемого цистеинилового пролилового эфира (СРЕ). Tetrahedron Lett. 48, 1903–1905. (doi: 10.1016 / j.tetlet.2007.01.086) Crossref, Google Scholar

Чжэн Дж.С., Цуй Х.К., Фанг GM, Си У.С., Лю Л.

. 2010 Химический синтез белка путем кинетически контролируемого лигирования пептидных O-эфиров. ChemBioChem 11, 511–515. (DOI: 10.1002 / cbic.200900789) Crossref, PubMed, Google Scholar

Эрлих Л.А., Кумар К.С., Хадж-Яхья М., Доусон П.Е., Брик А.

. 2010 N-метилцистеин-опосредованный полный химический синтез тиоэфира убиквитина. Орг. Biomol. Chem. 8, 2392–2396. (DOI: 10.1039 / c000332h) Crossref, PubMed, Google Scholar

Fang GM, Li YM, Shen F, Huang YC, Li JB, Lin Y, Cui HK, Liu L

. 2011 Химический синтез белков лигированием гидразидов пептидов. Энгью. Chem. Int. Эд. Англ. 50, 7645–7649. (DOI: 10.1002 / anie.201100996) Crossref, PubMed, Google Scholar

Ян Р., Хоу В., Чжан Х, Лю К.Ф.

. 2012 Последовательное лигирование N-C с использованием пептидил-N, N-бис (2-меркаптоэтил) амидных строительных блоков. Орг. Lett. 14, 374–377. (doi: 10.1021 / ol2031284) Crossref, PubMed, Google Scholar

Белло К., Ван С., Мэн Л., Моремен К. В., Беккер К.

. 2015 Пегилированное фотоотщепляемое вспомогательное вещество опосредует последовательное ферментативное гликозилирование и естественное химическое лигирование пептидов. Энгью. Chem. Int. Эд. 54, 7711–7715. (doi: 10.1002 / anie.201501517) Crossref, PubMed, Google Scholar

Schwagerus S, Reimann O, Despres C, Smet-Nocca C, Hackenberger C

. 2016 Полусинтез O-GlcNAцилированного тау-белка без меток путем последовательного хемоселективного лигирования. J. Pept. Sci. 22, 327–333. (DOI: 10.1002 / psc.2870) Crossref, PubMed, Google Scholar

Такенучи Т., Катаяма Х, Накахара Й, Накахара Й, Ходзё Х

. 2014 Новое устройство для тиоэтерификации после лигирования позволяет осуществлять лигирование пептидов в направлении от N к C: синтетическое исследование гликоделина человека. J. Pept. Sci. 20, 55–61. (doi: 10.1002 / psc.2592) Crossref, PubMed, Google Scholar

Ли К.Л., Лю Х., Вонг СТТ, Чоу Х.Й., Ли Х.С.

. 2016 Включение лигирования N-to-C Ser / Thr для синтеза конвергентного белка путем комбинирования подходов к химическому лигированию. Варенье. Chem. Soc. 138, 10 477–10 484. (doi: 10.1021 / jacs.6b04238) Crossref, Google Scholar

Hou W, Zhang X, Li FP, Liu CF, Peptidyl N

. 2011 N-бис (2-меркаптоэтил) амиды в качестве предшественников тиоэфиров для нативного химического лигирования. Орг. Lett. 13, 386–389. (doi: 10.1021 / ol102735k) Crossref, PubMed, Google Scholar

Оливье Н., Дер Дж., Мхидия Р., Бланпейн А., Мельник О.

. Лигирование нативного пептида бис (2-сульфанилэтил) аминогруппы 2010 г. Орг. Lett. 12, 5238–5241. (doi: 10.1021 / ol102273u) Crossref, PubMed, Google Scholar

. 1996 Опосредованное ацилдисульфидом внутримолекулярное ацилирование для ортогонального связывания между незащищенными пептидными сегментами. Механизм и применение. Tetrahedron Lett. 37, 933–936. (DOI: 10.1016 / 0040-4039 (95) 02394-1) Crossref, Google Scholar

Доусон ЧП, Мьюир Т.В., Кларк-Льюис И., Кент С.Б.

. 1994 Синтез белков путем нативного химического лигирования. Наука 266, 776–779. (DOI: 10.1126 / science.7973629) Crossref, PubMed, Google Scholar

. 1972 Очистка монеллина, сладкого принципа Dioscoreophyllum cumminsii . Биохим. Биофиз. Acta 261, 114–122. (DOI: 10.1016 / 0304-4165 (72) 90320-0) Crossref, PubMed, Google Scholar

. 1973 Хемостимулирующий белок: новый тип вкусовых стимулов. Наука 181, 32–35. (DOI: 10.1126 / science.181.4094.32) Crossref, PubMed, Google Scholar

Танкреди Т., Иидзима Х, Савиано Дж., Амодео П., Темусси ПА

. 1992 Структурное определение активного центра сладкого белка: исследование pMNEI с помощью 1 H ЯМР. FEBS Lett. 310, 27–30. (DOI: 10.1016 / 0014-5793 (92) 81138-C) Crossref, PubMed, Google Scholar

. 2008 Твердофазный синтез пептидных тиокислот путем гидротиолиза связанных со смолой пептидных тиоэфиров. Tetrahedron Lett. 49, 6122–6125. (DOI: 10.1016 / j.tetlet.2008.08.018) Crossref, Google Scholar

Kaiser E, Colescott RL, Bossinger CD, Cook PI

. 1970 Цветовой тест для обнаружения свободных концевых аминогрупп в твердофазном синтезе пептидов. Анальный. Biochem. 34, 595–598. (DOI: 10.1016 / 0003-2697 (70) 90146-6) Crossref, PubMed, Google Scholar

Ким Ш., Кан Ч., Ким Р., Чо Дж.М., Ли Ю.Б., Ли Т.К.

. 1989 Новый дизайн сладкого протеина: повышенная стабильность и способность к ренатурированию. Protein Eng. 2, 571–575. (DOI: 10.1093 / протеин / 2.8.571) Crossref, PubMed, Google Scholar


Материалы и методы

Неизбыточный набор белковых структур

Избыточность в базе данных PDB (июнь 2005 г.) была отфильтрована до репрезентативного списка, так что выравнивание MAMMOTH [27] любых двух цепочек в списке не соответствует как минимум одному из следующих четырех отсечений: минимум 90% идентичности последовательностей. минимум 90% атомов Cα выровнены в пределах 4 Å максимум 1 Å среднеквадратичное отклонение Cα и максимум разница в длине 50 остатков. Каждая неизбыточная цепочка представляет все другие цепочки PDB в начальном списке, которые проходят перечисленные выше ограничения для всех парных сравнений внутри группы, где это возможно, представитель был выбран путем максимизации его разрешения. Кроме того, устаревшие записи PDB, а также записи с отсутствующими атомами были удалены из начального набора, в результате чего был получен окончательный список из 22 732 белковых цепей. Чтобы оценить влияние избыточности PDB на точность EvP при оценке модели, окончательный репрезентативный набор цепочек был дополнительно сгруппирован путем изменения идентичности последовательностей и пределов сходства структур (таблица S1 в дополнительном файле данных 1).

Множественные выравнивания последовательностей

MSA для каждой из 22 732 неизбыточных цепочек PDB был построен с использованием PSI-BLAST (версия 2.2.10) [28] для поиска по NCBI. номер база данных (июнь 2005 г.). Поиск был выполнен без фильтрации сегментов с смещением композиции, выполнялся до 5 итераций и включал до 100 000 совпадений последовательности с e-значением меньше 5 × 10 -4. Все остальные параметры PSI-BLAST были установлены на значения по умолчанию. Удаление тех белковых цепей, которые выровнены с менее чем 20%, 40% или 60% идентичностью последовательности с запрашиваемым белком, дополнительно отфильтровали MSA. Наконец, все отфильтрованные MSA с 50 или более последовательностями использовались для получения EvP (таблица S1 в дополнительном файле данных 1).

Взвешивание последовательности

Взвешивание последовательностей на основе положения, при котором низкие веса присваиваются избыточно представленным последовательностям, а высокие веса - уникальным последовательностям, использовалось для компенсации неравномерного распределения гомологичных белковых последовательностей в MSA [29]. Веса последовательности W jрассчитывались как:

куда р яколичество различных типов остатков в позиции я, а также пя,j- частота встречаемости типа остатка в позиции я и последовательность j относительно всех остатков в позиции я.

Вывод потенциалов, основанных на знаниях

В этой работе были выведены два различных типа потенциалов, основанных на знаниях: репрезентативный потенциал, зависящий от расстояния (REP), используемый в качестве базовой линии для оценки воздействия нашего нового подхода, и ряд структурно-зависимых потенциалов, зависящих от расстояния, здесь называемых EvP. . Уникальное различие между потенциалами REP и EvP заключалось во входном структурном пространстве, выбранном для их получения, а также в использовании информации о последовательности. С одной стороны, потенциал REP был рассчитан из набора из 22 732 неизбыточных белковых структур (Рисунок 4a), следуя подходу, обычно используемому для получения зависимых от расстояния потенциалов [7, 19, 30–35]. С другой стороны, для 20000 из 22732 неизбыточных белковых структур (то есть структур с более чем 50 гомологичными последовательностями в их MSA), EvP был рассчитан с использованием вариабельности последовательностей в наборе гомологичных последовательностей для выбранной структуры ( Рисунок 4b). Каждый EvP был получен путем виртуального внедрения всех гомологичных последовательностей в MSA в выбранную структуру, которая использовалась в качестве руководства для замены типа аминокислоты в каждом положении. Таким образом, можно сказать, что 20 008 EvP кодируют вариацию последовательности, наблюдаемую в MSA для каждой из неизбыточных структур. Вкратце, поточный подход, реализованный для получения EvP, состоял из трех этапов: во-первых, сбор всех парных выравниваний между выбранной структурой и ее гомологичными последовательностями в MSA, во-вторых, используя каждое попарное выравнивание в качестве ориентира, замена типа аминокислоты в выбранной структуре одним в гомологичной последовательности и третьим, для позиции с разрывом, сохранить исходный остаток в выбранной структуре. Также были протестированы два варианта этого протокола, которые включали удаление остатков в структуре, выровненной по пробелу, и изменение нумерации остатков матрицы (то есть, влияющих на значение разделения последовательностей статистического потенциала). Протестированные протоколы не показали статистических различий между полученными EvP (таблица S6 в дополнительном файле данных 1). Подсчет взаимодействий остаток-остаток для получения EvP был пропорционален весу последовательности, который учитывает избыточность в пределах MSA.

Протоколы деривации EvP и REP. а) Потенциал REP был построен в трехэтапном процессе: шаг 1, создание неизбыточного набора белковых структур из базы данных PDB, шаг 2, вычисление всех частот расстояния между остатками в каждой из репрезентативных цепочек из шага 1 и шага 3, получить основанный на знаниях потенциал с использованием обратного закона Больцмана для преобразования необработанных частот в псевдоэнергетические члены. (б) EvP были построены в рамках шестиступенчатого процесса: шаг 1, создание неизбыточного набора структур белков из базы данных PDB, шаг 2, выбор каждой из репрезентативных цепочек в качестве структур запроса, шаг 3, вычисление MSA с использованием PSI- Шаг 4 программы BLAST, включите все гомологичные последовательности в структуру запроса, используя выравнивание на основе последовательностей из предыдущего шага 5, вычислите все частоты расстояния остаток-остаток и шаг 6, получите основанный на знаниях потенциал, используя обратный закон Больцмана для преобразования необработанные частоты в псевдоэнергетические термины.

В отличие от REP, где его обучающий набор составлял неизбыточный набор белковых структур, не существовало единого и уникального обучающего набора для получения EvP. Обучающие наборы, используемые в EvP, представляли собой фактические множественные выравнивания последовательностей, специфичные для каждой выбранной структуры.

В дополнение к REP и EvP был получен единый консенсусный потенциал (CON) с использованием суммы наблюдаемых частот взаимодействия от каждого из 20 008 отдельных EvP. Таким образом, потенциал CON кодирует структурное пространство, охватываемое неизбыточным набором структур, а также пространство последовательностей, занимаемое их гомологичными последовательностями.

Все потенциалы, полученные в этой работе, были рассчитаны с использованием наших ранее оптимизированных параметров для оценки модели [7]. Вкратце, потенциалы, использующие атомы Cα и Cβ в качестве центров взаимодействия, различаются между всеми 20 стандартными типами остатков, имеют максимальный диапазон расстояний 15 Å, распределенных в 30 отсеках по 0,5 Å каждый, и учитывают разделение последовательностей взаимодействующих пар атомов. Локальные взаимодействия рассматривались независимо с использованием разделения последовательностей на 2, 3, 4, 5, 6, 7 и 8 остатков, а нелокальные взаимодействия рассматривались путем объединения в один термин взаимодействий с разделением последовательностей, превышающим или равным 9 остаткам.

Z-баллы

Z-баллы энергии рассчитывались на основе энергии модели белка, среднего значения и стандартного отклонения основанной на знаниях потенциальной энергии 1000 случайных последовательностей с таким же аминокислотным составом и структурой модели белка, как описано ранее [7].

Протокол оценки модели

EvP вычислялся для каждой из неизбыточных цепочек в PDB и представлял заданный набор аналогичных структур. Таким образом, выбор EvP для оценки точности данной модели может повлиять на окончательную точность нашего метода. Для оценки такого воздействия были реализованы и протестированы несколько протоколов.

Выбор на основе шаблона

Структура шаблона, использованная для построения модели, была получена из соответствующего выравнивания структуры последовательности, используемого во время моделирования. Затем EvP, представляющий структурный кластер шаблона, использовался для оценки точности модели.

Выбор без шаблонов

Чтобы оценить влияние выбора EvP для моделей без шаблонов, были использованы алгоритмы PSI-BLAST и BLAST со значениями по умолчанию для обнаружения наиболее близкого совпадения между последовательностью модели и нашей базой данных EvP.

Случайный выбор

Так называемый случайный потенциал (RND) был рассчитан путем случайного выбора одного из 20 008 EvP для оценки точности данной модели.

Чтобы избежать предвзятых результатов, EvP, полученный для целевой структуры, был удален перед выбором EVP во всех трех протоколах. Однако важно отметить, что нет уверенности, даже концептуально, что строгие испытания метода не должны полагаться на структуры, подобные или идентичные тем, из которых были получены потенциалы. На практике статистические возможности должны использоваться при оценке моделей сравнительных моделей, которые по конструкции аналогичны известным структурам белков.Следовательно, все известные белковые структуры являются законными источниками для получения любого из статистических потенциалов, используемых при оценке практических моделей, включая те известные структуры, которые связаны с оцениваемой моделью.

Тестовый набор сравнительных моделей

Оценка EvPs для оценки моделей была основана на начальном наборе из 9 645 структурных моделей, разделенных на 3 375 правильных и 6270 неправильных моделей [7, 22]. Правильная модель была определена как модель, для которой по крайней мере 30% атомов Cα наложены в пределах 3,5 Å с атомами реальной структуры, и, таким образом, она основана на правильном сопоставлении складок и относительно точном выравнивании последовательности / структуры. Неправильные модели (то есть с наложением менее 15% атомов Cα в пределах 3,5 Å) были построены с использованием неправильного сгиба или основывались на правильном сгибе, но содержали большую долю несовпадений. Таким образом, тестовый набор моделей структуры белка, который явился результатом крупномасштабного сравнительного моделирования полной PDB [22], представлял известное структурное пространство белка. Этот набор сравнительных моделей ранее широко использовался для тестирования методов оценки моделей [7, 17, 22, 36, 37].

Чтобы иметь возможность справедливо сравнить все потенциалы, исходный набор тестов был сокращен до 1877 правильных и 2567 неправильных моделей, которые соответствовали тем, для которых можно было получить EvP для всех пороговых значений кластеризации (таблица S1 в дополнительном файле данных 1). Поскольку EvP не может быть надежно получен для репрезентативных структур с менее чем 50 гомологичными последовательностями [7], большая часть моделей не имеет производного EvP для соответствующих им матричных структур в кластере CLS-90-90_MSA-60. Однако EvP в CLS-90-90 и MSA-20, который соответствует наиболее точному потенциалу, основанному на знаниях (Результаты), может быть рассчитан для 96,4% (3253) и 94,8% (5942) правильных и неправильных моделей в тестовый набор соответственно.

Все потенциальные оценки, модели для двух наборов данных, используемых в этой работе, а также EvP доступны для загрузки по адресу [38].

Критерии сравнительного анализа

Точность основанных на знаниях потенциалов оценивалась с помощью максимальной точности (ACC) и AUC, которые были рассчитаны на основе кривой рабочей характеристики приемника (ROC) [39] с использованием правильных моделей в качестве положительных примеров и неправильных моделей в качестве отрицательных примеров. . Кривая ROC получается путем построения графика FPR (то есть доли неправильных моделей, оцениваемых как правильные) против соответствующего TPR (то есть доли правильных моделей, оцениваемых как правильные) для всех возможных отсечений по Z-баллу энергии. AUC, пороговая независимая мера, считается надежным индикатором качества классификатора, учитывая его независимость от выбранного порога и его корреляцию с вероятностью ошибки классификатора [39]. Оптимальный порог классификации, ведущий к максимальному ACC, также указывается для каждого тестируемого потенциала.

Другие тестируемые методы

Также были оценены два широко используемых потенциала, основанных на знаниях, для обнаружения ошибок в моделях структуры белков, чтобы обеспечить дополнительную и объективную систему отсчета для оценки точности EvP. Во-первых, программа Prosa II [4, 20, 21], полученная из набора неизбыточных структур, вычисляет оценку энергии и Z-оценку для входной модели. Во-вторых, программа DFIRE [19], полученная с использованием масштабированного конечного идеального газа в качестве эталонного состояния, вычисляет показатель энергии для модели. Окончательные Z-баллы DFIRE были рассчитаны с использованием процедуры, описанной выше. Обе программы, Prosa II и DFIRE, запускались локально с использованием соответствующих параметров по умолчанию.

Статистическая значимость различий между оцененными потенциалами

Статистическая значимость наблюдаемых различий между двумя потенциалами, используемыми в качестве бинарных классификаторов, оценивалась с помощью непараметрического теста, который учитывает корреляцию кривых ROC [40]. Этот тест использует преимущество равенства между U-статистикой Манна-Уитни и AUC при вычислении по правилу трапеций для сравнения двух распределений. Статистика хи-квадрат вычисляет значимость (п-значение) разницы между AUC, измеренной для двух классификаторов. Результаты, соответствующие статистическим сравнениям, представлены в файле дополнительных данных 1 (таблицы S1 и S3-S5).


Смотреть видео: Qual a inclinação máxima de uma Rampa Acessível? (February 2023).