Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи
Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи Ðа пÑÐ°Ð²Ð°Ñ ÑÑкопиÑи
p3.OD_CD____.21 p3.O__CD____.21 p3.OD_C_____.21 p3.O__C_____.21 p3.OD_______.21 p3.O________.21 5.1.5. Алгоритм генерации фрагментных дескрипторов Нами разработан и реализован в программе Fragment эффективный алгоритм нахождения/генерации фрагментов. Данный алгоритм включает два прохода по базе данных химических соединений. Во время первого прохода осуществляется поиск необходимых фрагментов и определяется число появлений каждого из них в каждой из химических структур исследуемой базы данных, а при втором проходе формируется матрица, содержащая числа вхождений каждого из найденных фрагментов в каждой химической структуре из базы данных. При первом проходе из базы данных считывается каждая из имеющихся структур и приводится к «стандартному» виду (явно заданные атомы водорода преобразуются в неявные, меняются резонансные формы некоторых функциональных групп, например семиполярная связь в нитро-группе заменяется на двойную и т.д.). Далее производится поиск ароматических циклов и полициклических систем. После этого все содержащиеся в текущей химической структуре атомы классифицируются с помощью рассмотренной выше кодировки из трех символов. Далее каждая структура анализируется в три этапа. На первом этапе ищутся все фрагменты типов p1, p3, c3, p5, c5, s5, p7, c7, b1, b2, p9, c9, b5, pb, cb, b8, pd, cd, bb, bc, t3, t4, t5, t6, t7, t8, t9, pf, cf и te с применением специальной процедуры поиска, состоящей из 16 вложенных циклов и множества специальных условий проверки для прореживания поискового дерева на как можно более ранней стадии. На втором этапе ищутся все фрагменты типов p2, p4, c4, s4, p6, c6, b0, s6, p8, c8, b3, b4, pa, ca, b6, b7, pc, cc, b9, ba, t0, t1, t2, pe, ce, bd, ta, tb, tc, td с использованием аналогичной процедуры поиска. Наконец, на третьем этапе, все указанные пользователем нестандартные фрагменты ищутся с использованием рекурсивной процедуры нахождения подграфов в графе. 156
После нахождения первоначального набора фрагментных дескрипторов, содержащих коды атомов в наиболее подробной классификации, программа генерирует фрагментные дескрипторы с различными уровнями обобщения классификации атомов (в соответствии с выбранной схемой, см. выше) и формирует канонические кодирующие строки для каждого из них. При этом просматриваются все возможные перестановки из группы автоморфизмов соответствующего фрагмента, и осуществляется выбор лексикографически наименьшей строки. Каждая каноническая строка сравнивается сначала с указанным пользователем либо сформированным вызывающей программой (NASAWIN, NETPROGNOSIS, и т.д.) списком масок (кодов) фрагментов, а затем она ищется в иерархически сформированном списке уже найденных фрагментов. Если такая строка соответствует какой-либо из масок и содержится в этом списке, то число вложений соответствующего фрагмента увеличивается на единицу, в противном случае, если строка соответствует какой-либо маске, но отсутствует в списке, то соответствующий фрагмент добавляется к списку найденных фрагментов с числом вложений, равным единице. Для нестандартных фрагментов число вложений определяется путем деления числа изоморфных вложений соответствующего подграфа в молекулярный граф на предварительно найденный порядок группы автоморфизмов этого подграфа. Кроме того, программа хранит в памяти список фрагментов, содержащих указатели на группы статистически идентичных дескрипторов (значения которых пропорциональны друг другу для всех уже пройденных химических структур), тогда как сам список и все группы реорганизуются после завершения анализа каждой из химических структур. После завершения первого прохода подсчитывается число появлений во всей базе данных для каждого из фрагментов, накопленных в иерархическом списке, и те фрагменты, которые содержатся в слишком малом числе соединений, и, соответственно, не удовлетворяют пороговому условию, заданному пользователем, удаляются из списка. Кроме того, из каждой группы статистически идентичных дескрипторов в списке оставляется только один. На втором проходе формируется файл с именами оставшихся дескрипторов и файл, со- 157
- Page 105 and 106: качестве меток исп
- Page 107 and 108: ной нумерации граф
- Page 109 and 110: нейронной сети с пр
- Page 111 and 112: ГЛАВА 4. РАЗРАБОТКА
- Page 113 and 114: линейные комбинаци
- Page 115 and 116: таться внешней по о
- Page 117 and 118: Предсказанное знач
- Page 119 and 120: рипторе, то он пере
- Page 121 and 122: Для решения этой пр
- Page 123 and 124: • D x - среднее значе
- Page 125 and 126: R 1 R 2 R 1 R 2 X R 6 X R N + 3 (CH
- Page 127 and 128: В соответствии с вы
- Page 129 and 130: зовании рассмотрен
- Page 131 and 132: R4 R5 R3 R6 N (a) R2 6 N 2 6 2 6 2
- Page 133 and 134: f ( x, y) ≡ f ( y, x) ⇔ f ( x,
- Page 135 and 136: R3 R2 R5 R6 Общая формул
- Page 137 and 138: ко, эта разница все
- Page 139 and 140: переставленными эк
- Page 141 and 142: лей приведен в рабо
- Page 143 and 144: деленными» атомами
- Page 145 and 146: 5.1.2. Иерархическая
- Page 147 and 148: водородного соседа
- Page 149 and 150: Атом кислорода в со
- Page 151 and 152: PA1 -PH 2 Атом фосфора,
- Page 153 and 154: Br2 -Br= Формально нез
- Page 155: то в дальнейшем буд
- Page 159 and 160: 5.2.1. Прогнозировани
- Page 161 and 162: зей, а также учитыв
- Page 163 and 164: Эксперимент 50 40 30 20
- Page 165 and 166: Построение QSPR-моде
- Page 167 and 168: работе [268], но с при
- Page 169 and 170: ляются удобным инс
- Page 171 and 172: чета этого свойств
- Page 173 and 174: База 2 (88 соединений
- Page 175 and 176: «редких фрагментов
- Page 177 and 178: пользовании 25 деск
- Page 179 and 180: Tf расч. о С, Tf calc. o C 30
- Page 181 and 182: На первом этапе раб
- Page 183 and 184: 0,935; s = 0,76 кДж·моль -1
- Page 185 and 186: пример использован
- Page 187 and 188: почечных фрагменто
- Page 189 and 190: ской структуры «ре
- Page 191 and 192: 1 O O OH C C a O C H 2 O H + C C a
- Page 193 and 194: веществ, например,
- Page 195 and 196: до 28.0 (MAE DCV ). Повыше
- Page 197 and 198: Таким образом, псев
- Page 199 and 200: цепочки длиной до д
- Page 201 and 202: алканов, см 3 /моль 7
- Page 203 and 204: свое преимущество
- Page 205 and 206: 6.3.1. Общая методоло
p3.OD_CD____.21 p3.O__CD____.21 p3.OD_C_____.21<br />
p3.O__C_____.21 p3.OD_______.21 p3.O________.21<br />
5.1.5. Алгоритм генерации фрагментных дескрипторов<br />
Нами разработан и реализован в программе Fragment эффективный алгоритм<br />
нахождения/генерации фрагментов. Данный алгоритм включает два прохода<br />
по базе данных химических соединений. Во время первого прохода осуществляется<br />
поиск необходимых фрагментов и определяется число появлений<br />
каждого из них в каждой из химических структур исследуемой базы данных, а<br />
при втором проходе формируется матрица, содержащая числа вхождений каждого<br />
из найденных фрагментов в каждой химической структуре из базы данных.<br />
При первом проходе из базы данных считывается каждая из имеющихся<br />
структур и приводится к «стандартному» виду (явно заданные атомы водорода<br />
преобразуются в неявные, меняются резонансные формы некоторых функциональных<br />
групп, например семиполярная связь в нитро-группе заменяется на<br />
двойную и т.д.). Далее производится поиск ароматических циклов и полициклических<br />
систем. После этого все содержащиеся в текущей химической структуре<br />
атомы классифицируются с помощью рассмотренной выше кодировки из<br />
трех символов. Далее каждая структура анализируется в три этапа. На первом<br />
этапе ищутся все фрагменты типов p1, p3, c3, p5, c5, s5, p7, c7, b1, b2, p9, c9, b5,<br />
pb, cb, b8, pd, cd, bb, bc, t3, t4, t5, t6, t7, t8, t9, pf, cf и te с применением специальной<br />
процедуры поиска, состоящей из 16 вложенных циклов и множества<br />
специальных условий проверки для прореживания поискового дерева на как<br />
можно более ранней стадии. На втором этапе ищутся все фрагменты типов p2,<br />
p4, c4, s4, p6, c6, b0, s6, p8, c8, b3, b4, pa, ca, b6, b7, pc, cc, b9, ba, t0, t1, t2, pe, ce,<br />
bd, ta, tb, tc, td с использованием аналогичной процедуры поиска. Наконец, на<br />
третьем этапе, все указанные пользователем нестандартные фрагменты ищутся<br />
с использованием рекурсивной процедуры нахождения подграфов в графе.<br />
156