На правах рукописи

На правах рукописи На правах рукописи

cdn.scipeople.com
from cdn.scipeople.com More from this publisher
19.11.2014 Views

CRC [317]. (см. Рис. 19). После этого фрагмент помещается в определенную ячейку (bin) молекулярной голограммы, положение которой (bin ID) вычисляется как остаток от деления хеш-кода (fragment integer ID) на размер (т.е. количество ячеек) молекулярной голограммы. Каждый раз при нахождении очередного вхождения фрагмента в химическую структуру заселенность соответствующей ячейки молекулярной голограммы увеличивается на единицу. В отличие от стандартных хеш-таблиц, в молекулярных голограммах столкновения данных не устранены, и поэтому несколько разных фрагментов могут отобразиться на одну ячейку молекулярной голограммы. Следовательно, в результате анализа химической структуры общая заселенность ячейки молекулярной голограммы оказывается равной сумме целочисленных значений дескрипторов, соответствующим фрагментам, на нее отображаемым. Молекулярные голограммы легли в основу голографического QSAR (holographic QSAR - HQSAR) [153], в котором заселенности ячеек молекулярной голограммы выступают в качестве дескрипторов, корреляция которых с числовым значением биологической активности строится при помощи метода частичных наименьших квадратов PLS. Molecular Structure O Fragment Generation Fragments Fragment Integer IDs 12 5 9 ... O ... CRC Algorithm 3 6 2 0 5 13 0 7 1 8 1 2 3 4 5 6 7 8 9 10 Molecular Hologram Bin IDs Рис. 19. Генерация молекулярной голограммы По своей природе молекулярные голограммы очень близки к хешированным молекулярным отпечаткам пальцев (hashed molecular fingerprints) (или просто молекулярным отпечаткам пальцев (molecular fingerprints)), однако построены на основе бинарных фрагментных дескрипторов, показывающих лишь 94

наличие или отсутствие данного фрагмента в химической структуре. Также, в отличие от молекулярных голограмм, при построении молекулярных отпечатков пальцев каждый фрагмент может отображаться на несколько ячеек молекулярной голограммы, положения которых вычисляются при введении хеш-кода как затравки для генератора псевдослучайных чисел. Для увеличения информационной плотности (которая зависит от соотношений битов “on” и “off”), молекулярные отпечатки пальцев могут быть получены при помощи процедуры сворачивания (folding), при которой каждый молекулярный отпечаток пальцев делится пополам, и две получившиеся половины комбинируются при помощи логической операции ИЛИ. Преимущество хешированных молекулярных отпечатков пальцев заключается в возможности использовать большое число дескрипторов для описания химической структуры. Недостаток же их связан с тем, что в них столкновения данных не устраняются (см. обсуждение выше). Тем не менее, в некоторых случаях этот недостаток может быть частично устранен путем подбора оптимальной длины хеш-буфера, при котором исключены столкновения наиболее важных фрагментных дескрипторов (см. Рис. 20). O OH O O Fragment Generation ... O OH O ... O 0 1 0 1 1 0 1 0 0 1 Hashed fingerprints Рис. 20. Генерация хешированных молекулярных отпечатков пальцев. Каждый фрагмент приводит к установке нескольких битов. Бит, на котором произошла коллизия, отмечен жирным шрифтом и подчеркнут 95

наличие или отсутствие данного фрагмента в химической структуре. Также, в<br />

отличие от молекулярных голограмм, при построении молекулярных отпечатков<br />

пальцев каждый фрагмент может отображаться на несколько ячеек молекулярной<br />

голограммы, положения которых вычисляются при введении хеш-кода<br />

как затравки для генератора псевдослучайных чисел. Для увеличения информационной<br />

плотности (которая зависит от соотношений битов “on” и “off”), молекулярные<br />

отпечатки пальцев могут быть получены при помощи процедуры сворачивания<br />

(folding), при которой каждый молекулярный отпечаток пальцев делится<br />

пополам, и две получившиеся половины комбинируются при помощи логической<br />

операции ИЛИ. Преимущество хешированных молекулярных отпечатков<br />

пальцев заключается в возможности использовать большое число дескрипторов<br />

для описания химической структуры. Недостаток же их связан с тем,<br />

что в них столкновения данных не устраняются (см. обсуждение выше). Тем не<br />

менее, в некоторых случаях этот недостаток может быть частично устранен путем<br />

подбора оптимальной длины хеш-буфера, при котором исключены столкновения<br />

наиболее важных фрагментных дескрипторов (см. Рис. 20).<br />

O<br />

OH<br />

O<br />

O<br />

Fragment Generation<br />

...<br />

O<br />

OH<br />

O<br />

...<br />

O<br />

0 1 0 1 1 0 1 0 0 1<br />

Hashed fingerprints<br />

Рис. 20. Генерация хешированных молекулярных отпечатков пальцев. Каждый<br />

фрагмент приводит к установке нескольких битов. Бит, на котором произошла<br />

коллизия, отмечен жирным шрифтом и подчеркнут<br />

95

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!