Studio e sviluppo di metodi computazionali per l'analisi delle ...

UNIVERSITÀ DEGLI STUDI DI PARMA 

FACOLTÀ DI SCIENZE 

MATEMATICHE, FISICHE e NATURALI 

Corso di Laurea in Informatica 

Tesi di Laurea 

Studio e sviluppo 

di metodi computazionali 

per l’analisi delle conformazioni 

di molecole 

Relatore: 

Prof. Alessandro Dal Palù 

Candidato: 

Tommaso Nanu 

Correlatore: 

Prof. Pietro Cozzini 

Anno Accademico 2010/2011

A mannedda mea Mariantonia 

e a thiu Zoseppe.

Ringraziamenti 

Sono passati ben cinque anni da quando ho fatto i bagagli e ho lasciato la 

mia famiglia, i miei amici e la mia terra di origine. Sono parecchi anni. 

Se in questo momento sto scrivendo queste poche righe, lo devo tutto ai miei 

genitori, Lucia e Tonino. Nei limiti del possibile, mi è stato concesso tutto, 

non mi è mai stato fatto mancare niente. 

E grazie anche di aver concepito la mia sorellona, Susanna. Con lei ho passato 

quasi tutti i momenti della mia vita, brutti e belli. Grazie Susà! 

Un sentito ringraziamento va al Professor Alessandro Dal Palù che nonostante 

mille impegni è riuscito a dedicare numerose ore alla buona riuscita del lavoro 

di tirocinio e di tesi. Ringrazio anche il Professore Pietro Cozzini per la 

disponibilità concessa. 

Un ringraziamento va a tutti gli amici di Olbia e di Parma che, in tutti questi 

anni, mi hanno sopportato. Un grazie particolare va a Michi: senza di lui, a 

quest’ora, potrei rotolare solo da una strada in discesa! 

i

Indice 

Introduzione 

v 

1 Background 1 

1.1 Proteine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 

1.1.1 Caratteristiche strutturali . . . . . . . . . . . . . . . . 2 

1.1.2 Sito attivo . . . . . . . . . . . . . . . . . . . . . . . . . 7 

1.2 Legame chimico e forze intermolecolari . . . . . . . . . . . . . 7 

1.2.1 Forze intermolecolari . . . . . . . . . . . . . . . . . . . 8 

1.3 Strutture dati fondamentali . . . . . . . . . . . . . . . . . . . 8 

1.3.1 Grafo . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 

1.4 Programmazione a vincoli . . . . . . . . . . . . . . . . . . . . 9 

1.4.1 Alberi di ricerca . . . . . . . . . . . . . . . . . . . . . . 11 

1.5 Drug Design . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 

1.6 Algoritmi di Docking . . . . . . . . . . . . . . . . . . . . . . . 14 

1.6.1 Algoritmi con corpi rigidi . . . . . . . . . . . . . . . . 14 

1.6.2 Algoritmi con ligando flessibile . . . . . . . . . . . . . . 14 

1.6.3 Docking attraverso simulazione . . . . . . . . . . . . . 15 

1.6.4 Panorama del mercato attuale . . . . . . . . . . . . . . 16 

2 Scopo della Tesi 19 

2.1 Ligand-rotation . . . . . . . . . . . . . . . . . . . . . . . . . . 19 

2.1.1 Analisi dei requisiti . . . . . . . . . . . . . . . . . . . . 21 

3 Formalizzazione 23 

3.1 Modello del problema a vincoli . . . . . . . . . . . . . . . . . . 24 

3.1.1 Variabili . . . . . . . . . . . . . . . . . . . . . . . . . . 24 

3.1.2 Dominio delle variabili . . . . . . . . . . . . . . . . . . 24 

3.1.3 Vincoli implementati . . . . . . . . . . . . . . . . . . . 25 

3.2 Visita dello spazio di ricerca . . . . . . . . . . . . . . . . . . . 25 

3.2.1 Albero di ricerca . . . . . . . . . . . . . . . . . . . . . 26 

3.3 Generazione delle conformazioni . . . . . . . . . . . . . . . . . 27 

iii

iv 

INDICE 

3.4 Rotazione di un legame . . . . . . . . . . . . . . . . . . . . . . 32 

3.5 Esplorazione del sito attivo della proteina . . . . . . . . . . . . 34 

3.5.1 Construzione delle basi ortonormali . . . . . . . . . . . 35 

3.5.2 Generazione ligandi base . . . . . . . . . . . . . . . . . 35 

3.5.3 Campionamento di S . . . . . . . . . . . . . . . . . . . 36 

4 Dettagli implementativi 37 

4.1 Inizializzazione di ligand-rotation . . . . . . . . . . . . . . . . 37 

4.1.1 Acquisizione informazioni di configurazione . . . . . . . 38 

4.1.2 Struttura file mol2 . . . . . . . . . . . . . . . . . . . . 40 

4.2 Strutture dati del risolutore . . . . . . . . . . . . . . . . . . . 41 

4.2.1 Matrice di Vicinanza . . . . . . . . . . . . . . . . . . . 42 

4.2.2 Discretizzazione di un sottoinsieme limitato di R 3 . . . 42 

4.2.3 Celle contenenti atomi ‘vicini’ . . . . . . . . . . . . . . 45 

4.3 Algoritmo di ligand-rotation . . . . . . . . . . . . . . . . . . . 46 

4.3.1 Parte I: inizializzazione . . . . . . . . . . . . . . . . . . 47 

4.3.2 Parte II: generazione conformazioni . . . . . . . . . . . 48 

4.4 Consistenza del vincolo . . . . . . . . . . . . . . . . . . . . . . 50 

4.4.1 Verifica dei vincoli . . . . . . . . . . . . . . . . . . . . 51 

4.5 Accenni di Complessità . . . . . . . . . . . . . . . . . . . . . . 51 

5 Risultati 53 

5.1 Applicazioni possibili . . . . . . . . . . . . . . . . . . . . . . . 54 

5.2 Efficienza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 

5.2.1 Variazione parametri qualitativi . . . . . . . . . . . . . 57 

5.3 Confronti su visite . . . . . . . . . . . . . . . . . . . . . . . . 60 

5.3.1 DFS sul grafo della molecola . . . . . . . . . . . . . . . 60 

5.3.2 Modifica della DFS: first fail . . . . . . . . . . . . . . . 62 

6 Conclusioni e Sviluppi futuri 65 

6.1 Molecole contenenti cicloesano . . . . . . . . . . . . . . . . . . 66 

6.1.1 Cicloesano . . . . . . . . . . . . . . . . . . . . . . . . . 67 

6.1.2 Nuovi gradi di libertà . . . . . . . . . . . . . . . . . . . 68 

6.2 Espansione modello a vincoli . . . . . . . . . . . . . . . . . . . 68 

6.2.1 Controllo lunghezza legame . . . . . . . . . . . . . . . 68 

6.2.2 Implementazione propagazione dei vincoli . . . . . . . 68 

Bibliografia 71

Introduzione 

La costruzione di un farmaco capace di interagire correttamente con la causa 

di una malattia è un compito molto complesso. Durante le fasi iniziali, dopo 

aver individuato il processo biologico su cui intervenire per modificare il decorso 

della malattia, ricercatori e medici selezionano alcuni composti guida, 

ossia potenziali candidati per il principio attivo del farmaco. 

Un composto guida, precursore di un futuro farmaco, viene studiato e 

testato meticolosamente. Una prima fase prevede che venga sperimentato su 

colture di cellule, in modo da attestarne l’efficacia e il grado di sicurezza 

per l’organismo. Dopo aver superato i test della fase precedente, ha inizio lo 

studio su animali e uomo. 

La ricerca del composto guida non è semplice; si possono seguire molte 

strade. Per esempio, si possono analizzare le attività farmacologiche possedute 

da estratti di piante, si può partire dalla valutazione degli effetti collaterali 

di altri farmaci già in commercio oppure si può seguire un metodo sperimentale, 

usato in chimica farmaceutica, consistente nello studio della relazione 

struttura-attività della molecola in esame. 

Un approccio utilizzato negli ultimi vent’anni consiste nella progettazione 

di nuovi farmaci a partire dalle simulazioni delle interazioni tra farmaco 

e recettore. Ciò è possibile grazie alle nuove tecnologie informatiche e al 

progredire delle conoscenze di farmacologia molecolare. 

Attualmente esistono numerosi pacchetti software in grado di progettare 

molecole in modo efficiente. Tuttavia, esiste una lacuna insita nel loro algoritmo 

di costruzione dovuta non ad un errore di programmazione o all’utilizzo 

di modelli scorretti (cioè le soluzioni ottenute sono, pur sempre, attendibili), 

bensì all’elevato numero di falsi positivi generati dai suddetti algoritmi, 

che potrebbero, quindi, causare la perdita di potenziali composti guida. In 

breve, un falso positivo è una molecola con struttura tridimensionale geometricamente 

corretta accettata da un pacchetto di docking e rifiutata da un 

altro. Ciò è causato dai diversi approcci su cui si basano i programmi, in 

particolare dal differente algoritmo utilizzato per il calcolo dell’energia delle 

molecole che verificherà se il composto guida, all’interno del target proteico, 

v

vi 

INDICE 

è energeticamente stabile. 

Nel presente lavoro di tesi, in collaborazione con il Dipartimento di Chimica 

e il Dipartimento di Matematica dell’Università di Parma, verrà presentata 

una possibile soluzione al problema evidenziato esibendo un programma esente 

dal difetto che andrà a costruire geometricamente dei potenziali principi 

attivi. 

Nel capitolo 1 verranno introdotte e descritte le conoscenze di base, utili 

per capire al meglio le argomentazioni trattate in questa tesi, e i metodi 

matematico-informatici utilizzati nella formalizzazione e nella implementazione 

del pacchetto software. Nel capitolo 2 si definiranno i requisiti funzionali 

del nuovo programma. Il capitoli 3 e 4 introducono formalmente i principi 

e le tecniche dettagliate utilizzate affinché si generino delle molecole attendibili. 

Nel capitolo 5 si elencheranno tutti i test effettuati che andranno a 

misurare prestazioni del programma e qualità dei candidati generati. Infine, 

nel capitolo 6 verranno presentati dei possibili ampliamenti e suggerimenti 

da adottare nelle versioni successive del software.

Capitolo 1 

Background 

Questo capitolo si propone l’obiettivo di illustrare le conoscenze di base 

trattate in questo lavoro di tesi. 

Nella sezione 1.1 verranno introdotte le proteine, sostanze di fondamentale 

importanza per gli esseri viventi; il tema principale è rivolto alla loro struttura 

e funzionalità. 

Nella sezione 1.2 verrà data la nozione di legame chimico. Verrà, inoltre, 

presentata la struttura dati grafo e alcune sue proprietà nella sezione 1.3.1; 

grazie ad esso è possibile dare una rappresentazione astratta al concetto di 

molecola. 

Nella sezione 1.4 si descriverà la tecnica di programmazione a vincoli, 

dandone una definizione formale; parte di queste tecniche sono state utilizzate 

in questa tesi con lo scopo di poter esprimere vincoli da applicare agli atomi 

delle molecole che andremo a generare. 

La parte finale di questo capitolo (sezione 1.5) affronterà le nuove tecniche 

e gli approcci utilizzati per la sintesi di nuovi farmaci, il Drug Design e il Docking. 

Faremo, in aggiunta, una carrellata dei principali programmi di Docking 

in commercio, marcando le loro caratteristiche e i loro limiti funzionali. 

1.1 Proteine 

Le proteine sono polimeri naturali composti da unità di amminoacido legate 

fra loro da legami peptidici. Sono sostanze di primaria importanza per la 

struttura, il funzionamento e la riproduzione della materia vivente. 

Gli amminoacidi si concatenano nei peptidi e nelle proteine mediante la 

formazione di legami peptidici fra il gruppo carbossilico di un amminoacido e 

il gruppo amminico in α di un altro amminoacido, rispettivamente, il carbonio 

1

2 CAPITOLO 1. BACKGROUND 

Figura 1.1: Legame peptidico 

legato ai due ossigeni in ‘Amino acid (1)’ e l’azoto legato a due idrogeni in 

‘Amino acid (2)’, figura 1.1. 

Tranne che nella glicina, dove R = H, il carbonio in α è un centro stereogeno 

1 . La figura 1.2 riporta i venti α-amminoacidi comunemente reperibili 

nelle proteine. Tutti hanno un nome comune, inoltre per ognuno c’è un codice 

di tre lettere ed un codice di una lettera usata nella scrittura di formule di 

peptidi o di proteine. 

1.1.1 Caratteristiche strutturali 

Si possono individuare quattro livelli di struttura di una proteina: 

• Struttura primaria 

• Struttura secondaria 

• Struttura terziaria 

• Struttura quaternaria 

1 Un atomo di carbonio legato a quattro gruppi diversi si definisce asimmetrico o chirale 

e costituisce un centro stereogeno

1.1. PROTEINE 3 

Figura 1.2: Amminoacidi


Struttura primaria 

La struttura primaria è formata dalla sequenza specifica degli amminoacidi. 

Lo scheletro peptidico di tale struttura è il risultato della regolare successione 

di tre atomi −N − C − C− appartenenti, rispettivamente, al gruppo 

amminico, all’atomo di carbonio α e al gruppo carbossilico di ogni residuo. 

I livelli superiori della struttura di una proteina, dati dalle modalità di 

ripiegamento locale e dal ripiegamento dell’intera molecola, conferiscono alla 

proteina la forma finale biologicamente attiva; tuttavia questi ripiegamenti 

derivano dalla struttura primaria. Le differenti proprietà associate a una 

precisa sequenza amminoacidica determinano il modo in cui la proteina può 

ruotare o ripiegarsi assumendo una specifica e stabile struttura tridimensionale 

che la distingue da tutte le proteine. I legami coinvolti nella struttura 

primaria sono covalenti mentre nei livelli successivi sono presenti legami a 

idrogeno, più deboli dei primi. 

Struttura secondaria 

Come descritta in [3], la struttura secondaria di una proteina è data dalle 

modalità di ripiegamento della catena polipeptidica. Esistono principalmente 

tre 2 tipi diversi di struttura secondaria: α-elica, β-foglietti e loop. 

L’α-elica è una spirale destrorsa nella quale i gruppi R si proiettano all’esterno 

dello scheletro peptidico perpendicolarmente all’asse dell’elica. La 

struttura a elica di un polipeptide è stabilizzata dalla formazione di legami 

a idrogeno tra gli atomi di idrogeno del gruppo amminico di un residuo amminoacidico 

e gli atomi di idrogeno del gruppo carbonile di un altro residuo 

(figura 1.3). Quando questo modello di legami a idrogeno si ripete regolarmente 

lungo un segmento di catena polipeptidica, viene a stabilizzarsi la 

struttura ripiegata ad α-elica. 

La struttura a foglietto β a pieghe si forma quando due o più catene 

polipeptidiche sono quasi completamente distese e giacciono l’una accanto 

all’altra. Il foglietto è stabilizzato da legami a idrogeno che si formano tra i 

gruppi amminici di una catena e i gruppi carbonili dell’altra. Questa struttura 

può essere formata da catene polipeptidiche diverse oppure da differenti 

regioni della stessa catena polipeptidica la quale si ripiega su se stessa. 

Struttura terziaria 

Affinché la molecola assuma la caratteristica struttura compatta è necessario 

che la catena polipeptidica cambi direzione in corrispondenza di particolari 

2 Esistono altri tipi di strutture, ma comunque meno frequenti.

1.1. PROTEINE 5 

Figura 1.3: Dettaglio di una α-elica. 

punti, ripiegandosi in varie direzioni. La struttura terziaria rappresenta la 

disposizione, l’organizzazione nello spazio che una proteina assume in dipendenza 

della sua specifica struttura primaria. La stabilizzazione della struttura, 

secondo [3], è data dalle interazioni chimiche tra i gruppi R (le catene 

laterali dei residui amminoacidici). 

• Tra specifici residui di cisteina possono formarsi legami covalenti disolfuro 

che contribuiscono a mantenere il corretto ripiegamento di una 

catena polipeptidica. 

• Le catene laterali idrofobiche possono aggregarsi all’interno della molecola 

proteica venendo escluse dal contatto con le molecole di acqua e 

contribuendo al processo di ripiegamento. 

• Le forze di van der Waals possono stabilizzare le strette interazioni tra 

residui idrofobici. 

• Legami ionici tra catene laterali con carica positiva e negativa situate 

all’interno di una proteina, lontano dal contatto con le molecole di 

acqua, possono formare ponti salini.


Struttura quaternaria 

Molte proteine nella loro forma funzionalmente attiva sono formate da due 

o più catene polipeptidiche, dette subunità, ognuna delle quali è ripiegata 

in modo da assumere la propria peculiare struttura terziaria. La struttura 

quaternaria è il risultato del modo in cui le subunità proteiche si associano 

e interagiscono nell’intera proteina. Come descritto in [3], l’emoglobina è un 

chiaro esempio di proteina con struttura quaternaria (figura 1.4). Interazioni 

idrofobiche, forze di van der Waals, legami a idrogeno ionici stabilizzano l’associazione 

delle quattro catene polipeptidiche che costituiscono la molecola 

dell’emoglobina. 

Figura 1.4: Esempio di struttura quaternaria: l’emoglobina. È possibile 

identificare quattro sub-unità, due in rosso e due in blu. 

La specifica forma delle proteine permette loro di legare non covalentemente 

altre molecole e ciò, a sua volta, è seguito da altri eventi biologicamente 

importanti come ad esempio: 

• una sostanza può penetrare all’interno di una cellula legandosi a una 

proteina trasportatrice

1.2. LEGAME CHIMICO E FORZE INTERMOLECOLARI 7 

• una reazione chimica può essere accelerata quando una proteina enzimatica 

lega uno dei reagenti 

• segnali chimici come gli ormoni possono legarsi a proteine presenti sulla 

superficie esterna di una cellula 

L’acquisizione di informazioni riguardanti la struttura tridimensionale e 

il processo con cui una proteina si ripiega (protein folding) è di notevole importanza. 

Grazie a ciò è possibile fare delle inferenze funzionali sulla proteina 

a partire dal dogma fondamentale della biologia: 

Struttura ⇐⇒ Funzione 

nel senso che ad ogni diversa organizzazione strutturale della proteina è 

associata una specifica funzione biologica. 

La conoscenza dell’esatta forma di una molecola proteica e di ciò che vi 

si può legare è fondamentale non solo per comprendere la biologia di base, 

ma anche in altri campi come la medicina. Un esempio fu la determinazione 

della struttura tridimensionale di una proteina essenziale per la replicazione 

del virus HIV che permise la progettazione di specifiche molecole capaci di 

legarsi a questa e di bloccarne l’azione ([3]). 

1.1.2 Sito attivo 

Il sito attivo è una porzione di enzima 3 implicata nella formazione di legami 

con substrati 4 , che daranno luogo ad una reazione chimica. Il sito attivo di 

un enzima si trova solitamente in una tasca di quest’ultima ed è rivestito 

da residui amminoacidici che partecipano al riconoscimento del substrato; è 

anche il punto su cui agiscono gli inibitori enzimatici. I substrati si legano al 

sito attivo per mezzo di legami chimici (si faccia riferimento alla sezione 1.2) 

come quello idrogeno, covalente o tramite interazioni idrofobiche, andando a 

formare un complesso. 

1.2 Legame chimico e forze intermolecolari 

Come definito in [4], il legame chimico è una connessione tra atomi. Si forma 

tra due atomi se la risultante disposizione dei nuclei e degli elettroni possiede 

energia minore di quella totale corrispondente ai due atomi separati. Se la 

3 L’enzima è una proteina che catalizza reazioni chimiche 

4 Molecole su cui agisce un enzima


minore energia si può conseguire trasferendo completamente uno o più elettroni 

da un atomo all’altro, si formano ioni e il composto sarà tenuto insieme 

dall’attrazione elettrostatica tra tali ioni, che viene definita legame ionico. 

Nel caso in cui l’energia minore si possa conseguire condividendo elettroni, 

gli atomi si congiungeranno tramite un legame covalente e si formeranno molecole 

distinte. Un terzo tipo di legame è il legame metallico, che vede un 

grande numero di cationi 5 vincolati da una mare di elettroni. 

Un legame tra due atomi può essere di tre tipi: semplice, doppio o triplo. 

I legami che andremo a considerare nelle rotazioni saranno tutti legami covalenti 

del primo tipo, ovvero semplici. I restanti due, a causa della loro natura 

chimica, non possono ruotare su loro stessi senza rincorrere allo sconveniente 

di spezzare il legame. 

1.2.1 Forze intermolecolari 

Le forze intermolecolari sono interazioni deboli di natura elettrostatica tra 

molecole neutre e ioni. Le energie coinvolte in questi tipi di interazione sono 

di gran lunga inferiori rispetto al legame chimico intramolecolare. A differenza 

dei legami intratomici, le forze intermolecolari tengono unite due o più 

molecole in modo non covalente. In riferimento al lavoro svolto in questa tesi, 

queste forze rappresentano l’interazione che più ci interessa. Grazie ad esse, 

un ligando ha la possibilità di entrare a contatto con il sito attivo di una 

proteina, con la conseguente formazione di un complesso. 

1.3 Strutture dati fondamentali 

1.3.1 Grafo 

Si definisce grafo una coppia ordinata G = (V, E) tale che: 

• V è l’insieme dei nodi 

• E è l’insieme {(a, b) : a ∈ V ∧ b ∈ V }, chiamato insieme degli archi. 

Si possono distinguere due tipi di grafo: grafo orientato o diretto e grafo 

non orientato. Nel primo caso, ogni arco specifica la direzione della connessione, 

ovvero si può distinguere il nodo di partenza e il nodo di arrivo; nel 

secondo, non c’è distinzione tra i due nodi componenti l’arco. 

Definizione 1.1. L’insieme degli archi E O di un grafo orientato O = (V O , E O ) 

è l’insieme delle coppie ordinate (a, b) con a, b ∈ V O 

5 Un catione è un atomo carico positivamente.

1.4. PROGRAMMAZIONE A VINCOLI 9 

Definizione 1.2. L’insieme degli archi E N di un grafo non orientato N = 

(V N , E N ) è l’insieme delle coppie non ordinate {a, b} con a, b ∈ V N 

Si definisce grafo semplice un grafo che non contiene archi orientati. 

Definizione 1.3. Si definisce percorso un insieme di vertici {v 0 , v 1 , . . . , v n } 

e una sequenza di archi {(v o , v 1 ), (v 1 , v 2 ), . . . , (v n−1 , v n )} che li collegano; v 0 

e v n rappresentano gli estremi del cammino. 

Un percorso che abbia gli archi distinti, viene definito cammino; se v o = v n 

il cammino si chiama circuito o ciclo. 

Definizione 1.4. Sia G = (V, E) un generico grafo e siano u, v ∈ V due 

generici vertici di G. Se esiste un cammino con estremi u e v allora i due 

vertici sono connessi. Inoltre, la relazione di connessione è di equivalenza. 

A partire dalla relazione di equivalenza precedente, si possono definire k 

classi di equivalenza chiamati sottografi e definiti come 

G i = (V i , E i ) per i = 0, . . . , k 

dove V i ⊆ V e E i ⊆ E. Più semplicemente, un generico G i è un sottografo 

massimale che contiene tutti gli elementi connessi tra loro. L’insieme di questi 

sottografi prende il nome di componenti connesse di G e la sua cardinalità si 

indica con γ(G); ne segue che se γ(G) = 1, allora il grafo è connesso. 

1.4 Programmazione a vincoli 

La programmazione a vincoli è un paradigma di programmazione dove le 

relazioni tra variabili possono essere dichiarate in forma di vincoli. I vincoli 

differiscono dalle primitive normalmente definite dagli altri linguaggi di 

programmazione per il fatto che non specificano azioni singole da eseguire 

passo-passo, ma, piuttosto, si limitano a specificare le proprietà di cui deve 

essere dotata la soluzione da trovare. 

La nozione centrale di questa tecnica è, appunto, il vincolo (per esempio 

X > 5, X + Y < 20); esso, definito su una sequenza di variabili, è 

semplicemente una relazione sul loro dominio. Più formalmente, 

Definizione 1.5. [Dominio] Sia y 1 , . . . , y k una sequenza di variabili. Diremo 

che D 1 × · · · × D k è il dominio loro associato se l’insieme di tutti i valori 

possibili assunti da ogni y i è proprio l’insieme D i , per i = 1, . . . , k. In formule: 

y i ∈ D i , 

∀i = 1, . . . , k


Definizione 1.6. [Vincolo] Consideriamo una sequenza finita di variabili 

Y := y 1 , . . . , y k , con k > 0, e D 1 , . . . , D k il dominio associato loro. Un vincolo 

C su Y è un sottoinsieme di D 1 × · · · × D k . 

A sua volta, si definisce Problema di soddisfacimento dei vincoli o Constraint 

Satisfaction Problem, da cui l’acronimo (CSP), un insieme di vincoli 

applicati a un insieme di variabili. 

Definizione 1.7. Per Problema di soddisfacimento dei vincoli si intende 

una sequenza finita di variabili X := x 1 , . . . , x k , con dominio rispettivamente 

D 1 , . . . , D k , insieme ad un insieme finito C di vincoli, ognuno su un 

sottoinsieme di X. 

Denotiamo un CSP con la dicitura 〈C; D E 〉, con: 

D E := {x i : x i ∈ D i } 

∀i = 1, . . . , n 

dove, C è l’insieme dei vincoli definiti sul CSP e D E l’insieme dei valori 

del dominio. 

Una volta formulato il problema P con l’introduzione delle variabili (e 

del loro rispettivo dominio) e i vincoli definiti su di esse si procede con la 

risoluzione di P attraverso un Solver, composto principalmente da due parti: 

propagazione dei vincoli e ricerca delle soluzioni. La risoluzione di P ci 

permette di stabilire se: 

• il problema è consistente, cioè se ammette soluzione; 

• la soluzione o le soluzioni; 

Definiamo formalmente il concetto di soluzione di un CSP. 

Definizione 1.8. Sia 〈C; D E 〉 un CSP con D E := x 1 ∈ D 1 , . . . , x n ∈ D n . 

Diciamo che (d 1 , . . . , d n ) ∈ D 1 × · · · × D n soddisfa un vincolo C ∈ C sulle 

variabili x i1 , . . . , x im se (d i1 , . . . , d im ) ∈ C. Inoltre (d 1 , . . . , d n ) ∈ D 1 ×· · ·×D n 

è una soluzione per P se soddisfa ogni vincolo C ∈ C. 

Esempio 1.1. Sia 〈x < y; x ∈ [0, 10] , y ∈ [5, 10]〉; allora tutte le soluzione del 

problema appena esposto sono l’insieme delle coppie (a, b) con a ∈ [0, 10] e b ∈ 

[5, 10] tali che a < b.

1.4. PROGRAMMAZIONE A VINCOLI 11 

Ricerca delle soluzioni 

La ricerca delle soluzioni di un CSP è effettuata attraverso l’esplorazione 

di un albero, detto albero di ricerca, dove ad ogni livello compaiono tutte le 

possibili scelte di una precisa variabile. Un percorso radice-foglia rappresenta 

una possibile soluzione e, se questa è consistente con l’insieme dei vincoli 

introdotti nel problema, allora è effettivamente una soluzione. 

Propagazione dei vincoli 

L’esplorazione di tutto l’albero (il quale cresce esponenzialmente rispetto al 

numero delle variabili) potenzialmente, potrebbe diventare un processo molto 

lento. Di conseguenza, si introducono le tecniche della propagazione, il cui 

scopo è di riscrivere un vincolo C in uno equivalente, con l’applicazione di 

determinate regole atte a soddisfare alcune proprietà di consistenza locale. 

L’obiettivo è quello di ridurre l’albero di ricerca con l’eliminazione dei suoi 

sottoalberi che sicuramente non portano a soluzioni consistenti. 

Nello specifico, si hanno tre tipi di regole: 

• regole di Riduzione del Dominio, come conseguenza dell’applicazione 

dei vincoli alle variabili 

• regole di Trasformazione, cioè semplificazione dei vincoli 

• regole di Introduzione, grazie alle quali si aggiungono nuovi vincoli 

impliciti 

1.4.1 Alberi di ricerca 

Affinché si trovino tutte le soluzioni consistenti del problema, si ricorre agli 

alberi di ricerca e agli algoritmi per esplorarlo, algoritmi di ricerca. È doveroso 

precisare che l’algoritmo di ricerca non costruisce un albero di ricerca per poi 

esplorarlo successivamente; in realtà, l’albero viene costruito ‘al volo’ durante 

l’algoritmo di esplorazione. 

Definizione 1.9. Dati due CSP P 1 e P 2 e una sequenza X di variabili comuni 

ai due problemi, diremo che P 1 e P 2 sono equivalenti se: 

• per ogni soluzione d per P 1 , esiste una soluzione per P 2 e, quest’ultima, 

coincide proprio con d sulla sequenza di variabili X. 

• per ogni soluzione e per P 2 , esiste una soluzione per P 1 e, quest’ultima, 

coincide proprio con e sulla sequenza di variabili X.


Definizione 1.10. Siano P un CSP e x 1 , . . . , x n una sequenza di variabili. 

A è un albero di ricerca finito per P se rispetta le seguenti clausole: 

• tutti i suoi nodi sono degli altri CSP 

• la radice è proprio P 

• i nodi di un livello pari hanno esattamente un discendente diretto 

• se P 1 , . . . , P m con m ≥ 1, sono discendenti diretti di P 0 , allora l’unione 

di P 1 , . . . , P m è equivalente a P 0 (in relazione a X). 

Figura 1.5: Esempio di un Albero di Ricerca. 

Operativamente, l’idea alla base di una visita di un albero di ricerca è 

la seguente: si parte dalla radice e si prosegue visitando un figlio per tutte 

le sue scelte possibili. La visita è ricorsiva e nel momento in cui ci si trova 

ad avere un vincolo inconsistente si risale verso l’alto (backtracking) in cerca 

di un nodo con delle scelte ancora possibili; la ricerca di tutte le decisioni 

termina nel nodo radice. 

1.5 Drug Design 

Dal momento in cui strutture tridimensionali di proteine derivate da cristallografia 

a raggi X o spettroscopia NMR, divennero disponibili, si vide la

1.5. DRUG DESIGN 13 

nascita di pacchetti software in grado di utilizzare queste informazioni per 

dar vita al progetto chiamato Drug Design. Il problema che questi software 

devono affrontare è quello del Docking, ovvero di predire un complesso energeticamente 

favorevole composto da una proteina e una molecola (ipotetico 

farmaco), chiamato in questo contesto, ligando. 

Il Drug Design ha l’obiettivo di trovare una struttura guida, una piccola 

molecola che si lega ad una precisa proteina target e che può essere studiata 

a fondo per diventare un farmaco. 

Dal punto di vista biologico, legare una piccola molecola ad una specifica 

proteina significa poter inibire la sua funzione, in modo tale da poter rendere 

la sua azione verso l’organismo inoffensiva o, accelerare la sua funzione, 

simulando l’intervento del naturale ligando. 

Il metodo che sta alla base del Drug Design è il concetto di chiave-toppa 

(ligando-proteina): quel che si vuole ottenere è una serie di chiavi valide per 

quella specifica toppa. 

Figura 1.6: Figura rappresentante il docking tra una piccola molecola (in 

marrone) e una proteina target per dar vita ad un complesso 

Molti aspetti fanno del Docking un problema difficile da risolvere. Primo 

tra tutti quello che riguarda il problema dello Scoring, ovvero calcolare e 

assegnare un punteggio al modo in cui ligando e proteina si legano tra loro 

per andare a formare il complesso. Al giorno d’oggi, non esiste una funzione 

di scoring “d’uso generale” che permetta di predire in modo accurato ciò. In 

secondo luogo, è necessario considerare l’elevato numero di gradi di libertà: 

il più importante è quello relativo al possibile orientamento spaziale della 

proteina e del ligando e la conformazione di quest’ultimo. 

Inoltre, può variare la conformazione della proteina, si possono aggiungere 

molecole d’acqua tra le molecole e può cambiare lo stato di protonazione 6 . 

Ciò implica che le funzioni di scoring contengano tipicamente molti minimi 

locali di energia difficili da ottimizzare. 

6 La protonazione è una reazione che consiste nell’addizione di un protone, cioè un 

idrogeno carico positivamente (H + ), ad un atomo, ad una molecola o ad uno ione. La 

specie protonata subisce variazioni chimico-fisiche (idrofilia, proprietà ottiche, etc..).


Malgrado non esista una soluzione generale al problema del docking, sono 

stati sviluppati molti algoritmi specializzati in vari aspetti del problema e 

applicati in modo soddisfacente. 

1.6 Algoritmi di Docking 

Il Docking è una tecnica computazionale atta a generare varie conformazioni 

di piccole molecole all’interno del sito attivo di una proteina. Successivamente 

viene applicata una funzione di scoring ai risultati, in modo tale da poter 

ottenere una lista dei vari ligandi in base ad un certo punteggio: maggior 

punteggio uguale maggiore stabilità. 

Come descritto in [1], esistono diversi approcci per risolvere il problema 

del Docking. 

1.6.1 Algoritmi con corpi rigidi 

Questi sono stati i primi algoritmi ad essere stati sviluppati. Sia la proteina 

che il ligando vengono tenuti fissi nella loro conformazione spaziale e la 

complessità del problema si riduce alla ricerca dell’orientamento, con energia 

minore, tra le due molecole. Sicuramente, il punto a favore di questa classe 

di algoritmi è la velocità di elaborazione: pochi gradi di libertà e vincoli assicurano 

delle prestazioni notevoli. Tuttavia, maggiore è la velocità di ricerca, 

minore è la qualità dei ligandi trovati; infatti, a causa dei pochi movimenti 

simulati, non si esplorano tutte le possibili combinazioni di un ligando. 

1.6.2 Algoritmi con ligando flessibile 

La limitazione maggiore della precedente classe di algoritmi consiste nell’ignorare 

completamente la flessibilità del ligando. Infatti, spesso piccole molecole 

hanno uno spazio conformazionale molto ampio con livelli energetici molto 

bassi, e quindi stabili. 

Algoritmi a costruzione incrementale 

Uno degli algoritmi usati frequentemente, facente parte di questa classe, è la 

costruzione incrementale, che si basa sul concetto di frammentazione. Il ligando 

viene suddiviso in numerosi frammenti, i quali costituiscono una porzione 

di ligando rigida, ovvero gli atomi che lo compongono non si muovono. In 

breve, l’algoritmo funziona nel modo seguente: viene piazzato il primo frammento 

del ligando (chiamato frammento àncora) nel sito attivo della protei-

1.6. ALGORITMI DI DOCKING 15 

na; quindi si procede al piazzamento in successione dei restanti frammenti, 

collegandoli l’un l’altro in sequenza e validandoli con il calcolo dell’energia. 

In altre parole, si possono riconoscere tre fasi: 

• selezione del frammento base; 

• piazzamento del frammento base; 

• costruzione incrementale del ligando con i frammenti successivi. 

Il grado di libertà di questo algoritmo è dato dalla rotazione dei legami singoli. 

Algoritmi genetici 

L’algoritmo genetico è un metodo euristico di ricerca e ottimizzazione che 

imita il processo di evoluzione. L’idea generale è quella di partire da un certo 

numero di possibili soluzioni (individui) chiamate popolazione e, a ciascuna 

iterazione, operare una selezione di individui, impiegandoli per generare nuovi 

elementi della popolazione stessa, così da costituire una nuova popolazione 

per l’iterazione (o generazione) seguente. Tale successione di generazioni 

evolve verso una soluzione ottimale (locale o globale) del problema assegnato. 

L’evoluzione viene ottenuta attraverso una parziale ricombinazione delle 

soluzioni, e l’introduzione di mutazioni casuali nella popolazione di partenza; 

sporadicamente nascono individui con caratteristiche non comprese tra 

quelle presenti nei dati della specie originaria. Finita la fase di evoluzione la 

popolazione risultante viene analizzata e vengono tenute solo le soluzioni che 

meglio risolvono il problema: gli individui con le qualità più adatte all’ambiente 

in cui si trovano hanno quindi maggiori possibilità di sopravvivere e 

riprodursi. Queste soluzioni subiranno una nuova fase di evoluzione e così 

via. Questa classe di algoritmi viene utilizzata in vari campi; per esempio, 

in biologia molecolare è utilizzato per predire l’adattamento di un genoma 

all’ambiente, riconducendosi quindi all’evoluzione della specie introdotta da 

Charles Darwin. 

1.6.3 Docking attraverso simulazione 

Al contrario dei metodi appena menzionati, esistono algoritmi che affrontano 

il problema attraverso tecniche di simulazione. Questi algoritmi partono 

da una conformazione iniziale per poi passare ad altre ad energia minore, 

attraverso piccoli movimenti effettuati alla struttura e scartando quelle più 

instabili. Alcuni algoritmi facenti parte di questa categoria sono Simulazioni 

di Dinamica Molecolare, algoritmi di Monte-Carlo, Metodi ibridi ottenuti 

combinando due o più algoritmi.


1.6.4 Panorama del mercato attuale 

La scelta di un pacchetto di Docking è una operazione tutt’altro che semplice; 

prima di procedere all’acquisto, le case farmaceutiche eseguono particolari 

test su uno spettro molto ampio di complessi. Nel 2006 è stato condotto 

uno studio dalla GlaxosmithKline [7] volto a fare una indagine sullo stato 

attuale delle tecniche computazionali per il drug design ed in particolare 

sul docking e sulle funzioni di scoring. Da pochi anni a questa parte, sono 

stati pubblicati un numero sempre crescente di valutazioni su pacchetti di 

docking e funzioni di scoring, includendo recensioni sulle nuove tecniche, 

facendo confronti tra più programmi di docking e studiando le correlazioni 

tra i punteggi formulati dal docking e i punteggi calcolati dall’affinità del 

composto (quanto due molecole si legano bene). Questo, invece, differisce 

dalle solite valutazioni per due motivi: primo, si misurano le performace di 

molti pacchetti di docking su numerosi target, secondo, il set dei composti per 

ogni target è costituito da un gran numero di composti relativamente correlati 

tra loro, per cui le affinità sperimentali sono state misurate utilizzando un 

protocollo standard, sviluppato solitamente dallo stesso gruppo di ricerca. 

Sono stati presi in esame 10 differenti pacchetti; in particolare, alcuni di 

questi offrono più funzioni di scoring o algoritmi di docking per un totale di 

19 protocolli. 

Il focus della valutazione si basa su tre usi tipici di questi pacchetti: 

1. predizione delle conformazioni di piccole molecole all’interno della proteina 

target; 

2. virtual screening di banche dati volto all’identificazione di composti per 

vari target di proteine; 

3. predizione dell’affinità dei composti 

Risultati dello studio valutativo 

Per quanto riguarda la predizione delle conformazioni di piccole molecole, si 

ottengono dei buoni valori per tutti i tipi di target proteici; in particolare, per 

tutti i target (tranne uno), almeno un programma riesce a posizionare più del 

40% dei ligandi entro i 2Å rispetto la struttura cristallina 7 . Infatti, per molti 

target proteici, il 90% dei relativi ligandi potrebbe avere una orientazione 

corretta; da ciò si deduce che gli algoritmi di docking riescono ad esplorare lo 

7 Questo è un buon risultato: significa che la distanza media tra la molecola originata e 

la struttura cristallina è minore di 2Å

1.6. ALGORITMI DI DOCKING 17 

spazio conformazionale sufficientemente bene da ottenere delle buone conformazioni. 

Il problema è di natura diversa: non esiste nessun programma che 

abbia valore generale, cioè che ottenga buoni risultati per un qualsiasi target 

proteico. 

Per quanto riguarda il Virtual Screening, questo ha successo quando 

si utilizzano dei dati che simulano una tipica classe di composti farmacueutici. 

Inoltre, in assenza di informazioni a priori sulla proteina target, 

le performance dei programmi sono in contrasto rispetto ai tipi di target 

valutati.

18 CAPITOLO 1. BACKGROUND

Capitolo 2 

Scopo della Tesi 

Uno degli aspetti comuni a tutti i pacchetti di Docking esistenti è che un unico 

algoritmo racchiude due aspetti completamente differenti: posizionamento del 

ligando e calcolo dell’energia del sistema. 

Una conseguenza che deriva dall’aspetto appena menzionato è che un 

chimico-farmaceutico, in possesso di una propria funzione energetica F, nel 

momento in cui decidesse di applicarla, non avrebbe a disposizione un set 

di ligandi “neutrali”: la sua funzione infatti verrebbe applicata ad un set di 

molecole già precomputate da un’altra funzione energetica F ′ . In particolare, 

potrebbero mancare delle conformazioni che sarebbero state accettate da F 

ma rifiutate da F ′ . 

Un approccio completamente innovativo (e quindi sperimentale) potrebbe 

essere quello di separare in due parti un algoritmo di docking. L’idea è quella 

di distinguere in modo netto la generazione di tutte le possibili conformazioni 

di un ligando all’interno del sito attivo della proteina target, ignorando 

completamente l’energia del sistema, dalla valutazione energetica. 

2.1 Ligand-rotation 

A fronte di tutto quello che si è detto nel capitolo precedente, quel che vogliamo 

è un pacchetto di Docking in grado di poter restituire delle conformazioni 

valide, cioè che rispettino la geometria della chimica, senza doverci 

preoccupare dello stato energetico del complesso. 

Lo scopo primo di questa tesi è dunque quello di studiare, analizzare, 

modellare e implementare un programma de novo di Docking, ligand-rotation, 

scritto in C++, in grado di poter generare delle conformazioni valide dal 

punto di vista geometrico. 

19

20 CAPITOLO 2. SCOPO DELLA TESI 

Le tecniche alla base del funzionamento di ligand-rotation sono proprie 

della programmazione a vincoli. Nel capitolo 3 si andrà a definire formalmente 

il problema CSP associato e quindi, l’insieme delle variabili e dei vincoli; 

si mostrerà anche in che modo ligand-rotation assicura la consistenza dei 

vincoli rispetto ai movimenti del ligando. Inoltre, l’esplorazione dello spazio 

di ricerca viene eseguito efficacemente grazie ad algoritmi implementati adhoc 

per ligand-rotation, come la visita dell’albero di ricerca e l’algoritmo di 

backtracking. Abbiamo ricorso ad una progettazione e realizzazione a mano 

del motore di ricerca, in quanto, gli oggetti del nostro algoritmo (i punti nelle 

tre dimensioni) non sono trattati nativamente dai risolutori esistenti. Osserviamo 

che, seppure il tutto si basi su tecniche di programmazione a vincoli, 

ligand-rotation non implementa la propagazione dei vincoli. La causa di ciò 

è da imputarsi al tempo: avendone a disposizione poco, si è optato per una 

implementazione senza propagazione. Per ulteriori dettagli e approfondimenti 

si veda il paragrafo 6.2.2 nella quale si descrive una futura espansione di 

ligand-rotation. 

Il funzionamento si basa su un modello che prevede la proteina rigida e il 

ligando flessibile, come la maggior parte dei pacchetti di Docking presenti sul 

mercato. Una motivazione valida di quanto appena detto è che la complessità 

dell’algoritmo cresce esponenzialmente all’aumentare del numero dei gradi 

di libertà (sezione 4.5): trattare anche i possibili movimenti della proteina, 

renderebbe ligand-rotation più costoso. 

L’algoritmo centrale di tutto ligand-rotation prevede di partire da un 

potenziale candidato ligando e da una proteina con cui dovrà interagire; si 

andrà, quindi, a simulare i possibili movimenti che il ligando può compiere 

all’interno del sito attivo della proteina. L’output sarà composto da una serie 

di molecole (in formato mol2); esse potranno essere studiate dal punto di 

vista energetico, cioè valutate da una opportuna funzione di Scoring, la quale 

andrà a selezionare i ligandi che, inseriti nel contesto proteico, risulteranno 

energeticamente favorevoli. 

Evidenziamo il fatto che ligand-rotation è molto flessibile: i suoi parametri 

sono numerosi, molti dei quali definibili dall’utente. Attraverso un file di 

configurazione, l’utente è in grado di modificare il comportamento di ligandrotation 

in base alle sue esigenze e al tipo di risultato che vuole ottenere. 

Ad esempio, si può specificare il grado di qualità e precisione attraverso vari 

parametri che andranno a modificare il campionamento delle strutture dati 

utilizzate o il numero dei gradi di libertà del sistema. A seconda delle scelte 

effettuate, si andrà ad incidere notevolmente sulla complessità computazionale 

e quindi sull’efficienza del software stesso, in termini di tempo impiegato 

dal pacchetto nel restituire una serie di ligandi. 

Nei prossimi capitoli si valuteranno le prestazioni ottenute da ligand-

2.1. LIGAND-ROTATION 21 

rotation in fase di test. A partire dall’insieme dei ligandi ottenuti, la valutazione 

verterà sui seguenti aspetti: 

• complessità in tempo, in relazione al tipo di configurazione impostata 

• qualità strutturale delle molecole ottenute 

• generazione di un file di configurazione ottimale 

Nel capitolo 5 descriveremo ampiamente i test effettuati su ligand-rotation. 

2.1.1 Analisi dei requisiti 

Il primo compito dell’analisi dei requisiti è identificare tutti i requisiti del 

sistema software. Questi vengono documentati in più iterazioni con il committente, 

in modo da chiarire eventuali dubbi e stendere gradualmente una 

documentazione. In questa fase si analizzano i punti di vista dell’utente finale, 

esterno, senza occuparsi dei dettagli implementativi informatici, i quali 

rappresentato il punto di vista dell’utente interno. La difficoltà maggiore di 

questa fase è costituita dai problemi di comunicazione: lo scambio di informazioni, 

pur su argomentazioni semplici, tra analista e cliente finale, si può 

rivelare complesso. Trovare un linguaggio comune tra i due e scambiare le 

proprie idee in modo comprensibile ad entrambi è di primaria importanza. 

Ligand-rotation è un progetto software sviluppato in collaborazione con 

il Dipartimento di Chimica dell’Università di Parma. L’idea è quella di realizzare 

un pacchetto di Docking in grado di lavorare in maniera indipendente 

dall’energia del sistema ligando-proteina. In occasione di numerosi colloqui, 

abbiamo stilato i requisiti funzionali che ligand-rotation avrebbe dovuto rispettare. 

Innanzitutto, abbiamo definiti i gradi di libertà che il software deve 

implementare. In primis, la molecola si muove grazie a degli step di rotazione 

applicati ai legami di tipo semplice. In secondo luogo, ligand-rotation deve 

essere in grado di esplorare il sito attivo della proteina. 

Affinché il programma possa essere utilizzato da utenti non prettamente 

informatici, questi comunicheranno con ligand-rotation attraverso un file di 

configurazione. Si potranno specificare sia opzioni riguardati le funzionalità 

di base, come input proteina, input ligando, etc.., sia parametri riguardanti 

le prestazioni del software.

22 CAPITOLO 2. SCOPO DELLA TESI

Capitolo 3 

Formalizzazione 

In questo capitolo si esamineranno le tecniche e i principi utilizzati nell’implementazione 

di ligand-rotation, con lo scopo di conseguire gli obiettivi prefissati 

nei precedenti capitoli. Ligand-rotation inizierà la sua computazione 

considerando il ligando base, ricevuto in input. La generazione delle conformazioni 

avrà luogo effettuando sui legami tutte le rotazioni possibili, queste 

ultime ottenute con una combinazione di rotazioni indipendenti individuate 

da una visita opportuna della molecola. Si andrà, quindi, a testare ogni 

possibilità di rotazione, verificando con i vincoli se queste realizzano un ligando 

valido geometricamente. Infine, sapendo generare tutte le conformazioni, 

queste saranno posizionate in uno spazio definito dall’utente in termini di 

traslazioni e rotazioni. Questo affinché ligand-rotation possa analizzare la 

cavità del sito attivo. L’insieme di tutti questi gradi di libertà andranno a 

descrivere le diverse conformazioni ottenibili. 

Innanzitutto, nella sezione 3.1 verrà formalizzato il problema P, esplicitando 

l’insieme delle variabili e dei vincoli rappresentanti il modello del CSP 

relativo al problema P di ligand-rotation. La nozione di vincolo è intrinsecamente 

legata all’algoritmo che genera le conformazioni. Nella sezione 3.2 

verrà presentato l’algoritmo di visita dello spazio di ricerca delle combinazioni 

dove, per ogni atomo, si specificheranno l’insieme delle scelte possibili 

rappresentate dal numero di rotazioni che il legame relativo a quell’atomo 

può compiere; l’idea è quella di trovare tutte le possibili conformazioni di 

un dato ligando. L’insieme delle sue soluzioni andrà a costruire, a sua volta, 

l’insieme dei ligandi validi. Considerando le loro variabili, queste ultime dovranno 

andare a verificare, per definizione di soluzione di CSP, ogni vincolo 

definito per il problema P. 

La sola generazione di queste ultime, nel sistema di riferimento del ligando, 

è molto restrittivo nel senso che l’insieme delle soluzioni difficilmente 

ne conterrà uno posizionato abbastanza correttamente rispetto a quello 

23

24 CAPITOLO 3. FORMALIZZAZIONE 

minimizzato, scaricato dalla banca dati PDB 1 . 

Una possibile soluzione presentata nella 3.5, implementata in ligandrotation, 

consiste nel posizionamento in sequenza dei ligandi ottenuti precedentemente 

in tanti sistemi di riferimento specifici della proteina, andando 

a costruire ligandi con orientamento spaziale differente in modo tale da 

esplorare il sito attivo della proteina. 

3.1 Modello del problema a vincoli 

L’aspetto chiave di questo progetto è proprio quello di CSP, Constraint Satisfaction 

Problem. Definiamo quindi formalmente il modello utilizzato per la 

rappresentazione del problema P riguardante ligand-rotation. 

3.1.1 Variabili 

Si possono individuare due tipi di variabili che compongono il problema P: 

• variabili di tipo legame, ovvero le k rotazioni che caratterizzano uno 

specifico legame 

• variabili di tipo punto, ovvero le coordinate corrispondenti agli atomi 

del ligando e della proteina 

Le variabili di tipo legame sono associate ad ogni legame da ruotare nel 

ligando di partenza. Si procede all’identificazione delle suddette variabili per 

poi effettuare delle rotazioni successive che modificano la struttura della molecola. 

Intuitivamente, la rotazione di un legame influenza le due sottomolecole 

separate dal legame ruotato. Da ciò, si deduce che non tutti i legami potranno 

effettuare delle rotazioni, in quanto, se il legame in questione appartiene 

ad un anello, si va incontro alla rottura di quest’ultimo. Le variabili punto, 

invece, identificano tutti i possibili piazzamenti di un particolare atomo a 

seguito di rotazioni della sottomolecola a cui appartiene. 

3.1.2 Dominio delle variabili 

Il dominio di una variabile di tipo legame è un insieme di interi che identifica 

il numero di rotazioni che un legame può effettuare. Questo valore può 

variare a seconda della natura del legame chimico o delle impostazioni dettate 

dall’utente. In generale, si possono riassumere i seguenti casi: sia l un 

generico legame, 

1 Il Protein Data Bank, o PDB, è un archivio per dati di struttura in 3D di proteine e 

acidi nucleici.

3.2. VISITA DELLO SPAZIO DI RICERCA 25 

• se l compare all’interno di un ciclo aromatico, collega un atomo di 

idrogeno o è stato bloccato dall’utente, si definisce un’unica rotazione, 

ovvero l’identità 

• in tutti gli altri casi, l effettua un numero di rotazioni pari a k, definito 

dall’utente; formalmente, l’insieme R degli angoli di rotazione è: 

{ } 

2π 

R = 

k i : i ∈ {0, . . . , k − 1} 

3.1.3 Vincoli implementati 

Per meglio comprendere la natura chimica del vincolo che si vuole implementare, 

consideriamo il legame più debole esistente, legame di Van der Waals 

e immaginiamo una sfera di raggio pari alla lunghezza del legame con centro 

sull’atomo che stiamo esaminando. Affinché due atomi non entrino in collisione 

è necessario che ci sia una certa distanza tra i due, ovvero che le sfere 

identificate dai due atomi non si intersechino mai o a meno di una certa soglia 

o tolleranza. 

A partire da questa considerazione, nasce il vincolo di non sovrapposizione, 

il quale verificherà la consistenza di un movimento del ligando. Siano N, 

N P rispettivamente gli insiemi degli atomi del ligando e della proteina. Sia 

a ∈ N e sia r a il suo raggio atomico, allora ∀n ∈ (N {a}) ∪ N P 

‖a − n‖ ≥ r a + r nj ∀j = 1, . . . , |(N {a}) ∪ N P | 

dove r nj è il raggio atomico di n j . 

L’esecuzione del test di sovrapposizione richiede un tempo quadratico sul 

numero dei nodi. Osserviamo che, per motivi di efficienza, il controllo non 

verterà su tutti gli atomi appartenenti all’insieme (N{a})∪N P ; nella sezione 

4.4 descriveremo l’implementazione lineare utilizzata da ligand-rotation per 

la verifica dell’unico vincolo esistente e si descriveranno le strutture dati 

utilizzate per poter ridurre l’insieme degli atomi da verificare. 

3.2 Visita dello spazio di ricerca 

Il ligando si presta bene ad essere rappresentato da una struttura dati di 

tipo grafo non orientato. Sia L = (N, A) il grafo in questione (illustrato 

in figura 3.4) dove N rappresenta l’insieme degli atomi e A l’insieme dei 

legami chimici esistenti tra atomi; e sia P = (N P , A P ) il grafo associato alla 

proteina target. Le informazioni relative ai nodi e agli archi possono essere


ricavate facilmente dai file di estensione mol2, formato standard utilizzato 

per la rappresentazione di molecole (si faccia riferimento alla sezione 4.1.2 

per ulteriori approfondimenti). 

Grazie ad una visita sul grafo L, è possibile costruire un albero Z (figura 

3.5) definito spanning tree (albero di copertura) per L, dove l’insieme dei 

suoi nodi coincide con N mentre l’insieme degli archi R dell’albero è un 

sottoinsieme di A. L’albero Z ha lo scopo di dettare un ordine di visita degli 

atomi della molecola al generatore di conformazioni. Ciò dà la possibilità di 

effettuare il controllo di consistenza subito dopo la visita di un nodo, dato che 

i successivi non andranno a influire quello appena visitato (ciò sta a significare 

che esso sicuramente non subirà ulteriori rotazioni). Questa tecnica si traduce 

quindi, in un risparmio in termini temporali: una visita topologica permette, 

infatti, di minimizzare il numero di volte che un atomo viene ruotato. Senza 

l’ausilio dell’albero, o di una opportuna visita della molecola, e visitando i 

nodi in ordine casuale, gli atomi si stabilizzano più tardi, dopo aver fatto 

molte più rotazioni del necessario: ciò a causa della dipendenza esistente tra 

gli atomi. La verifica di consistenza si sarebbe dovuta applicare dopo aver 

piazzato tutti i nodi con un conseguente aumento dei tempi di esecuzione 

e rendendo ligand-rotation un programma inefficiente; inoltre, avrebbe reso 

vano l’utilizzo di tecniche di programmazione a vincoli. 

Grazie all’ordine stabilito dalla visita, è possibile costruire una lista D di 

atomi, la quale verrà iterata dal generatore durante la costruzione delle molecole. 

Ogni elemento della lista avrà associato il suo sottoalbero, dipendente 

dallo spanning-tree effettuato su L. Da una rotazione dell’elemento D k ne 

conseguirà una di tutto il suo sottoalbero. 

3.2.1 Albero di ricerca 

Per meglio comprendere in che modo vengono generate tutte le possibili 

conformazioni, introduciamo il concetto di albero di ricerca. Daremo una 

definizione costruttiva a livelli dell’albero di ricerca T di ligand-rotation. A 

livello 0 compare l’elemento D 0 . Al livello 1 compare D 1 in tutte le possibili 

scelte dettate dalla sua variabile di tipo legame, cioè in tutte le possibili 

rotazioni che, il legame caratterizzato dal nodo x ∈ Z corrispondente a D 1 e 

il padre y ∈ Z di x, può effettuare. 

Il numero dei nodi che compaiono a livello k è uguale alle possibili scelte 

della variabile legame dell’elemento D k moltiplicata al numero di nodi presenti 

a livello k − 1 di T . Ne segue che ogni nodo del livello k − 1 ha un 

numero di figli pari al numero di possibili scelte di D k .

3.3. GENERAZIONE DELLE CONFORMAZIONI 27 

Avremo, dunque, una corrispondenza tra gli alberi Z e T . Un nodo n ∈ T 

corrisponde ad una scelta di rotazione dell’arco di a ∈ Z, o legame chimico, 

che collega il nodo di Z corrispondente a n e suo padre. 

Nelle figure 3.1 e 3.2 sono raffigurati due esempi di albero Z e T . 

Figura 3.1: Albero Z 

Conseguentemente, un cammino radice-foglia dell’albero T corrisponde 

ad una possibile soluzione e gli atomi compaiono nello stesso ordine della 

lista D. 

3.3 Generazione delle conformazioni 

L’idea alla base della generazione delle conformazioni è quella di visitare l’albero 

di ricerca T andando ad esplorare tutti i suoi cammini, ovvero esaminare 

tutte le possibili scelte delle variabili di tipo legame di tutti gli elementi di 

D. 

Il caso base è dato dall’esplorazione del nodo D 0 ; sappiamo che, i nodi 

successivi non andranno a modificare la sua posizione in quanto radice 

dell’albero Z. Verifichiamo dunque la consistenza del vincolo su di esso: se 

non avviene violazione, si prosegue con il nodo successivo D 1 , altrimenti la 

computazione termina. 

Il passo induttivo è caratterizzato dall’esplorazione del k-esimo elemento 

della lista, D k , il quale si trova al livello k di un generico cammino dell’albero 

T . Dalle considerazioni fatte precedentemente, sappiamo che gli elementi 

dell’insieme I k = {D 1 , . . . , D k }, ruotati con un opportuno angolo delle rispettive 

variabili di tipo legame, sono stati validati e quindi, non subiranno 

modifiche; ne segue che D k , essendo il figlio di un elemento di I k già piazzato, 

non subirà ulteriori violazioni. Verifichiamo, dunque, la consistenza del


Figura 3.2: Albero T


Figura 3.3: Struttura molecolare del tamoxifene renderizzata con Molegro 

Molecular Viewer.


Figura 3.4: Grafo rappresentante la molecola in figura 3.3. I numeri all’interno 

dei nodi rappresentano l’id degli atomi mentre quelli negli archi 

rappresentano l’id dei legami chimici. Grafo costruito con Graphviz.


28 

1 

26 

1 

5 

27 

25 

5 

24 

5 

23 

5 

22 

1 

21 

1 

20 

1 

2 

5 

1 

3 

1 

5 

1 

1 

13 

4 

29 

1 

5 

5 

14 

5 

7 

1 

1 

1 

15 

6 

8 

1 

1 

16 

9 

1 

1 

1 

18 

17 

10 

1 

1 

19 

11 

1 

12 

Figura 3.5: Albero ottenuto da una visita sul grafo in figura 3.4. Sui nodi 

sono visibili gli id degli atomi mentre agli archi sono associati il numero delle 

rotazioni che ogni legame può compiere. Gli archi tratteggiati rappresentano 

quelli effettivamente presenti sul grafo, ma eliminati per evitare cicli. Albero 

costruito con Graphviz.


vincolo su D k . Proseguendo con l’elemento D k+1 , del livello k + 1 di T , si 

aprono un numero di scelte pari al numero di rotazioni assegnate alla sua 

variabile legame, la quale corrisponde all’arco dell’albero Z che collega il 

vertice x ∈ Z (identificato da D k+1 ) e suo padre y ∈ Z. In questo punto 

dell’operazione, non è necessario conoscere la scelta esplorata sul nodo D k , 

ovvero non è importante sapere quale particolare cammino stiamo seguendo; 

esploriamo, dunque, la prima scelta con conseguente verifica del vincolo. 

Se ha esito positivo, si piazza l’atomo D k+1 , aggiornando l’insieme I k , che 

diventa I k+1 = I k ∪{D k+1 } e proseguendo con D k+2 . In caso contrario, grazie 

alla procedura di backtracking, si seleziona una scelta non ancora esplorata 

per D k+1 . 

Giunti ad una foglia di T , ovvero all’elemento D n , la quale si rivela consistente 

rispetto al vincolo implementato, il nuovo insieme I n = I n−1 ∪ {D n } 

contiene tutti gli atomi consistenti, posizionati rispetto alla particolare variabile 

di legame a loro corrispondente. Le loro coordinate attuali rappresentano 

una soluzione del problema P. A questo punto, si genera un file mol2, 

rappresentante una conformazione valida della molecola. 

Si prosegue ricercando le altre soluzioni, attivando il backtracking che 

risale lungo la lista e quindi lungo l’albero di ricerca T , per analizzare le 

scelte non ancora intraprese. 

La procedura globale termina quando il backtracking arriva alla radice. 

3.4 Rotazione di un legame 

Le rotazioni dei legami rappresentano uno dei gradi di libertà di liganrotation. 

Attraverso di esse è possibile muovere strutturalmente il ligando 

e, con l’intervento della consistenza dei vincoli, si andrà a valutare geometricamente 

se il movimento è accettabile o meno. 

È doveroso precisare alcuni dettagli qui di seguito. Solitamente un ligando 

ha un numero elevato di legami; ne segue che non tutti ruoteranno. Ciò è 

dovuto al fatto che alcuni di essi vanno a formare particolari composti. Un 

esempio sono gli anelli aromatici, composti organici a struttura planare i cui 

legami non sono singoli; ciò implica che il composto è molto stabile e una 

rotazione dei suoi legami sarebbe molto improbabile. 

Inoltre, eviteremo di far ruotare i legami nei quali in una delle due estremità 

compare un idrogeno. Si tratta di una scelta implementativa fatta sostanzialmente 

per due motivi: in primis, la rotazione di un idrogeno non 

è necessaria perché questa non apporta benefici all’energia del complesso 

proteina-ligando e, in secondo luogo, la rotazione di molti legami aumenta la 

complessità in tempo di ligand-rotation (si veda la sezione 4.5).

3.4. ROTAZIONE DI UN LEGAME 33 

a 

b 

d 

c 

y 

l 

e 

x 

f 

g 

h 

Figura 3.6: Esempio di albero Z. In rosso sono evidenziati i nodi che caratterizzano 

il legame ruotante l e in blu gli elementi di B che subiranno la 

rotazione. 

Detto ciò, possiamo ora dare la definizione formale di rotazione. 

Sia L l’insieme dei legami ruotabili, ovvero l’insieme dei legami tali che: 

• non compaiano in composti aromatici; 

• gli atomi caratterizzanti il legame non sono degli idrogeni 

Poiché un legame identifica un particolare arco dell’albero Z, la sua rotazione 

andrà a modificare tutto il sottoalbero con radice proprio il figlio 

dell’arco. Sia l ∈ L un legame che ammette rotazione, x, y rispettivamente 

il padre e il figlio del corrispondente arco di A e sia B l’insieme dei nodi 

del sottoalbero radicato in y (figura 3.6). L’obiettivo è quello di ruotare ogni 

nodo di B. Ad esempio, data la rotazione del legame l di figura 3.6, l’insieme 

B è composto dagli elementi {f, g, h}. 

Siano X, Y i punti dello spazio associati ai nodi x, y. Sia inoltre S Y 

l’insieme dei punti dello spazio associati all’insieme dei nodi B. Sia P ∈ S Y 

generico e sia t la retta passante per i punti X e Y che identifica l’asse di 

rotazione. 

Si definisce rotazione di Φ gradi su t la rotazione effettuata su tutti gli 

atomi appartenenti a S Y .


Figura 3.7: Formula della Rotazione descritta in [8] 

Operativamente, la rotazione viene effettuata nel seguente modo: sia P ∈ 

S Y come mostrato in figura 3.7 e sia s la retta passante per N ed O. Calcolo 

il versore ˆn attraverso la formula: 

ˆn = 

N − O 

‖N − O‖ 

Applicando ora la formula 3.2 al punto P , otterremo la retta r ′ e quindi il 

punto Q. Procedendo con questo algoritmo per tutti i punti di S Y otterremo 

la rotazione lungo s di angolo Φ di tutto il sottoalbero. 

r ′ = −−→ ON + −−→ NV + −→ V Q (3.1) 

= r cos Φ + ˆn(ˆn · r)(1 − cos Φ) + (r × ˆn) sin Φ (3.2) 

3.5 Esplorazione del sito attivo della proteina 

La generazione delle combinazioni del ligando (presentata nella sezione 3.3) 

non è sufficiente per i nostri scopi. Essa ha luogo sul sistema di riferimento del 

ligando, ignorando completamente la struttura della proteina. In altre parole, 

le semplici rotazioni lungo i legami del ligando non bastano, ma sono necessari 

altri gradi di libertà che permettano a ligand-rotation di poter esplorare la 

cavità della proteina. 

L’idea implementata in ligand-rotation consiste nella generazione di una 

serie di basi ortonormali che andranno a campionare i tre gradi di libertà e, 

per ognuno di essi, si andrà a testare diverse origini sul quale posizionare l’atomo 

D 0 . L’applicazione di queste basi al nostro ligando di partenza su tutte

3.5. ESPLORAZIONE DEL SITO ATTIVO DELLA PROTEINA 35 

le origini definite dall’utente daranno luogo a una serie di ligandi, chiamati 

ligandi base, dall’orientamento spaziale molto vario. Avviando la ricerca delle 

conformazioni su ognuno di questi ligandi, ligand-rotation sarà in grado di 

ottenere risultati molto soddisfacenti. 

Definiamo ora formalmente questi concetti. 

3.5.1 Construzione delle basi ortonormali 

Consideriamo l’insieme H ⊂ R 3 che identifica n punti su una sfera di raggio 

unitario e su ognuno di essi costruiamo un sistema di riferimento. Effettuando 

k rotazioni di 2π/k lungo l’asse individuato dal versore uscente da ogni punto 

di H si andranno a generare k sistemi di riferimento su ogni punto, con un 

totale di n · k. 

Sia c il versore uscente da un generico punto h ∈ H e sia B = (0, 0, 1) un 

versore della base canonica di R 3 . Chiamiamo a e b rispettivamente i versori 

ottenuti dal prodotto vettoriale tra c e B e tra c e a, ovvero: 

a = c × B 

b = c × a 

(3.3) 

Nel caso in cui c sia proprio il versore B, i versori a e b avranno componenti 

rispettivamente (1, 0, 0) e (0, 1, 0). 

I versori a, b e c identificano il sistema di riferimento ortogonale R con 

origine nel punto h. Eseguendo k step di rotazioni lungo l’asse c, ognuna di 

2π/k, otteniamo i k sistemi di riferimento. 

Eseguendo questo procedimento per ogni punto della sfera otteniamo m = 

n · k sistemi di riferimento R 1 , . . . , R m . 

3.5.2 Generazione ligandi base 

Avendo ora a disposizione m sistemi di riferimento, andiamo ad applicare 

questi ultimi al ligando iniziale, ottenendo appunto m ligandi base. 

Per ogni sistema di riferimento R i con i = 1, . . . , m, definiamo le matrici 

M i ∈ R 3 in modo tale che la prima riga corrisponda al versore a di R i , la 

seconda e la terza riga rispettivamente b e c di R i . 

⎡ ⎤ ⎡ 

⎤ 

a i a x i a y i a z i 

M i = ⎣b i 

⎦ = ⎣b x i b y i b z i ⎦ (3.4) 

c i c x i c y i c z i 

Chiamiamo queste matrici M i , al variare di i tra 1 e m, matrice associata 

alla base ortonormale per R i .


Il passo successivo consiste nell’applicazione del ligando su ogni sistema 

di riferimento, con lo scopo di ottenerne un insieme da usare come input per 

ligand-rotation. Questo processo può essere descritto grazie alle matrici delle 

basi ortonormali definite poco sopra dalla formula 3.4. 

Sia L così definito 

L = {q j : j = 1, . . . t} 

l’insieme dei punti di R 3 , con |L| = t, tale che q j rappresenta la posizione 

nello spazio del j-esimo atomo del ligando di partenza. Quel che vogliamo 

ottenere è un insieme di ligandi L R 1 

, . . . , L Rm tali che: 

{ 

} 

L R i 

= p (i) 

j : j = 1, . . . , t i = 0, . . . , m 

con 

⎡ 

⎢ 

⎣ 

p (i) 

x (i) p j 

y (i) p j 

z (i) p j 

j = M i · q j j = 1, . . . , t 

⎤ 

⎡ 

⎤ ⎡ ⎤ 

a x i b x i c x i x qj 

⎥ 

⎦ = ⎣a y i b y i c y i⎦ 

⎣y qj 

⎦ 

a z i b z i c z i z qj 

j = 1, . . . , t 

i = 1, . . . , m 

dove le M i rappresentano le matrici definite nella formula 3.4. 

(3.5) 

3.5.3 Campionamento di S 

L’ultimo passo che resta da fare prima di far parire l’algoritmo vero e proprio 

è quello di traslare ogni ligando L R i 

su ogni punto di S in modo che D 0 

2 

coincida con l’origine dei sistemi di riferimento; in questo modo partiranno 

|S| · m istanze dell’algoritmo generatore di tutte le combinazioni valide. 

L’insieme S è costruito dai dati forniti dall’utente: due punti e un passo 

l. Si costruisce un cubo a partire dalle 2 coordinate e lo si partiziona in tanti 

cubetti tali che il loro lato sia uguale a l e che il lato del cubo sia divisibile 

per l. L’insieme di tutti gli spigoli dei cubetti è proprio S. 

Ligand-rotation non è un software statico, bensì dinamico e completamente 

configurabile dall’utente. Per quanto riguarda la costruzione dell’insieme 

S, si dovranno specificare gli estremi dello spazio in cui si vuole che abbia 

inizio la costruzione del ligando e il passo di campionamento di questi punti; 

mentre, per quel che riguarda i sistemi di riferimento, le costanti k e n sono 

personalizzabili. 

2 D è l’elenco degli atomi del ligando; sono in ordine secondo la visita effettuata su G. 

Si faccia riferimento alla sezione 3.2

Capitolo 4 

Dettagli implementativi 

In questo capitolo verranno descritti gli algoritmi implementati e le strutture 

dati utilizzate in ligand-rotation. In particolare si mostrerà (nella sezione 

4.1) come, a partire da un file di configurazione, si caricheranno tutte 

le informazioni relative al ligando ed alla proteina. Non soltanto, andremo 

anche a specificare tutte le opzioni disponibili per permettere una buona 

personalizzazione. 

In aggiunta, andremo a definire (nella sezione 4.2) delle strutture dati che 

permetteranno a ligand-rotation un incremento delle prestazioni, per quanto 

riguarda la verifica della consistenza del vincolo (sezione 4.4). Questo è 

un aspetto molto importante, che ci permette di notare che la procedura 

che verifica i vincoli viene chiamata dopo ogni movimento del ligando (ossia 

parecchie volte) e non è accettabile una inefficienza a questo riguardo. 

Andremo ad esaminare nei dettagli (nella sezione 4.3) l’algoritmo principale 

del pacchetto. Descriveremo come le varie tecniche presentate fino ad 

ora interagiscono tra loro a partire dall’esplorazione del sito attivo fino alla 

generazione di una conformazione consistente. 

Come ultimo argomento (nella sezione 4.5) daremo alcuni accenni circa 

la complessità di ligand-rotation, in termini di tempo e di spazio occupato. 

4.1 Inizializzazione di ligand-rotation 

In questa sezione verranno descritte le fasi iniziali in cui ligand-rotation viene 

configurato, a partire dal file di input di configurazione, e inizializzate le sue 

strutture dati. 

37

38 CAPITOLO 4. DETTAGLI IMPLEMENTATIVI 

4.1.1 Acquisizione informazioni di configurazione 

L’unico modo che ha un utente di comunicare con ligand-rotation è attraverso 

il file di configurazione; configurazione, in cui è possibile specificare tutti i 

parametri, sia funzionali che qualitativi, utilizzati dall’algoritmo di docking: 

• ligando: specificare file mol2 1 contenente le coordinate del candidato 

ligando 

• proteina: file mol2 contenente le posizioni degli atomi della proteina 

target 

• step rotazioni: specifica il numero di rotazioni che un legame ruotante 

compie 

• legami bloccati: specifica, in sequenza, l’id 2 dei legami che non devono 

ruotare 

• coordinate sito attivo: specifica gli estremi dell’area in cui si trova il 

sito attivo della proteina 

• passo area di lavoro: indica il passo con cui l’area del sito attivo verrà 

partizionata 

• set punti iniziali: specifica gli estremi dell’area in cui si piazzerà il primo 

atomo del ligando 

• passo punti iniziali: passo di partizionamento dell’area contenente i 

punti iniziali 

• punti sfera: numero dei punti sulla sfera di raggio unitario nei quali si 

genereranno le basi ortonormali 

• rotazioni su Z: step di rotazioni delle basi ortonormali sull’asse Z 

Una volta in possesso di questi parametri, si andrà a generare prima di 

tutto il grafo rappresentante il ligando, L = (N, A) e, in un secondo momento, 

l’albero T , grazie ad una visita V su L. 

1 mol2 rappresenta un formato standard di rappresentazione delle molecole. 

Approfondiremo l’argomento nella sezione 4.1.2 

2 L’Id corrisponde a quello specificato nel file mol2

4.1. INIZIALIZZAZIONE DI LIGAND-ROTATION 39 

Implementazione 

La realizzazione dei nodi e degli archi è stata resa possibile grazie all’ausilio 

delle classi Nodo e Arco (nelle figure 4.1 e 4.2 viene presentata una possibile 

implementazione delle due strutture). Il grafo che rappresenta la molecola è 

stato implementato con delle liste di adiacenza (codice 4.3), con particolare 

riguardo all’efficienza, visti i numerosi accessi in lettura. 

✞ 

✡✝ 

Codice 4.1: Struttura della classe Nodo 

class Nodo { 

public : 

// . . . 

private : 

int id atomo ; 

s t r i n g nome atomo ; 

MyReal x ; 

MyReal y ; 

MyReal z ; 

s t r i n g tipo atomo ; 

MyReal r a g g i o a t o m ico ; 

} ; 

✆ 

✞ 

✡✝ 

Codice 4.2: Struttura della classe Arco 

class Arco { 

public : 

// . . . 

private : 

int id legame ; 

int atomo1 ; 

int atomo2 ; 

s t r i n g tipo legame ; 

int r o t a z i o n i l e g a m e ; 

} ; 

✆ 

Per motivi di efficienza, l’implementazione del grafo è stata realizzata per 

mezzo di una matrice di vettori della libreria standard del C++. Nella prima 

colonna sono stati disposti tutti gli id dei nodi, mentre, su ogni riga, una 

lista degli id corrispondenti agli archi caratterizzanti il nodo stesso.


✞ 

Codice 4.3: Struttura della classe Grafo 

class Grafo { 

public : 

// . . . 

private : 

std : : vector legami ; 

std : : vector atomi ; 

std : : vector < std : : vector > molecola ; 

✡✝ 

} ; 

// . . . 

✆ 

Il passo successivo consiste nell’impostare, negli oggetti di tipo Arco, le 

rotazioni possibili per ogni legame attraverso il metodo imposta legami(), 

specificate nel file mol2 con la seguente sintassi: 

• ar: legame facente parte di un composto aromatico 

• 1: legame singolo o semplice 

• 2: legame doppio 

Qui di seguito lo pseudocodice della procedura: 

✞ Codice 4.4: Pseudocodice del metodo imposta rotazioni() 

for arco in a r c h i m o l e c o l a ( ) 

i f arco . tipo legame i s ‘ ‘ ar ’ ’ 

arco . r o t a z i o n i l e g a m e = 1 

else i f arco . tipo legame i s not ‘ ‘1 ’ ’ 


else i f arco . c o n t a i n s (H) 


else 

arco . r o t a z i o n i l e g a m e = k 

✡✝ 

✆ 

4.1.2 Struttura file mol2 

Il file mol2 è uno dei sistemi per poter rappresentare la struttura di una 

molecola attraverso file. Qui di seguito un esempio di file mol2:

4.2. STRUTTURE DATI DEL RISOLUTORE 41 

@MOLECULE 

4OHT 

29 31 1 0 0 

SMALL 

USER_CHARGES 

@ATOM 

1 C1 31.1300 -1.5780 24.9020 C.ar 1 LIG600 0.00 

2 O1 25.1930 -1.6480 26.9150 O.3 1 LIG600 0.00 

3 C2 31.5550 -1.7460 26.2270 C.ar 1 LIG600 0.00 

4 O2 33.4760 -3.6110 23.0430 O.3 1 LIG600 0.00 

5 N1 34.3180 -4.9410 20.4290 N.3 1 LIG600 1.00 

@BOND 

1 1 2 ar 

2 2 3 1 

3 3 4 1 

4 4 5 2 

@SUBSTRUCTURE 

1 LIG600 1 GROUP 1 LIG 1 

Nella sezione MOLECULE vengono riassunte le informazioni principali 

della molecola, come il suo nome, il numero degli atomi e dei legami chimici. 

Le sessioni ATOM e BOND sono le più importanti per i nostri scopi. Nella 

prima, infatti, vengono elencati tutti gli atomi della molecola, identificati da 

un Id, con le loro posizioni nello spazio e il tipo di ibridizzazione assunta. Per 

esempio, l’atomo indentificato dall’Id 2 è un ossigeno con coordinate x, y, z 

rispettivamente (25.1930, −1.6480, 26.9150), caratterizzato da una ibridizzazione 

sp 3 . Nella seconda, si elencano i legami chimici esistenti tra atomi, in 

cui la prima colonna contiene l’id del legame, la seconda e la terza, rispettivamente 

gli Id degli atomi coinvolti e la quarta il tipo di legame (ar per 

legame facente parte di un composto aromatico, 1 legame singolo, etc..). 

Per ulteriori approfondimenti si rimanda al sito web 

http://tripos.com/data/support/mol2.pdf 

4.2 Strutture dati del risolutore 

Qui di seguito verranno illustrate alcune strutture dati utilizzate dal risolutore 

dei vincoli di ligand-rotation.


4.2.1 Matrice di Vicinanza 

La matrice di vicinanza, indicata con M ∈ {0, 1} n×n , n = |N| con N l’insieme 

degli atomi del ligando, è una matrice quadrata di ordine n, booleana, dove 

gli indici di riga e di colonna corrispondono agli id degli atomi. Lo scopo 

di M è quello di specificare gli atomi adiacenti per ogni atomo del ligando. 

Nel momento in cui si posizionerà un atomo a ∈ V e si andrà a verificare la 

consistenza del vincolo di distanza su di esso, si eviterà di calcolare la distanza 

euclidea tra a e i suoi adiacenti. Questo perché, essendo i vicini una catena 

di atomi legati tra loro covalentemente, non vale più il concetto di sfera di 

Van der Waals. La lunghezza del legame covalente è inferiore rispetto alla 

lunghezza di un legame di Van der Waals e, evitando questo controllo, si 

otterrebbero dei ‘falsi positivi’. 

Formalizziamo il concetto di adiacenza: 

Definizione 4.1. Un atomo x ∈ N è adiacente ad un altro atomo y ∈ N se 

e solo se il cammino tra x e y ha lunghezza massima 3, ovvero il cammino 

non deve essere composto da più di tre legami. 

Avremo quindi, per ogni atomo del ligando una serie di atomi adicenti. 

Indichiamo questo fatto con la seguente notazione: per ogni atomo a ∈ N 

adj(a) = {v ∈ N : M(a, v) = M(v, a) = M(a, a) = true} 

La costruzione di M viene effettuata grazie a n visite in ampiezza sul 

grafo L del ligando, dove |N| = |n|, specificando su ogni computazione il 

livello di profondità, cioè 3. 

4.2.2 Discretizzazione di un sottoinsieme limitato di 

R 3 

Consideriamo una porzione cubica di spazio, V, identificato da due punti 

(due vertici del cubo) corrispondenti rispettivamente alle coordinate minime 

e massime delle tre dimensioni: lunghezza, larghezza e profondità. Siano Min 

e Max tali punti e sia p il lato del cubo. 

Consideriamo una sua discretizzazione: dividiamo V in tante celle cubiche 

C di uguale dimensione, caratterizzate anch’esse da un minimo, Min C , un 

massimo, Max C , e un passo l ≤ p tale che p sia divisibile per l. Sia C l’insieme 

di tutte le celle di V; ogni cella rappresenta anch’essa un sottoinsieme limitato 

di R 3 . 

Ogni cella potrà memorizzare al suo interno un insieme di atomi. Dato un 

atomo a, esso stazionerà all’interno di una particolare cella C a se le coordinate 

di a appartengono all’insieme dei punti di R 3 , individuati da C a .


Definizione 4.2. [Appartenenza] 

Siano (x a , y a , z a ) le coordinate di a e sia P Ca l’insieme dei punti di R 3 appartenenti 

alla cella C a : 

P Ca = { } 

(x, y, z) ∈ R 3 : Min x ≤ x < Max x ∧ Min y ≤ y < Max y ∧ Min z ≤ z < Min z 

dove (Min x , Min y , Min z ) = Min C e (Max x , Max y , Max z ) = Max C . Allora: 

a ∈ C a 

⇐⇒ (x a , y a , z a ) ∈ P Ca 

Figura 4.1: Quattro celle cubiche con all’interno alcuni atomi. 

L’insieme V appena introdotto avrà un ruolo fondamentale nel risolutore 

di vincoli da noi implementato. Le celle rappresentano la struttura base a 

cui si accederà per la verifica della consistenza del vincolo di non sovrapposizione. 

Durante l’esecuzione dell’algoritmo di ligand-rotation, quando siamo 

sicuri che un atomo, supponiamo D k , non verrà può ruotato 3 , è necessario 

verificare la consistenza su di esso. Per far ciò, ci cerca di inserirlo all’interno 

di una cella; se nelle sue vicinanze ci sono altri atomi, l’inserimento fallisce, 

altrimenti ha successo. Viceversa, nel momento in cui si fa backtracking su 

D k , l’operazione da eseguire è quella inversa: eliminare l’atomo D k dalla cella 

in cui si trova, in quanto si sta cercando una nuova configurazione e quindi subirà 

una potenziale rotazione. In questo modo, la struttura dati conterrà solo 

atomi consistenti e la verifica dei vicini sarà effettuata molto efficientemente 

grazie ai metodi implementati su di essa. 

3 Nella sezione 4.3.2 descriveremo nei dettagli il momento esatto in cui si verifica la 

consistenza.


Identificazione delle celle 

Supponendo di dover inserire un atomo a all’interno di una cella, la sua 

identificazione si ottiene ricavando tre indici, univoci per ogni cella, (X, Y, Z), 

a partire dalle coordinate (x, y, z) di a: 

X = ⌊ x − Min x 

⌋ 

l 

Implementazione 

Y = ⌊ y − Min y 

⌋ 

l 

Z = ⌊ z − Min z 

⌋ 

l 

Una simile struttura dati può essere facilmente implementata con dei vector 

della libreria standard del C++. 

✞ 

Codice 4.5: Implementazione di V 

std : : vector < std : : vector < std : : vector > > 

✡✝ 

✆ 

Al contrario, una cella è stata implementata per mezzo di una classe, 

affinché possa memorizzare al suo interno l’insieme degli atomi. 

✞ 

✡✝ 

Codice 4.6: Implementazione di una cella 

class C e l l a { 

private : 

std : : vector atomi ; 

public : 

. . . 

} ; 

✆ 

Insieme delle operazioni 

L’insieme delle operazioni ammesse per la struttura V e per la Cella sono 

elencate qui di seguito con il relativo pseudocodice. 

• dato un atomo, identificazione della sua cella (codice 4.7) 

• inserimento di un atomo in una cella (codice 4.8) 

• eliminazione di un atomo da una cella (codice 4.9)


✞ 

✡✝ 

Codice 4.7: Pseudocodice per l’identificazione di una cella 

V : : i d e n t i f i c a c e l l a ( atomo ) { 

// . . . 

i d c e l l a [ 0 ] = ( atomo . x − Min . x )/p ; 

i d c e l l a [ 1 ] = ( atomo . y − Min . y )/p ; 

i d c e l l a [ 2 ] = ( atomo . z − Min . z )/p ; 

return i d c e l l a ; 

} 

✆ 

✞ 

✡✝ 

Codice 4.8: Pseudocodice per l’inserimento di un atomo in una cella 

V : : i n s e r i s c i ( atomo ) { 

// . . . 

i d c e l l a = V : : i d e n t i f i c a c e l l a ( atomo ) ; 

i f ( i d c e l l a != NULL) 

C e l l a : : i n s e r i s c i ( i d c e l l a , atomo ) ; 

} 

C e l l a : : i n s e r i s c i ( i d c e l l a , atomo ) { 

// . . . 

cubo . at ( i d c e l l a ) . push back ( atomo ) ; 

} 

✆ 

Osserviamo che, durante l’identificazione della cella, nel caso in cui le 

coordinate dell’atomo non appartengano alla porzione di spazio V riene restituito 

il valore NULL. 

4.2.3 Celle contenenti atomi ‘vicini’ 

Lo scopo di questo paragrafo è illustrare in che modo vengono recuperate 

le celle contenenti gli atomi definiti ‘vicini’, ovvero quelli che subiranno il 

controllo della distanza euclidea con l’atomo da inserire da parte del risolutore 

di vincoli. Definiamo prima di tutto il concetto di atomo vicino e l’insieme 

formato da questi ultimi. 

Definizione 4.3. Sia a ∈ C un generico atomo appartente ad una cella, 

anch’essa generica. L’insieme G è composto dall’insieme degli atomi appartenenti 

ad una qualche cella di V tali che la loro distanza euclidea da a sia 

inferiore o uguale alla somma del raggio atomico di a e del raggio atomico 

massimale degli atomi del ligando.


✞ 

✡✝ 

Codice 4.9: Pseudocodice per l’eliminazione di un atomo da una cella 

V : : e l i m i n a ( atomo ) { 

// . . . 

i d c e l l a = V : : i d e n t i f i c a c e l l a ( atomo ) ; 

C e l l a : : e l i m i n a ( i d c e l l a , atomo ) ; 

} 

C e l l a : : i n s e r i s c i ( i d c e l l a , atomo ) { 

// . . . 

cubo . at ( i d c e l l a ) . pop back ( atomo ) ; 

} 

✆ 

Costruire l’insieme G non è affatto semplice, in quanto occorre esplorare 

tutta la porzione di spazio che comprende l’atomo da inserire. L’approccio 

utilizzato da ligand-rotation consiste nell’individuazione di tutte le celle che 

potenzialmente potrebbero contenere atomi vicini. Sia R il raggio massimo 

degli atomi componenti il complesso ligando-proteina, sia r il raggio dell’atomo 

da inserire e c la cella in cui inserirlo. Da queste due informazioni ci 

costruiamo il range delle celle da controllare, dato da: 

range = ⌊ R + r ⌋ + 1 

l 

L’insieme delle celle K i cui indici rispetto c spaziano della quantità range 

sono proprio quelle che il risolutore andrà ad esaminare per la verifica del 

vincolo di vicinanza. 

4.3 Algoritmo di ligand-rotation 

In questa sezione verrà presentato nei dettagli il cuore dell’algoritmo di docking. 

Si parlerà di consistenza in riferimento all’unico vincolo implementato 

su ligand-rotation, ovvero quello di non sovrapposizione. La prima operazione 

effettuata su V è quella relativa al piazzamento degli atomi della proteina. 

Questi, infatti, vengono inseriti immediatamente per il semplice motivo che 

la proteina è un corpo statico e quindi gli atomi non verranno mai spostati 

di posizione. Notiamo che l’inserimento avviene senza il controllo della 

consistenza.

4.3. ALGORITMO DI LIGAND-ROTATION 47 

4.3.1 Parte I: inizializzazione 

Come descritto formalmente nella sezione 3.5, questa fase si occupa della 

generazione degli m sistemi di riferimento su cui applicare il ligando base, 

ottenendo quindi m ligandi di partenza pronti per essere computati, ognuno 

con un orientamento differente. Di seguito lo pseudocodice: 

✞ Codice 4.10: Pseudocodice relativo alla generazione dei ligandi base 

P = p u n t i s f e r a ( k ) 

S = c a m p i o n a p u n t i i n i z i a l i ( j ) 

for p in P 

Z = a s s e z 

B = base (Z) 

X = p r o d o t t o V e t t o r i a l e (Z , B) 

Y = p r o d o t t o V e t t o r i a l e (Z , X) 

norma1 (X) 

norma1 (Y) 

T = numeroRotazioniZ ( ) 

for t in T 

ruota su Z ( angolo ) 

t r a s l o m o l e c o l a (O(X, Y, Z ) ) 

r u o t a m o l e c o l a (X, Y, Z) 

for s in S 

t r a s l o m o l e c o l a ( s ) 

g e n e r a c o n f o r m a z i o n i ( ) 

angolo += step 

✡✝ 

✆ 

La funzione punti sfera(k) genera k punti disposti uniformemente su una 

sfera di raggio unitario e, su ognuno di questi, si costruirà un sistema di 

riferimento (come spiegato formalmente nella sezione 3.5.1). Successivamente 

lo si ruoterà di T step lungo l’asse Z, ottenendo il terzo grado di libertà. 

Sull’origine dei sistemi di riferimento appena generati, si andrà a posizionare 

l’atomo D 0 del ligando e si ruoterà la molecola in modo tale da applicarle 

la base appena generata. I ligandi che si otterrano andranno riposizionati 

su ogni punto di S, insieme di coordinate definite dall’utente e campionate 

dal metodo campiona punti iniziali(j) (con passo j) facendo, come al solito, 

coincidere l’atomo D 0 dei ligandi con i vari punti di S. In conclusione, per 

ognuno dei ligandi applicati sui sistemi di riferimento costruiti, si farà partire 

l’algoritmo che genererà tutte le strutture consistenti, attraverso la chiamata 

alla funzione genera conformazioni().


4.3.2 Parte II: generazione conformazioni 

In seguito all’esecuzione della prima parte dell’algoritmo, ora abbiamo a 

disposizione un set di ligandi L R i 

, i = 1, . . . , m da poter utilizzare come 

partenza per la generazione delle conformazioni consistenti. 

Sia fissato k ∈ {1, . . . , m} e consideriamo L R k il ligando su cui eseguire 

la computazione. 

Sia inoltre D l’elenco ordinato degli atomi di L R k ottenuto da una visita 

V sul grafo G, di cui ne abbiamo discusso nella sezione 3.3. 

Qui di seguito lo pseudocodice dell’algoritmo utilizzato in ligand-rotation: 

✞ 

g e n e r a c o n f o r m a z i o n i ( i ) 

i f D[ i ] i s root 

i f v e r i f i c a v i n c o l o (D[ i ] ) 

i++ 


backtracking ( i ) 

i−− 


else 

termina computazione ( ) 

else 

s a l v a s o t t o a l b e r o (D[ i ] ) 

a n g o l o r o t a z i o n e = 0 

for r o t a z i o n e in r o t a z i o n i (D[ i ] ) 

i f v e r i f i c a v i n c o l o (D[ i ] ) 

r u o t a s o t t o a l b e r o (D[ i ] , a n g o l o r o t a z i o n e ) 

i++ 

i f not D[ i ] i s l a s t 



else 

s c r i v i c o n f o r m a z i o n e ( ) 

i−− 

r i p r i s t i n a s o t t o a l b e r o (D[ i ] ) 

a n g o l o r o t a z i o n e += step 

else : 

a n g o l o r o t a z i o n e += step 

r i p r i s t i n a s o t t o a l b e r o (D[ i ] ) 

r u o t a s o t t o a l b e r o (D[ i ] , a n g o l o r o t a z i o n e ) 

✡✝ 

✆

4.3. ALGORITMO DI LIGAND-ROTATION 49 

Il primo passo dell’algoritmo sarà quello di testare, sull’atomo radice, cioè 

D 0 , il vincolo di consistenza attraverso verifica vincolo(D 0 ). Nel caso di fallimento 

la computazione fallirà immediatamente e si procederà con un nuovo 

ligando L Rh con h ≠ k; altrimenti, si memorizzerà la posizione dell’atomo D 0 

sulla sua cella corrispondente, (cf. paragrafo 4.2.2) e si procederà con l’atomo 

successivo D 1 con la chiamata ricorsiva genera conformazioni(1). 

Supponiamo ora di essere arrivati ad una situazione di questo tipo: abbiamo 

appena verificato e convalidato il vincolo sull’atomo D i−1 e ruotato il sottoalbero 

con radice il nodo corrispondente a D i−1 . Gli atomi attualmente presenti 

in V, oltre quelli appartenenti alla proteina, sono I = {D 0 , . . . , D i−1 }. 

Siamo in procinto di avviare la computazione per l’atomo D i con la chiamata 

ricorsiva genera conformazioni(i). 

Una volta chiamata, la procedura salva sottoalbero(D i ) salva la posizione 

di tutti gli atomi del sottoalbero con radice l’atomo corrispondente a D i 

(approfondiremo il perché di questa scelta nel paragrafo 4.3.2). Tra le possibili 

scelte di rotazione su D i , si prende la prima e si verifica, quindi, il vincolo di 

consistenza su D i . 

Osserviamo come la verifica di consistenza viene effettuata sull’unico atomo 

D i . In questo istante, si è certi che D i non subirà ulteriori rotazioni e se 

valido, lo rimarrà fino a quando non verrà rimosso dalla struttura dati di cui 

si serve il risolutore, tramite la procedura di backtracking. Inoltre, essendo 

gli atomi dell’insieme I già validati e quindi presenti all’interno delle celle di 

V si è certi che questi sono rimasti consistenti all’avanzare dell’algoritmo. 

Nel caso di consistenza di D i , si procede alla rotazione del suo sottoalbero 

(come spiegato nella sezione 3.4). Fatto ciò, si passa al nodo successivo e, 

se non è l’ultimo, si richiama ricorsivamente la procedura proprio su D i+1 ; 

in caso contrario, avendo superato con successo tutti i vincoli su tutti gli 

atomi, siamo arrivati alla fine della molecola. Creiamo, quindi, il file mol2 del 

ligando appena generato. Nel caso in cui il vincolo di consistenza sull’atomo 

D i fallisce, si procede ad effettuare il backtracking per portarci all’atomo 

precedente, si ripristina la situazione precedente alla rotazione e quindi, si 

termina la computazione del nodo D i con la sua successiva eliminazione dalla 

struttura dati del risolutore attraverso la procedura backtracking(i). Se D i−1 

può effettuare ulteriori rotazioni, si prosegue per questa scelta, altrimenti 

termina l’esplorazione del sottoalbero con radice D i−1 . 

Nel momento in cui si esplorano tutte le scelte dei nodi, l’ultima operazione 

da fare è eliminare l’atomo radice dalla sua cella e procedere con un 

nuovo ligando base.


Ripristino situazione precedenete alla rotazione 

L’aspetto chiave della seconda fase dell’algoritmo è senza dubbio la visita 

dell’albero di ricerca. Qui vengono intraprese tutte le scelte possibili dei nodi 

e, di conseguenza, le rotazioni effettuate sul ligando base sono numerose; 

l’effetto negativo è la presenza di errori numerici. Infatti, sapendo di avere 

a che fare con una mole di calcoli su R, dobbiamo preoccuparci dell’aritmetica 

macchina e quindi del risultante accumulo di errore nelle operazioni di 

rotazione. 

Si può ricorrere a due tipi di soluzione: 

• rotazione inversa 

• memorizzazione informazioni prima della rotazione 

Nel caso della rotazione inversa, prima di intraprendere le diverse scelte 

di rotazione di un nodo, si effettua una rotazione inversa per portarci al caso 

base, quindi ruotare nuovamente per proseguire lungo una scelta. Lo svantaggio 

di questa tecnica è che, seppur limitatamente, andiamo incontro ad 

accumulo di errore: la rotazione inversa non è la funzione inversa della rotazione. 

Per cui, l’applicazione di essa non ci porterà alla situazione iniziale, 

bensì ad una simile che si riperquoterà sulle rotazioni di tutto il suo sottoalbero. 

Nella seconda soluzione, implementata su ligand-rotation, il ripristino si 

basa su una apposita struttura dati. Prima della rotazione di un sottoalbero, 

cioè prima di effettuare una scelta sul livello k, si salva la situazione corrente 

dei nodi, ovvero le loro coordinate spaziali, per poi venire ripristinata quando 

la procedura del backtracking ci riporta al livello k per percorrere un’altra 

scelta. Al contrario della prima soluzione, l’unico errore numerico commesso 

è nel calcolo della singola rotazione il quale, non si riperquoterà né sulle rotazioni 

successive dello stesso nodo né sulle rotazioni dei nodi del sottoalbero. 

L’unico svantaggio è nell’occupazione di memoria: per ogni livello e per ogni 

scelta si dovrà memorizzare la situazione del sottoalbero. Comunque, avendo 

a che fare con ligandi composti da poche decine di atomi, al massimo un 

centinaio, le informazioni da salvare sono contenute. 

4.4 Consistenza del vincolo 

La definizione di consistenza del vincolo data in precedenza, seppure esatta, 

è estremamente inefficiente. Infatti, è inutile effettuare il controllo di sovrapposizione 

su atomi distanti o addiritura su atomi non ancora piazzati. Ciò 

che formalizzeremo ora è l’algoritmo implementato da ligand-rotation per la 

verifica della consistenza, grazie alle strutture dati definite nella sezione 4.2.

4.5. ACCENNI DI COMPLESSITÀ 51 

4.4.1 Verifica dei vincoli 

Il controllo dei vincoli durante l’esecuzione dell’algoritmo di ligand-rotation 

funziona in questo modo: una volta effettuata la rotazione di un atomo e del 

relativo sottoalbero, si inserisce il primo atomo all’interno di una cella. Sia 

a l’atomo da inserire con coordinate spaziali (x a , y a , z a ) ∈ R e di raggio r. 

L’insieme C degli atomi da verificare è definito come: 

dove: 

C = G adj(a) 

• G è l’insieme degli atomi vicini, (cf. definizione 4.3) 

• adj(a) è l’insieme degli atomi adiacenti, (cf. definizione 4.1) 

Il vincolo di non sovrapposizione viene dunque verificato per ogni z ∈ C: 

S(a, z) = 

{ 

true, se ‖a − z‖ ≥ raggio(a) + raggio(z) 

false, 

altrimenti 

✞ 

✡✝ 

Qui di seguito lo pseudocodice implementato in ligand-rotazion. 

v e r i f i c a v i n c o l o ( a , Celle , Adiacenti ) 

i f a not in V 

return f a l s e 

for c e l l a in C e l l e 

for atomo in atomi . c e l l a 

i f atomo i s not in a d i a c e n t i 

i f d ( a , atomo ) < a . r a g g i o + atomo . r a g g i o 

return f a l s e 

else 

return true 

✆ 

4.5 Accenni di Complessità 

Il concetto di complessità computazionale è strettamente legato ai diversi 

gradi di libertà che ligand-rotation possiede. Il grado di libertà che più ‘rallenta’ 

l’algoritmo è la rotazione sul legame: avendo a disposizione k scelte per


ogni legame, si deduce abbastanza velocemente che ligand-rotation ha una 

complessità esponenziale sul numero dei legami n. In particolare, risulta: 

C T (n) = O(k n ) 

dove k rappresenta il numero degli step effettuati per ogni legame ruotabile. 

Sebbene ligand-rotation cresca esponenzialmente, le tecniche della programmazione 

a vincoli permettono di ridurre notevolmente la complessità 

operando dei tagli all’albero di ricerca. Infatti, intercettando l’inconsistenza 

di un nodo, viene eliminato tutto il sottoalbero relativo e quindi parte delle 

soluzioni totali, in modo tale da evitare la visita fino alle foglie dei percorsi 

inconsistenti. 

L’altro grado di libertà è dato dal possibile posizionamento del ligando 

nelle tre dimensioni. Esso rappresenta una semplice costante moltiplicativa 

a C T , data dal numero di sistemi di riferimento totali e dal numero di punti 

iniziali. Tuttavia, questa costante è abbastanza alta 4 e, non avendo un numero 

di legami ruotanti estremamente alto, il passo di discretizzazione può influire 

sul costo complessivo dell’algoritmo. 

4 Nel caso di 210 diversi sistemi di riferimento e 27 punti iniziali, la costante è pari a 

5670, quindi da non sottovalutare.

Capitolo 5 

Risultati 

In questo capitolo si illustreranno i risultati ottenuti da ligand-rotation. Descriveremo 

(nella sezione 5.1) il complesso preso in esame per la realizzazione 

dei test. Successivamente (nella sezione 5.2) analizzaremo in dettaglio i test 

eseguiti, mostrando il comportamento registrato da ligand-rotation al variare 

dei parametri di qualità. Presenteremo, in particolare, una configurazione 

ottimale. Infine (nella sezione 5.3) faremo dei confronti sulle possibili visite 

implementabili per generare l’albero e su come esse andranno ad incidere sul 

tempo di esecuzione. 

Come primo test di fattibilità non consideriamo una funzione energetica 

bensì confrontiamo i risultati ottenuti con il ligando minimizzato preso da 

PDB attraverso un test di tipo geometrico, calcolando il Root Mean Square 

Deviation (RMSD) definito come segue: 

Definizione 5.1. Siano L e C gli insiemi degli atomi rispettivamente del ligando 

minimizzato e di quello appena generato. Sia N = |L| = |C|; definiamo 

l’RMSD come: 

RMSD = √ 1 N 

N∑ 

‖n i − m i ‖ n i ∈ L, m i ∈ C (5.1) 

i=1 

Valori dell’RMSD pari a 0.5Å stanno a significare che la distanza quadratica 

media tra gli atomi del ligando minimizzato e quello ottenuto da 

ligand-rotation è di 0.5Å. Le distanze di legame sono circa di 1.5Å; commettere 

un errore sotto l’Ångström caratterizza le posizioni degli atomi con 

sufficiente precisione. 

53

54 CAPITOLO 5. RISULTATI 

5.1 Applicazioni possibili 

Figura 5.1: Struttura molecolare del tamoxifene 

Il complesso ligando-proteina studiato in questa tesi ha code number (relativo 

a PDB) 1XPC ; esso possiede numerosi ligandi, ma il nostro studio è 

stato rivolto principalmente all’analisi del tamoxifene. 

Sono stati effettuati i primi test di ligand-rotation con il tamoxifene 

(OHT). In figura 5.1 è illustrata la struttura del farmaco, mentre in 5.2 è 

illustrato il complesso ligando-proteina. Questo è un antitumorale appartenente 

alla famiglia dei farmaci interagenti con il recettore degli estrogeni e 

viene utilizzato nei casi di tumore mammario metastatico con buoni risultati. 

Successivamente sono stati scoperti gli ottimi benefici nella prevenzione della 

ripresa della malattia in donne già operate per tumore al seno. 

Il tamoxifene presenta una struttura molecolare relativamente semplice; 

altri possibili ligandi non sono stati presi in considerazione, in quanto la 

loro struttura presentava dei cicli pentano e cicli esano che complicavano 

pesantemente l’algoritmo (cf. sezione 6.1). Avendo svolto questo lavoro in 

tempi relativamente brevi, non si è riusciti nell’intento di gestire molecole 

con le caratteristiche sopra citate. 

5.2 Efficienza 

Considerando il fatto che ligand-rotation è ancora un programma in evoluzione 

e che necessita di notevoli estensioni per essere utilizzato in ambito 

professionale, i risultati ottenuti sono abbastanza soddisfacenti. Il nostro 

obiettivo è quello di generare conformazioni con un RMSD minore di 1Å in 

tempi ragionevoli. Come vedremo, è stato raggiunto con successo. La figura 

5.3 mostra uno tra i migliori risultati ottenuti con ligand-rotation.

5.2. EFFICIENZA 55 

Figura 5.2: Immagine del complesso esaminato ottenuta effettuando un rendering 

con Molegro Molecular Viewer: in rosso è possibile vedere la struttura 

della proteina, mentre in verde il ligando OHT


Figura 5.3: In verde è visibile il ligando ottenuto con ligand-rotation mentre 

in rosso è rappresentato il ligando minimizzato, scaricato da PDB. Il valore 

di RMSD tra le due molecole è pari a 0.799538, ottenuto con la seguente 

configurazione: 7 step di rotazioni, 210 sistemi di riferimento, passo cella di 1Å 

e punti iniziali campionati a 0.5Å. Il tempo di esecuzione di ligand-rotation, 

con questa specifica configurazione, è stato di 172 minuti.


5.2.1 Variazione parametri qualitativi 

Questa classe di test ha l’obiettivo di stabilire il grado di efficienza di ligandrotation 

al variare dei parametri di configurazione; si terrà conto del valore 

dell’RMSD migliore e del tempo impiegato nel generare tutte le conformazioni. 

Variazione degli step di rotazione 

Esaminiamo in dettaglio il comportamento registrato dal pacchetto di docking 

a variazioni degli step di rotazione. Ricordiamo che lo step di rotazione 

rappresenta il valore delle variabili di tipo legame. 

Lo scopo è quello di misurare l’efficienza e il corretto posizionamento del 

ligando al variare degli step. Fissatone uno, i test verranno condotti su configurazioni 

nelle quali varierà il numero dei sistemi di riferimento. Il numero di 

step di rotazione presi in considerazione sono {2, 3, 4, 5, 6, 7}. Come visibile 

nel grafico 5.4, l’esecuzione con un numero di step inferiore a 5, sebbene impieghi 

molto meno, in particolare non si superano i 5 minuti di calcolo, non 

produce risultati significativi sotto l’Ångström. Dal grafico si può notare il 

miglioramento delle conformazioni ottenute, in termini di RMSD, all’aumentare 

degli step di rotazione, a discapito del tempo impiegato, il quale resta 

comunque sempre ragionevole, ovvero entro le 6 ore di calcolo. 

Variazione campionamento delle basi ortonormali 

Questa classe di test è volta a misurare la reazione di ligand-rotation al variare 

dei sistemi di riferimento. Dopo averne fissato uno, i test eseguiti varieranno 

per il numero di step di rotazione. Nel grafico 5.5 sono visibili i valori ottenuti 

campionando le basi ortonormali: sull’asse delle ascisse sono riportati i tempi 

in scala logaritmica, mentre sull’asse delle ordinate i valori di RMSD migliori 

per ogni istanza di ligand-rotation. I risultati, limitatamente al ligando testato, 

mostrano che anche con soli 54 1 sistemi di riferimento ligand-rotation sia 

stato in grado di ottenere strutture molecolari molto valide, entro l’Ångström 

di RMSD, in tempi molto brevi, precisamente in un’ora e mezza di calcoli 

per una conformazione con RMSD pari a 0,85534Å. 

Campionamento delle celle di V 

Il seguente test è rivolto a identificare la dimensione ottimale delle celle di 

V. Nel grafico 5.6, l’asse delle ascisse individua il numero degli step di rotazione 

rispetto ai quali si sono effettuati i test, mentre l’asse delle ordinate, in 

1 Esattamente 9 punti sulla sfera e 6 step di rotazione sull’asse Z


Prestazioni−qualità al variare degli step di rotazione 

1.7 

1.6 

1.5 

7 step 

6 step 

5 step 

4 step 

1.4 

1.3 

rmsd 

1.2 

1.1 

1 

0.9 

0.8 

0.7 

10 −1 10 0 10 1 10 2 10 3 

tempo espresso in minuti 

Figura 5.4: Grafico rappresentante qualità in termini di RMSD, rispetto al 

ligando minimizzato, e prestazioni, in termini di tempo di esecuzione del 

programma. Le molecole accettabili si trovano sotto l’Ångström.


Prestazioni−qualità al variare del passo di campionamento 

della base ortonormale 

3.5 

3 

210 

120 

72 

54 

2.5 

rmsd 

2 

1.5 

1 

0.5 

10 −3 10 −2 10 −1 10 0 10 1 10 2 10 3 


Figura 5.5: Grafico rappresentante qualità in termini di RMSD, rispetto al 

ligando minimizzato, e prestazioni, in termini di tempo di esecuzione del 

programma. Le molecole accettabili si trovano sotto l’Ångström.


scala logaritmica, identifica il tempo in minuti dell’esecuzione di ogni istanza 

di ligand-rotation. La dimensione del lato delle celle è un parametro molto 

importante, che andrà ad influire sul tempo totale della computazione ma 

non sulla qualità dei risultati. Questo perché, nel momento della verifica dei 

vincoli, si andranno a selezionare e controllare tutte le celle che potenzialmente 

possono contenere atomi sovrapposti. Una dimensione troppo piccola 

comporterebbe un numero di celle da visitare elevato, con conseguente perdita 

di tempo; su molte di esse potrebbe non esserci nemmeno un atomo. 

Al contrario, una dimensione troppo grande comporterebbe una verifica dei 

vincoli anche su atomi ‘lontani’ poiché una cella potrebbe contenere atomi 

distanti tra loro, rappresentando una porzione di spazio relativamente grande. 

Dai risultati, si evince che la misura ottimale è data da 2Å: considerando 

l’esecuzione con 6 step, il tempo impiegato da quest’ultima rispetto ad un 

campionamento a 0.5Å si dimezza. 

5.3 Confronti su visite 

Un aspetto molto importante è la generazione dell’albero a partire dal grafo, 

dato che sta alla base della visita sullo spazio di ricerca delle combinazioni del 

ligando. Modificando l’albero si influenzerà l’ordine di esplorazione delle variabili 

(e di conseguenza l’albero di ricerca) e si potrà avere un miglioramento 

o un peggioramento delle prestazioni, in modo dipendente a seconda dalla 

particolare posizione assunta degli atomi nella lista D e da quanto spesso 

falliranno. 

5.3.1 DFS sul grafo della molecola 

Il primo algoritmo, implementato su ligand-rotation con il compito di visitare 

il grafo G = (V, E) rappresentante il ligando, è la DFS, visita in profondità. 

La strategia di ricerca esplora il grafo andando, in ogni istante dell’esecuzione 

dell’algoritmo, il più possibile in profondità: gli archi del grafo vengono 

esplorati a partire dall’ultimo vertice scoperto v che abbia ancora degli archi 

non esplorati uscenti da esso. Una volta terminata l’esplorazione di tutti gli 

archi non esplorati del vertice v, si ritorna indietro per esplorare tutti gli archi 

uscenti a partire dal vertice da cui v ′ era stato precedentemente scoperto. 

Il processo di esplorazione continua fin quando tutti i vertici del grafo non 

siano stati esplorati. 

Grazie al fatto che G è connesso, ovvero che la cardinalità delle sue 

componenti connesse è 1, la ricerca DFS produce un unico albero.

5.3. CONFRONTI SU VISITE 61 

Prestazioni al variare del campionamento delle celle 

10 5 

10 4 

step rotazioni 

0.5Å 

1Å 

2Å 

3Å 


10 3 

10 2 

10 1 

10 0 

4 5 6 

Figura 5.6: Grafico rappresentante il tempo di esecuzione al variare del campionamento 

delle celle di V. Raggruppati sulle ascisse, i test svolti con 4, 

5, 6 step di rotazione, mentre sull’asse delle ordinate il tempo impiegato da 

ligand-rotation (in scala logaritmica).


La ricerca DFS, inoltre, marca ogni vertice con ben precise informazioni 

temporali, in particolar modo aggiorna due etichette per ogni vertice: d[v] 

che registra quando il generico vertice v è stato scoperto ed f[v] che registra 

quando è stata esplorata l’intera lista di adiacenza di v. 

La complessità computazionale di una DFS è pari a Ω(V +E). In ogni caso, 

rispetto al tempo di esecuzione dell’intero programma, è assai irrilevante: la 

DFS fa parte della fase di pre processing di ligand-rotation, per cui viene 

effettuata una sola volta. 

5.3.2 Modifica della DFS: first fail 

Una piccola, ma sostanziale, modifica all’algoritmo della DFS consiste nell’ordinare 

tutti i nodi adiacenti a quello attualmente visitato in base al numero 

di rotazioni che possono effettuare: dal più basso al più alto. La strategia che 

si vuole implementare è quella simile ad una first fail, ovvero si fa in modo 

che durante l’iterazione della lista D si fallisca il prima possibile. Così facendo, 

poiché interviene il backtracking per portarci allo stato precedente, si 

elimina tutto il sottoalbero relativo al vertice in cui abbiamo fallito, andando 

a ridurre il numero di soluzioni finali e risparmiando il tempo impiegato ad 

una esplorazione di un sottoalbero privo di soluzioni. 

L’implementazione su ligand-rotation, in pratica, è una first fail statica. 

La scelta delle variabili viene effettuata nella fase di preprocessing, durante la 

DFS, e l’ordinamento riguarda gli archi del singolo nodo, indipendentemente 

dagli altri. 

La modifica della DFS può trovare giustificazione nel fatto che avendo da 

attuare due scelte, una dipendente dall’altra, conviene intraprendere prima 

quella con meno possibilità. Cosicché, in caso di fallimento, il sottoalbero 

eliminato conterrà più nodi. 

Nel grafico 5.7 sono rappresentati i risultati ottenuti sia da istanze di 

ligand-rotation su cui è stata implementata la first fail che da altre senza. Dai 

test effettuati si può concludere che la first fail ha avuto successo, riducendo 

i tempi di esecuzione.

5.3. CONFRONTI SU VISITE 63 

Prestazioni al variare della visita sul grafo 

10 4 DFS first fail 

DFS 

step rotazioni 

10 3 


10 2 

10 1 

10 0 

4 5 6 

Figura 5.7: Grafico rappresentante il tempo di esecuzione di istanze di ligandrotation 

con first fail e senza.

64 CAPITOLO 5. RISULTATI

Capitolo 6 

Conclusioni e Sviluppi futuri 

In questo lavoro di Tesi si è affrontato il problema del docking. In particolare, 

lo scopo era volto alla costruzione di un nuovo pacchetto in grado di far 

interagire tra loro due molecole, senza che ciò fosse influenzato da funzioni 

di scoring che valutano la stabilità energetica. 

La soluzione offerta a questo problema è, appunto, ligand-rotation; programma 

da me studiato e implementato, in grado di generare strutture molecolari 

geometricamente corrette e, oltretutto, in maniera efficiente, per quel 

che riguarda il tempo impiegato nei calcoli. 

Grazie all’approccio interamente geometrico, i test di validità eseguiti 

su ligand-rotation hanno dimostrato che è possibile raggiungere una qualità 

accettabile rispetto alle richieste reali da parte delle case farmaceutiche. 

Con una configurazione standard, che porta il programma a conclusione 

nel giro di 6 ore al massimo 1 , si riesce a produrre posizionamenti di molecole 

entro l’Ångström di RMSD, cioè si ottengono ligandi dalla struttura molto 

simile a quella minimizzata, scaricata dal database PDB. 

Una passo successivo a questa Tesi consiste nell’applicare una funzione 

di scoring per valutare l’energia complessiva del complesso ligando-proteina 

determinando la stabilità del sistema; in particolare, ci interessa quanto sia 

correlata all’RMSD ottenuto dai nostri test. 

Verranno ora mostrati alcuni riferimenti utili all’evoluzione di ligandrotation. 

L’ingegneria del software insegna che un programma informatico 

è in costante evoluzione, sia per quel che riguarda la risoluzione di bug esistenti 

che per l’aggiunta di nuove funzionalità. Essendo un progetto giovane, 

l’intento è quello di poter sviluppare nuove metodologie che constentiranno a 

ligand-rotation l’elaborazione di differenti tipi di molecole, anche complesse, 

1 Il tempo impiegato da ligand-rotation dipende molto dal ligando scelto e dal numero 

di legami ruotabili. 

65

66 CAPITOLO 6. CONCLUSIONI E SVILUPPI FUTURI 

garantendo tempi di esecuzione ragionevoli e più precisione nella generazione 

delle strutture dei ligandi. 

Nella sezione 6.1 cercheremo di dare una possibile estensione all’algoritmo 

esistente, in modo tale da poter trattare molecole con caratteristiche di 

struttura particolari. 

Successivamente (nella sezione 6.2) si descriverà l’idea di un nuovo potenziale 

modello a vincoli che prevede l’inserimento di ulteriori vincoli e 

l’implementazione della propagazione. 

6.1 Molecole contenenti cicloesano 

Un problema incontrato nello sviluppo di ligand-rotation è stato che, per 

particolari ligandi, non si è riusciti ad ottenere un loro buon posizionamento 

in termini di RMSD con il ligando minimizzato. Sono stati condotti numerosi 

test e le migliori conformazioni si aggiravano intorno a 1.5Å - contro il nostro 

limite di accettazione di 1Å. Il problema non stava nemmeno alla base delle 

opzioni di campionamento; infatti, all’aumentare dei parametri di qualità, 

non si apprezzavano miglioramenti da parte delle strutture generate. 

Figura 6.1: A sinistra il ligando ottenuto con ligand-rotation, a destra il 

ligando minimizzato scaricato da PDB 

La strada da percorrere è completamente diversa. Alla base di ciò ci sono 

particolari strutture molecolari denominate Cicloesano e Ciclopentano, che 

dovranno essere trattate in modo completamente differente.

6.1. MOLECOLE CONTENENTI CICLOESANO 67 

6.1.1 Cicloesano 

Il cicloesano fa parte della famiglia dei cicloalcani; è composto da sei atomi 

di carbonio e 12 atomi di idrogeno, è privo di doppi e tripli legami e la sua 

struttura è chiusa ad anello. 

Gli atomi di carbonio hanno ibridizzazione sp 3 , andando a formare delle 

strutture tetraedriche con angoli di legame di 109.5 ◦ . La struttura quindi 

non sarà planare, la quale ha angoli di 120 ◦ , bensì tenderà ad assumere una 

conformazione a sedia, visibile in figura 6.2. 

Figura 6.2: La figura mostra la struttura del cicloesano con a sinistra una 

conformazione a sedia e a destra una conformazione a barca 

Oltre quella a sedia, esistono altre conformazioni, sebbene con maggiore 

energia e quindi meno stabili: conformazione a barca (in figura 6.2) e a mezza 

sedia. In figura 6.3 si esprime l’energia del cicloesano per ogni conformazione. 

Figura 6.3: La figura rappresenta le possibili energie delle strutture del 

cicloesano in funzione alle conformazioni assunte

68 CAPITOLO 6. CONCLUSIONI E SVILUPPI FUTURI 

6.1.2 Nuovi gradi di libertà 

Tutte le conformazioni del cicloesano elencate nella precedente sezione non 

possono essere ottenute a partire da semplici rotazioni. È necessario implementare 

un nuovo algoritmo da inglobare a quello esistente, in grado di gestire 

più gradi di libertà. L’idea è quella di individuare queste strutture particolari 

attraverso la visita del grafo del ligando e, successivamente, nel momento 

in cui si piazzano i suoi atomi, è necessario capire la conformazione attuale 

per andare a simulare tutti i suoi possibili stati conformazionali prima della 

rotazione del sottoalbero. 

6.2 Espansione modello a vincoli 

Un primo ampliamento da realizzare su ligand-rotation potrebbe essere quello 

di integrare il modello a vincoli, introducendono di ulteriori, come la verifica 

della lunghezza di un legame chimico, oppure implementare la propagazione 

dei vincoli. Nei paragrafi 6.2.1 e 6.2.2 svilupperemo questi due argomenti. 

6.2.1 Controllo lunghezza legame 

Con il modello a vincoli attualmente implementato in ligand-rotation, la verifica 

della lunghezza dei legami chimici sarebbe completamente inutile, anzi 

sarebbe un aggravio alla complessità totale del sistema. Al contrario, riuscendo 

a trattare molecole come il cicloesano o il ciclopentano, si introdurrebbe 

un nuovo grado di libertà e il controllo diventerebbe sensato. Effettuando 

delle rotazioni anche sui legami delle precedenti strutture si potrebbe andare 

incontro ad una rottura del ciclo. 

6.2.2 Implementazione propagazione dei vincoli 

Il modello a vincoli qui presentato non implementa su di sé la propagazione 

dei vincoli; questione non affrontata a causa dello scarso tempo avuto a 

disposizione. Dalla sezione 1.4 sappiamo che la propagazione ha il compito 

di ridurre lo spazio di ricerca, eliminando eventuali elementi del dominio. 

Nel nostro caso, l’eliminazione riguarda le possibili rotazioni. L’idea è 

quella di evitare di visitare porzioni di albero inconsistenti. Nel contesto di 

ligand-rotation, una possibile definizione di propagazione sarebbe questa: 

nel momento in cui si identifica una rotazione che sicuramente porta 

a fallimento, la si elimina dal dominio della sua variabile legame. Come 

conseguenza di ciò, si potrebbe avere il risveglio a catena di altre propagazioni 

e quindi l’eliminazione di altre rotazioni.

6.2. ESPANSIONE MODELLO A VINCOLI 69 

L’interazione tra vincoli di non sovrapposizione e rotazione di un legame 

possono fornire deduzioni sulla effettiva validità dei valori del dominio delle 

variabili. Supponiamo di compiere un movimento alla struttura molecolare. 

Attraverso un algoritmo, possiamo essere in grado di stabilire a priori che 

sicuramente la rotazione appena effettuata non porta a nessuna soluzione 

valida. In virtù di ciò, si deduce che i valori ammissibili di alcune variabili 

di tipo legame sono incongruenti con i vincoli implementati e si effettua, 

quindi, una riduzione del dominio delle variabili implicate. Osserviamo come 

il costo computazionale degli algoritmi di propagazione debba essere molto 

basso affinché il loro utilizzo sia giustificato.

70 CAPITOLO 6. CONCLUSIONI E SVILUPPI FUTURI

Bibliografia 

[1] Thomas Lengauer (Ed.). Bioinformatics - From Genomes to Drugs, 

Volume I. WILEY-VCH, 2001. 

[2] Peter Atkins, Loretta Jones. Principi di chimica. Zanichelli, 2005. 

[3] William K. Purves, David Sadava, Gordon H. Orians and H. Craig 

Heller. Elementi di Biologia e Genetica. Zanichelli, 2005. 

[4] Harold Hart, David J. Hart, Leslie E. Craine. Chimica organica, quarta 

edizione. Zanichelli, 1998. 

[5] Krzysztof R. Apt. Principles of Constraint Programming. Cambridge 

University Press, 2003. 

[6] Bjarne Stroustrup. C++: linguaggio, libreria standard, principi di 

programmazione. Addison-Wesley, 2000. 

[7] Gregory L. Warren, C. Webster Andrews, Anna-Maria Capelli, Brian 

Clarke, Judith LaLonde, Millard H. Lambert, Mika Lindvall, Neysa Nevins, 

Simon F. Semus, Stefan Senger, Giovanna Tedesco, Ian D. Wall, 

James M. Woolven, Catherine E. Peishoff and Martha S. Head. A critical 

Assessment of Docking Programs and Scoring Function. Journal of 

Medicinal Chemistry, 2006, Vol. 49, No. 20. 

[8] http: // mathworld. wolfram. com/ RotationFormula. html . 

71

Studio e sviluppo di metodi computazionali per l'analisi delle ...

Create successful ePaper yourself

Delete template?

Save as template?