Copertina
Autore Arthur M. Lesk
Titolo Introduzione alla Bioinformatica
EdizioneMcGraw-Hill, Milano, 2004 , pag. 264, cop.fle., dim. 168x240x15 mm , Isbn 978-88-386-6190-7
OriginaleIntroduction to Bioinformatics [2002]
TraduttorePaola Fusi, Erlet Sehi
LettorePiergiorgio Siena, 2005
Classe biologia , informatica
PrimaPagina


al sito dell'editore


per l'acquisto su IBS.IT

per l'acquisto su BOL.IT

per l'acquisto su AMAZON.IT

 

| << |  <  |  >  | >> |

Indice

Prefazione                                            XI

1   Introduzione                                       1

1.1 Uno scenario                                       2
1.2 La vita nello spazio e nel tempo                   3
1.3 I dogmi: centrale e periferico                     4
1.4 Osservabili e archivi di dati                      7
    1.4.1 Cura, annotazione e controllo di qualità     9
1.5 Il World Wide Web                                 10
    1.5.1 Gli URL                                     12
    1.5.2 Le pubblicazioni elettroniche               12
1.6 I computer e la scienza computazionale            12
    1.6.1 Programmazione                              13
1.7 Classificazione biologica e nomenclatura          17
1.8 Uso delle sequenze per la determinazione
    delle relazioni filogenetiche                     20
    1.8.1 Uso di SINE e LINE nella derivazione
          di relazioni filogenetiche                  26
1.9 Ricerca di sequenze simili nelle banche
    dati: PS1-BLAST                                   28
1.10 Introduzione alla struttura delle proteine       34
     1.10.1 La natura gerarchica
            dell'architettura delle proteine          36
     1.10.2 Classificazione delle strutture proteiche 38
1.11 Predizione e ingegnerizzazione della
     struttura delle proteine                         44
     1.11.1 Valutazione critica delle
            predizioni di struttura (GASP)            45
     1.11.2 Ingegneria proteica                       46
1.12 Implicazioni cliniche                            46
     1.12.1 Il futuro                                 48

2   Organizzazione ed evoluzione del genoma           57

2.1 Genomica e proteomica                             57
    2.1.1 I geni                                      57
    2.1.2 Le proteine                                 60
    2.1.3 I proteomi                                  60
    2.1.4 Intercettare la trasmissione
          dell'informazione genetica                  63
    2.1.5 Mappatura tra mappe                         65
    2.1.6 Mappe a elevata risoluzione                 67
2.2 Individuare i geni nel genoma                     70
2.3 Genomi di procarioti                              71
    2.3.1 Il genoma del batterio Escherichia coli     71
    2.3.2 Il genoma dell'archibatterio
          Methanococcus jannaschii                    74
    2.3.3 Il genoma di uno dei più semplici
          organismi: Mycoplasma genitalium            75
2.4 Genomi di eucarioti                               76
    2.4.1 Il genoma di Saccharomyces cerevisiae
          (il lievito del panettiere)                 78
    2.4.2 Il genoma di Caenorhabditis elegans         81
    2.4.3 Il genoma di Drosophila melanogaster        82
    2.4.4 Il genoma di Arabidopsis thaliana           83
2.5 Il genoma dell'Homo sapiens (il genoma umano)     84
    2.5.1 I geni che codificano perproteine           85
    2.5.2 Le sequenze ripetute                        86
    2.5.3 L'RNA                                       87
2.6 I Single Nucleotide Polymorphisms o SNP           87
2.7 La diversità genetica in antropologia             90
    2.7.1 Diversità genetica e identificazione
          personale                                   90
    2.7.2 Analisi genetica dell'addomesticamento
          dei bovini                                  91
2.8 Evoluzione dei genomi                             91
    2.8.1 Per piacere, passami il gene:
          il trasferimento genico orizzontale         95
    2.8.2 Genomica comparativa degli eucarioti        96

3   Archivi e ricerca dell'informazione              103

3.1 Introduzione                                     103
    3.1.1 Indicizzazione delle banche dati e
          specificazione dei termini di ricerca      103
    3.1.2 Proseguimento della ricerca                105
    3.1.3 Analisi dei dati trovati                   105
3.2 Gli archivi                                      105
    3.2.1 Banche dati di sequenze di acidi nucleici  106
    3.2.2 Banche dati genomiche                      108
    3.2.3 Banche dati di sequenze proteiche          108
    3.2.4 Banche dati di strutture                   111
    3.2.5 Banche dati specializzate o "boutique"     118
    3.2.6 Banche dati di espressione e proteomiche   119
    3.2.7 Banche dati di vie metaboliche             121
    3.2.8 Banche dati bibliografiche                 121
    3.2.9 Compendi di banche dati e server
          di biologia molecolare                     122
3.3 Accesso agli archivi                             122
    3.3.1 Accesso alle banche dati di biologia
          molecolare                                 123
    3.3.2 Entrez                                     123
    3.3.3 Sequence Retrieval System (SRS)            131
    3.3.4 Protein Identification Resource (PIR)      133
    3.3.5 Expert Protein Analysis System (Expasy)    136
    3.3.6 Ensembl                                    137
3.4 Dove siamo diretti                               139

4   Allineamenti di sequenze e alberi filogenetici   143

4.1 Introduzione agli allineamenti di sequenze       143
4.2 Il dotplot                                       144
4.3 Dotplots e allineamenti di sequenze              149
4.4 Misura delle similarità di sequenza              154
    4.4.1 Assegnazione del punteggio                 154
4.5 Valutazione dell'allineamento di due sequenze    157
    4.5.1 Variazioni e generalizzazioni              159
    4.5.2 Metodi approssimativi per lo screening
          veloce dei database                        159
4.6 L'algoritmo di programmazione dinamica per
    l'allineamento ottimale di coppie di sequenze    159
4.7 Significato degli allineamenti                   165
4.8 Allineamenti multipli di sequenze                168
4.9 Informazioni strutturali ottenibili dagli
    allineamenti multipli di sequenze                169
4.10 Applicazioni degli allineamenti multipli
     di sequenze alle ricerche nei database          170
     4.10.1 I profili                                171
     4.10.2 PSI-BLAST                                173
     4.10.3 Hidden Markov Models (HMM)               175
4.11 Filogenia                                       177
4.12 Alberi filogenetici                             180
     4.12.1 Metodi di raggruppamento (clustering)    182
     4.12.2 Metodi cladistici                        184
     4.12.3 Il problema delle diverse velocità
            evolutive                                185
     4.12.4 Considerazioni dal punto di vista
            computazionale                           186

5   Struttura delle proteine e scoperta
    di nuovi farmaci                                 195

5.1 Introduzione                                     195
5.2 Stabilità e ripiegamento delle proteine          197
    5.2.1 Il grafico di Sasisekharan-Ramakrishnan-
          Ramachandran descrive le possibili
          conformazioni della catena principale      197
    5.2.2 Le catene laterali                         199
    5.2.3 Stabilità e denaturazione delle proteine   200
    5.2.4 Il ripiegamento delle proteine             202
5.3 Applicazioni dell'idrofobicità                   204
5.4 Sovrapposizione di strutture e allineamenti
    strutturali                                      208
5.5 DALI (Distance-matrix ALIgnment)                 210
5.6 Evoluzione delle strutture proteiche             211
5.7 Classificazione delle strutture proteiche        213
    5.7.1 SCOP                                       213
5.8 Predizione e modelling delle strutture proteiche 214
    5.8.1 Valutazione critica delle
          predizioni di struttura (CASP)             215
    5.8.2 Predizione della struttura secondaria      217
    5.8.3 Modelling per omologia                     221
    5.8.4 Riconoscimento del tipo di ripiegamento    224
    5.8.5 Riconoscimento del tipo di ripiegamento
          al CASP2000                                227
    5.8.6 Calcolo dell'energia conformazionale
          e dinamica molecolare                      228
    5.8.7 ROSETTA                                    230
    5.8.8 LINUS                                      232
5.9 Assegnazione di strutture proteiche ai genomi    234
5.10 Predizione della funzione delle proteine        236
     5.10.1 Divergenza di funzione: ortologhi
            e paraloghi                              237
5.11 Scoperta e sviluppo di nuovi farmaci            239
     5.11.1 Il composto guida                        241
     5.11.2 Progettazione dei farmaci con
            l'aiuto del computer                     243

Conclusioni                                          253


 

 

| << |  <  |  >  | >> |

Pagina XII

Tappe fondamentali del Progetto Genoma Umano



1953 Viene pubblicata la struttura del DNA di Watson e Crick.

1975 F. Ranger, e indipendentemente Maxam e Gilbert, sviluppano dei metodi per sequenziare il DNA.

1977 Viene sequenziato il DNA del batteriofago ØX-174: il primo "genoma completo".

1980 La Corte Suprema americana decide che i batteri geneticamente modificati sono brevettabili. Questa decisione rappresenta la fonte giuridica per il brevetto dei geni.

1981 Sequenziamento del DNA mitocondriale umano: 16569 coppie di basi.

1984 Sequenziamento del genoma del virus di Epstein-Barr: 172281 coppie di basi.

1990 Viene lanciato il Progetto Genoma Umano - durata prevista: 15 anni.

1991 J.C. Venter e colleghi identificano i geni attivi attraverso le Expressed Sequence Tags: sequenze di porzioni iniziali di DNA complementari a RNA messaggeri.

1992 Viene completata la mappa di concatenazione a bassa risoluzione del genoma umano.

1992 Inizia il progetto di Sequenziamento del DNA di Caenorhabditis elegans.

1992 Wellcome Trust e United Kingdom Medical Research Council fondano il Sanger Centre per il Sequenziamento del genoma su larga scala diretto da J. Sulston.

1992 J.C. Venter fonda The Institute for Genome Research (TIGR), in associazione con un progetto per sfruttare commercialmente il Sequenziamento attraverso l'identificazione di geni e la scoperta di farmaci.

1995 Prima sequenza completa di un genoma batterico, Haemophilus influenzae a opera del TIGR.

1996 Mappa a elevata risoluzione del genoma umano: i marcatori sono spaziati di circa 600000 paia di basi.

1996 Completamento del genoma di lievito, la prima sequenza genomica di un eucariote.

Maggio 1998 Celera annuncia di essere in grado di completare il Sequenziamento del genoma umano per il 2001. Wellcome risponde aumentando i fondi al Sanger Centre.

1998 Viene pubblicata la sequenza del genoma di Caenorhabditis elegans.

Primo settembre 1999 Celera annuncia la sequenza del genoma di Drosophila melanogaster, rendendola pubblica nella primavera del 2000.

1999 Il Progetto Genoma Umano stabilisce un obiettivo: la prima mappatura della sequenza del genoma umano nel 2001 (90% dei geni sequenziato con un'accuratezza maggiore del 95%).

Primo dicembre 1999 Viene pubblicata la sequenza completa del primo cromosoma umano.

26 giugno 2000 Annuncio congiunto del Sequenziamento completo del genoma umano.

2003 Cinquantesimo anniversario della scoperta della struttura del DNA. Questa data era l'obiettivo per il completamento della sequenza a elevata qualità del genoma umano da parte del consorzio pubblico.

| << |  <  |  >  | >> |

Pagina XV

L'obiettivo del presente libro è che i lettori acquisiscano: • la capacità di apprezzare la natura dell'enorme quantità di informazioni riguardo a noi stessi e alle altre specie che si è resa disponibile;

• il senso delle possibilità applicative della bioinformatica alla biologia molecolare, alla clinica medica, alla farmacologia, alle biotecnologie, all'agricoltura, alla medicina forense, all'antropologia e alle altre discipline;

• un'utile conoscenza delle tecniche mediante le quali, attraverso il World Wide Web, abbiamo accesso ai dati e ai metodi per analizzarli;

• la capacità di apprezzare il ruolo dei computer e dell'informatica nelle ricerche e nelle applicazioni dei dati;

• una fiducia nelle proprie abilità di base di recuperare le informazioni, di effettuare calcoli con i dati e di estendere queste abilità a un "lavoro sul campo" autodiretto all'interno del Web;

• un senso di ottimismo riguardo al fatto che i dati e i metodi della bioinformatica determineranno progressi decisivi nella nostra comprensione della vita, oltre a miglioramenti nella salute degli uomini e degli altri esseri viventi.


Mappa del libro

• Il Capitolo 1 allestisce lo scenario e introduce tutti gli attori principali: le sequenze e le strutture di DNA e di proteine, i genomi e i proteomi, i database e il recupero delle informazioni, il World Wide Web e la programmazione al computer. Prima di sviluppare in dettaglio i singoli argomenti, è importante considerare infatti l'insieme delle loro interazioni.

• Il Capitolo 2 presenta la natura dei singoli genomi, compreso quello umano, e le relazioni tra di essi, dal punto di vista biologico.

• Il Capitolo 3 impartisce le nozioni di base per l'utilizzo del Web in bioinformatica. Descrive le banche dati di archivi e conduce il lettore attraverso sessioni dimostrative che comportano il recupero di informazioni da alcuni dei principali database in biologia molecolare.

• Il Capitolo 4 tratta l'analisi delle relazioni tra le sequenze: allineamenti e alberi filogenetici. Questi metodi sono alla base di alcune delle maggiori sfide computazionali della bioinformatica: individuare specie lontanamente correlate, comprendere la relazione tra i genomi di organismi diversi e tracciare il corso dell'evoluzione a livello molecolare e di specie.

• Il Capitolo 5 si sposta nel tridimensionale, poiché tratta la struttura delle proteine e il folding. La sequenza e la struttura devono essere viste in modo strettamente associato, il compito della bioinformatica essendo quello di sviluppare metodi per muoversi avanti e indietro tra di esse il più agevolmente possibile. Comprendere nei dettagli la struttura delle proteine è essenziale per determinarne il meccanismo d'azione, nonché per le applicazioni cliniche e farmacologiche.

| << |  <  |  >  | >> |

Pagina 10

1.5 Il World Wide Web


È molto probabile che tutti i lettori abbiano usato il World Wide Web per cercarvi fonti bibliografiche, notizie o per accedere a database di biologia molecolare, per verificare informazioni personali circa individui (amici o colleghi o celebrità) oppure semplicemente per navigare. Fondamentalmente, il Web è un mezzo per stabilire contatti interpersonali e collegamenti fra computer mediante le reti. Esso costituisce un villaggio globale completo, che contiene l'equivalente di biblioteche, uffici postali, negozi e scuole.

Voi, gli utenti, eseguite un programma di ricerca sul vostro computer. I browsers più comuni sono Netscape e Internet Explorer. Con questi programmi è possibile leggere e mostrare materiale proveniente da tutto il mondo. Gli stessi programmi presentano anche informazioni di controllo che permettono di seguire le tracce avanti e indietro o di interrompere un percorso di ricerca collaterale. I programmi consentono anche di scaricare informazioni sul vostro computer locale.

Il materiale visualizzato contiene collegamenti (link) che vi forniscono la possibilità di saltare ad altre pagine o ad altri siti, aggiungendo nuove dimensioni alla vostra navigazione. Le interconnessioni animano il Web. Quello che fa del cervello umano qualcosa di così speciale non è il numero assoluto dei neuroni, ma piuttosto la densità delle loro interconnessioni. Analogamente, non è il numero delle entries che rende il Web così potente, ma le loro reticolazioni.

I collegamenti risultano visibili in ogni momento nel materiale che state visionando. Eseguendo un programma di ricerca, si può visualizzare una pagina o una cornice. Il materiale visualizzato contiene oggetti attivi come parole, tasti o figure. Questi sono usualmente distinti da colori evidenziati. Selezionandoli, si attua un trasferimento a una nuova pagina. Al tempo stesso, si lascia automaticamente una traccia costituita da "briciole elettroniche", in modo tale che si possa ritornare al collegamento chiamante per dare un'ulteriore occhiata alla pagina da cui si è partiti.

I collegamenti possono essere interni o esterni. I collegamenti interni possono condurvi ad altre sezioni di un documento corrente, oppure a immagini, filmati o suoni. I collegamenti esterni vi consentono di scendere verso documenti più specializzati, oppure di salire verso documenti di carattere più generale (che forse possono fornire una base per del materiale tecnico); ci si può muovere anche lateralmente verso documenti paralleli (altri documenti sullo stesso soggetto), oppure al di sopra verso directories che mostrano quali altri importanti materiali siano disponibili.

La cosa più importante da fare, per iniziare a usare il Web in modo efficiente, è quella di trovare punti di ingresso utili. Una volta che la sessione è iniziata, i collegamenti vi porteranno esattamente dove volete andare. Fra i più importanti siti vi sono i motori di ricerca che costituiscono l'indice dell'intero Web e permettono la ricerca mediante l'uso di parole chiave. Potete fornire uno o più termini (come, per esempio, "fosforilasi", "cambiamento allosterico", "struttura cristallografica"), e il programma di ricerca vi fornirà una lista di collegamenti a siti web che contengono questi termini. Potrete così identificare i siti più importanti per i vostri interessi.

Una volta completata con successo una sessione, quando vi collegherete successivamente, la memoria di intersessione dei browsers vi consentirà di riprendere esattamente da dove eravate rimasti. Durante una sessione, mentre state prendendo visione di un documento al quale vorreste ritornare, potete salvare il collegamento in un file di segnalibri o di preferiti (bookmarks o favorites). Durante una sessione successiva, potrete ritornare a uno qualunque di questi siti direttamente, senza dover seguire il percorso dei collegamenti che vi hanno portato a quel sito la prima volta.

Il Web non è neppure una via a senso unico: molti documenti del Web comprendono spazi in cui è possibile inserire delle informazioni o lanciare un programma che restituisca risultati all'interno della stessa sessione. Un esempio comune è quello dei motori di ricerca. Molti calcoli di bioinformatica possono oggi essere lanciati proprio attraverso questi web servers. Se i calcoli sono troppo lunghi, i risultati possono non essere restituiti all'interno della stessa sessione, ma essere spediti via e-mail.

| << |  <  |  >  | >> |

Pagina 123

3.3.1 Accesso alle banche dati di biologia molecolare


Come imparare a muoversi nel Web

Sarebbe difficile imparare ad andare in bicicletta leggendo un libro che descrive l'insieme dei movimenti richiesti, e ancor meno uno sulla teoria del giroscopio. Analogamente, il posto adatto per imparare a muoversi nel Web è un terminale con un programma di navigazione. Ciononostante, c'è sempre un certo periodo iniziale di difficoltà e sconcerto. Lo scopo qui è soltanto quello di fornire una temporanea assistenza che vi permetta di partire. Poi, pedalare!

Nelle prossime pagine verranno presentate alcune delle principali banche dati e si descriveranno i sistemi di ricerca delle informazioni in biologia molecolare. In ciascun caso, mostreremo ricerche e applicazioni relativamente semplici. Quando sarà opportuno, verranno sottolineate le proprietà specifiche di ciascun sistema.


3.3.2 Entrez

Il National Center for Biotechnology Information, una componente della United States National Library of Medicine, mantiene alcune banche dati e sistemi di accesso a esse. Entrez offre accesso attraverso le seguenti divisioni di banche dati:

• Protein.

• Peptide.

• Nucleotide.

• Structure.

• Genome.

• Popset (informazioni su popolazioni).

• OMIM (Online Mendelian Inheritance in Man).

I collegamenti tra diverse banche dati sono un punto di forza del sistema della NCBI. Il punto di partenza per la ricerca di sequenze e strutture è detto Entrez: http:// www.ncbi.nlm.nih.gov/Entrez/.

Prendiamo in considerazione una molecola, la elastasi neutrofila umana, e cerchiamo delle entry correlate nelle diverse sezioni di Entrez.


Ricerca nella banca dati di proteine Entrez

Andare all'indirizzo http://www.ncbi.nlm.nih.gov/Entrez/. Selezionare Protein, inserire i termini di ricerca HUMAN ELASTASE e fare click su Go.

Il programma restituisce 390 risposte, di cui il Box sottostante mostra le prime 15. La prima risposta dell'elenco è ELASTASE 1 PRECURSOR [HOMO SAPIENS]; tra le altre risposte si trovano elastasi da altre specie, inibitori dell'elastasi umana e da zanzara, e una tirosil-tRNA sintetasi. (Perché una proteina da zanzara e una tRNA sintetasi dovrebbero comparire in una ricerca per l'elastasi umana? Si veda Weblema 3.9.) Vedremo più avanti in che modo affinare la ricerca per poter escludere queste risposte non pertinenti.

Le risposte hanno il seguente formato: in ciascun caso, la prima riga fornisce il nome e i sinonimi della molecola e la specie da cui proviene. Si noti che le lettere dell'alfabeto greco vengono traslitterate in testo. L'ultima riga fornisce collegamenti alle banche dati sorgenti: gi = codice identificativo di GenInfo (GenInfo Identifier, si veda Box pag. 20); gb = numero identificativo di GenBank; sp = Swiss-Prot; pir = Protein Identification Resource; ref = codice del progetto Reference Sequence della NCBI. Le entry trovate comprendono l'elastasi umana e da altre specie, oltre a inibitori dell'elastasi.

Entrando nella pagina della entry corrispondente alla prima risposta, si trova il file mostrato nel Box a pag. 125. Le prime righe sono principalmente informazioni che riguardano la gestione della entry da parte della banca dati (codici identificativi, nome della molecola, data di deposizione ecc.). Segue materiale descrittivo come la fonte (in questo caso, uomo) con la classificazione tassonomica completa, menzioni agli scienziati che hanno depositato la entry e riferimenti bibliografici. Per ultima viene elencata l'informazione scientifica specifica: la localizzazione del gene, i suoi prodotti (CDS = coding sequence) e la sequenza stessa (si veda Esercizio 3.2).

| << |  <  |  >  | >> |

Pagina 175

4.10.3 Hidden Markov Models (HMM)

Gli Hidden Markov Models sono strutture computazionali utilizzate per descrivere pattern precisi che definiscono le famiglie di sequenze omologhe. Gli HMM sono strumenti potenti per identificare correlazioni lontane e per predire i pattern di ripiegamento delle proteine. Essi sono gli unici metodi basati interamente su sequenze (che cioè non utilizzano esplicitamente informazioni strutturali) che possono competere con PSI-BLAST nell'identificare omologie lontane. Gli HMM forniscono buone prestazioni anche a livello di riconoscimento dei motivi di folding, come dimostrato nei programmi CASP.

All'interno di un HMM, si trova un allineamento multiplo di sequenza. Tuttavia, gli HMM vengono solitamente presentati come procedure per produrre sequenze. Anche una tabella convenzionale di allineamenti multipli di sequenze può essere utilizzata per produrre sequenze, selezionando gli aminoacidi in posizioni successive, ciascuno dei quali viene scelto a partire da una distribuzione di probabilità posizione-specifica ottenuta da un profilo. Tuttavia, gli HMM hanno un carattere più generale rispetto ai profili.

1. Essi comprendono la possibilità di introdurre dei gap nelle sequenze prodotte, con delle penalità che dipendono dalla posizione del gap stesso.

2. L'applicazione dei profili richiede che l'allineamento multiplo di sequenza sia specificato preliminarmente; i pattern statistici vengono successivamente dedotti dagli allineamenti. Gli HMM eseguono l'allineamento e l'assegnazione delle probabilità contemporaneamente

La struttura interna di un HMM mostra il meccanismo utilizzato per produrre le sequenze (Figura 4.6). Cominciate da "Inizio" e seguite alcune delle frecce fino ad arrivare a "Fine". Ogni freccia vi conduce in uno stato del sistema. In corrispondenza di ogni stato, dovete (1) compiere qualche azione (estrarre un residuo per esempio) e (2) scegliere una freccia che vi porti a uno stato successivo. L'azione e la scelta dello stato successivo sono governati da un insieme di probabilità. Associati a ogni stato che produce un residuo sono: una distribuzione di probabilità per i venti aminoacidi e una seconda distribuzione di probabilità per la scelta dello stato successivo. Entrambe queste distribuzioni di probabilità sono calibrate in modo da codificare un'informazione riguardo a una particolare famiglia di sequenze. In questo modo, la stessa cornice generale matematica può adattarsi a molte famiglie di sequenze diverse.

Le dinamiche del sistema sono tali che solo lo stato attuale influenza la scelta dello stato successivo: il sistema non ha "memoria della propria storia". Ciò è caratteristico dei processi studiati nel XIX secolo dal matematico russo A.A. Markov. Occorre distinguere la successione degli stati dalla successione degli aminoacidi forniti per formare la sequenza output. Percorsi diversi attraverso il sistema possono produrre la stessa sequenza. Solo la successione dei caratteri emessi è visibile; la sequenza di uno stato che ha prodotto i caratteri rimane interna al sistema, cioè nascosta (in inglese, hidden). In base alla distribuzione delle probabilità associate ai singoli stati, il sistema cattura, o modella, i pattern inerenti a una famiglia di sequenze. Da qui il nome di Hidden Markov Models.

Il software per applicare gli HMM all'analisi delle sequenze biologiche permette di ottenere:

1. L'allineamento. Dato un insieme di sequenze omologhe, esso può allinearle e aggiustare le probabilità di transizione e di emissione dei residui in modo da definire un HMM che permetta di identificare i pattern inerenti alle sequenze sottoposte.

I.J. Gough, K. Karplus, R. Hughey e C. Chothia hanno prodotto HMM per tutte le superfamiglie contenute in PDB: http://stash.mrc-lmb.cam.ac.uk/SUPERFAMILY/

2. L'individuazione di omologie lontane. Dato un HMM e una sequenza di prova, si può calcolare la probabilità che un HMM produca la sequenza di prova stessa. Se un HMM allenato su una famiglia nota di sequenze produce la sequenza di prova con una probabilità relativamente elevata, è probabile che la sequenza di prova appartenga alla famiglia.

3. L'allineamento di sequenze addizionali. La probabilità di qualunque sequenza di stati viene computata a partire dalle probabilità delle singole transizioni da stato a stato. Trovare la sequenza più probabile di stati che l'HMM utilizzerebbe per produrre una o più sequenze di prova rivela l'allineamento ottimale con la famiglia di sequenze.

| << |  <  |  >  | >> |

Pagina 195

5

Struttura delle proteine e scoperta di nuovi tarmaci


5.1 Introduzione

La grande varietà di strutture tridimensionali e di funzioni delle proteine deriva da molecole che hanno delle proprietà fondamentali comuni. Da un punto di vista chimico, le proteine assomigliano alle ghirlande di luci degli alberi di Natale: ogni proteina consiste di una catena principale composta da un polimero lineare (cioè, non ramificato) alla quale sono attaccate a intervalli regolari catene laterali di aminoacidi (Figura 1.6). Il filo che collega le lampadine corrisponde alla catena principale (o spina dorsale) formata da unità ripetitive, mentre la sequenza variabile dei colori delle lampadine corrisponde alla particolare sequenza delie catene laterali.

La sequenza aminoacidica di una proteina è determinata dalla sequenza nucleotidica del gene. Le strutture tridimensionali delle molecole proteiche sono determinate, senza ulteriore partecipazione degli acidi nucleici, dalle sequenze monodimensionali dei loro aminoacidi. Le proteine si ripiegano spontaneamente assumendo le loro conformazioni native.

In che modo la sequenza aminoacidica codifica per la struttura tridimensionale? Ogni possibile ripiegamento della catena principale porta diversi residui a contatto l'uno con l'altro. Le interazioni della catena principale e delle catene laterali, sia l'una con l'altra sia con il solvente, nonché le restrizioni imposte alla mobilità della catena principale, determinano le stabilità relative delle varie conformazioni. Ciò non è altro che una conseguenza del secondo principio della termodinamica, secondo il quale un sistema a temperatura e pressione costanti trova un equilibrio che rappresenta un compromesso tra la comodità (bassa entalpia, H) e la libertà (alta entropia, S), raggiungendo un valore minimo dell'energia libera di Gibbs G = H — TS, dove T è la temperatura assoluta. (Nelle relazioni umane, il matrimonio è proprio un compromesso di questo genere.)

Le proteine sono evolute in modo che uno dei possibili ripiegamenti della catena principale abbia un significativo vantaggio termodinamico rispetto alle altre conformazioni. Questo ripiegamento rappresenta lo stato nativo. Se potessimo calcolare in modo sufficientemente accurato i valori dell'energia e dell'entropia delle diverse conformazioni, e se potessimo anche esaminare con metodi computazionali un insieme abbastanza grande di possibili conformazioni da poter essere certi che comprenda anche quella corretta, sarebbe allora possibile predire a priori con certezza le strutture delle proteine sulla base dei principi fisico-chimici. Questo obiettivo non è stato per ora raggiunto, sebbene siano stati compiuti notevoli progressi in tal senso.

La catena principale di ogni proteina nel suo stato nativo percorre una curva nello spazio. Si conoscono oggi le strutture di circa 15000 proteine (tra cui molte di una stessa proteina o di suoi mutanti puntiformi) che mostrano una grande varietà di tipi di ripiegamento. Il primo problema nell'analizzare tali strutture è dato dal modo di presentarle. La Figura 5.1 illustra, per la piccola proteina acilfosfatasi, la difficoltà di interpretare una rappresentazione fedele, molto dettagliata, e il tipo di immagini semplificate che i programmi dei computer producono per darci un accesso visuale al materiale. Un sistema attivo di lavoro a domicilio ha prodotto svariate rappresentazioni semplificate che un bravo illustratore molecolare può combinare per mostrare parti differenti di una struttura a un livello di dettagli finemente regolato.

La zona centrale della Figura 5.1 evidenzia l'andamento della catena principale dell'acilfosfatasi nello spazio. Due regioni nella parte anteriore dell'immagine hanno la forma di eliche (come le tipiche insegne dei barbieri americani) con i loro assi in posizione quasi verticale nell'orientamento mostrato. L'acilfosfatasi contiene anche quattro filamenti ß, anch'essi con un orientamento approssimativamente verticale. I quattro filamenti interagiscono lateralmente a formare e stabilizzare un foglietto ß. Nel pannello inferiore, le eliche e i filamenti sono rappresentati come "icone": le eliche come cilindri e i filamenti ß come larghe frecce. La zona superiore della Figura 5.1 mostra invece la rappresentazione più dettagliata della struttura, che comprende sia la catena principale sia quelle laterali, e indica l'importanza della semplificazione per produrre un'immagine comprensibile persino nel caso di una proteina piccola.


5.2 Stabilità e ripiegamento delle proteine

Sebbene non sia ancora possibile predire la struttura delle proteine partendo soltanto dai principi fisici di base, siamo tuttavia in grado di capire la natura generale delle interazioni che determinano tale struttura.

Per poter assumere la struttura nativa, una proteina deve ottimizzare sia le interazioni tra i residui sia quelle all'interno di ciascuno di essi. La curva tridimensionale tracciata dalla catena principale impone dei vincoli a tali interazioni. L'esistenza delle conformazioni preferite della catena principale fa sì che i tipi di ripiegamento tendano verso alcuni motivi strutturali ricorrenti: eliche, regioni estese che interagiscono a formare foglietti e vari tipi standard di anse (o turns).

| << |  <  |  >  | >> |

Pagina 236

5.10 Predizione della funzione delle proteine

Il flusso del ragionamento inferenziale dovrebbe idealmente scorrere nella direzione sequenza —> struttura -> funzione. Ciononostante, sebbene possiamo essere sicuri che sequenze aminoacidiche simili daranno vita a strutture proteiche simili, la relazione tra struttura e funzione è più complessa. Proteine di struttura simile e persino di sequenza simile possono essere impiegate in funzioni molto differenti. Proteine che divergono ampiamente possono conservare funzioni simili. Inoltre, così come molte sequenze diverse sono compatibili con la stessa struttura, proteine non correlate e con tipi di ripiegamento diversi possono svolgere la stessa funzione. Durante l'evoluzione le proteine possono:

1. conservare la funzione e la specificità;

2. conservare la funzione, ma modificare la specificità;

3. passare a svolgere una funzione correlata oppure simile in un contesto metabolico diverso;

4. passare a svolgere una funzione completamente diversa dalla prima.

Spesso ci si chiede: quanto deve cambiare la sequenza o la struttura di una proteina prima che cambi la funzione? La risposta è: alcune proteine hanno molteplici funzioni e quindi non cambiano affatto!

• Nell'anatra, una lattato deidrogenasi attiva e una enolasi fungono da cristalli nel cristallino dell'occhio, sebbene non incontrino i substrati in situ. In altri casi, i cristalli sono strettamente correlati a questi enzimi, ma qualche divergenza si è già verificata e ha condotto alla perdita dell'attività catalitica (questo dimostra che l'attività catalitica non è necessaria nel cristallino).

• Una proteina di E. coli, detta Do oppure DegP oppure HtrA, agisce da chaperonina (catalizzando il ripiegamento delle proteine) a temperature basse, mentre a 42°C si trasforma in una proteasi. Il fondamento logico sembra essere: in condizioni normali o in caso di stress termico moderato, lo scopo è quello di salvare le proteine che stanno incontrando difficoltà nel ripiegamento; in condizioni di stress termico più grave, quando il salvataggio è impossibile, lo scopo diventa quello di riciclarle.

• Abbiamo già menzionato l'enzima lipoato deidrogenasi di E. coli che costituisce una subunità fondamentale della piruvato idrogenasi, della 2-ossoglutarato deidrogenasi e del complesso di scissione della glicina.

Questi esempi della relazione struttura-funzione si posizionano all'estremità più distante di uno spettro molto ampio di possibili comportamenti.

Uno dei problemi è rappresentato dal fatto che non è semplice definire quantitativamente l'idea di una differenza di funzione. Quando due funzioni diverse sono più simili tra di loro rispetto a due altre funzioni diverse? In alcuni casi, una funzione modificata può celare un meccanismo simile. La superfamiglia dell'enolasi, per esempio, contiene svariati enzimi omologhi che catalizzano reazioni diverse con meccanismi che presentano caratteristiche comuni. Questo gruppo comprende l'enolasi stessa, la mandelato racemasi, l'enzima lattonizzante I del muconato e la D-glucarato deidratasi. Ciascuno di questi enzimi agisce formando un intermedio enolato mediante estrazione di un protone da un acido carbossilico. I passaggi successivi della reazione e la natura del prodotto variano da enzima a enzima. Questi enzimi hanno una struttura complessiva molto simile, una variante del tipo di ripiegamento a barile della proteina TIM. Residui diversi nel sito attivo danno vita a enzimi che catalizzano reazioni diverse.

| << |  <  |  >  | >> |

Pagina 239

5.11 Scoperta e sviluppo di nuovi farmaci

È un'esperienza interessante chiedere, in un'aula piena di studenti, quanti di loro sarebbero oggi vivi senza essere stati sottoposti ad almeno un ciclo di terapia farmaceutica durante una malattia seria. (Tale domanda non considera le malattie evitate grazie alle vaccinazioni.) Oppure chiedere agli studenti quanti dei loro nonni ancora viventi avrebbero una qualità di vita molto peggiore senza un regolare trattamento con farmaci. Le risposte sono eloquenti. Esse rivelano altresì la preoccupazione nei confronti dei nuovi ceppi dei microrganismi infettivi resistenti agli antibiotici. In effetti, è necessario sviluppare nuovi farmaci i quali, in combinazione con un'informazione genomica che possa aumentare la loro specificità, allungheranno e miglioreranno le nostre vite.

La "carriera" di un farmaco non è comunque facile. Perché un composto chimico possa venire qualificato come un farmaco, esso deve essere:

• non nocivo;

• efficiente;

• stabile (sia chimicamente sia metabolicamente);

• somministrabile: il farmaco deve essere assorbito e trasportato fino al sito d'azione;

• disponibile (mediante estrazione da fonti naturali o mediante sintesi);

• nuovo, cioè brevettabile.

I passaggi dello sviluppo di un nuovo farmaco sono riassunti nel Box a pag. 240. Questo processo comprende ricerca scientifica, test clinici per accertare l'assenza di nocività e l'efficacia del farmaco e aspetti economici e legali molto importanti che prevedono la protezione del brevetto e la previsione del ritorno economico su un investimento iniziale molto alto.

Per sviluppare un farmaco, inizialmente, dovete scegliere una malattia bersaglio. Vorrete sapere tutto quello che si conosce sulle sue possibili cause, i sintomi, gli aspetti genetici, epidemiologici, le relazioni con altre malattie (umane e animali) e tutti i trattamenti conosciuti. Assumendo che la potenziale utilità di un farmaco giustifica il tempo, la spesa e il lavoro richiesti per svilupparne uno, adesso siete pronti per iniziare.

Dovete sviluppare un saggio opportuno attraverso il quale monitorare i successi nella prima fase. Se il bersaglio è una proteina nota, il legame a tale proteina può essere misurato direttamente. Un possibile farmaco antibatterico può essere testato circa il suo effetto sulla crescita del patogeno. Alcuni composti possono essere testati circa gli effetti sulla crescita delle cellule eucariotiche in colture di tessuti. Se un animale da laboratorio è suscettibile alla malattia, i composti possono essere testati su soggetti animali. Ciononostante, alcuni composti possono avere effetti diversi sugli animali e sull'uomo. Per esempio, il tamoxifen, oggi un farmaco ampiamente utilizzato contro il tumore alla mammella, fu originariamente sviluppato come una pillola per il controllo delle nascite. In effetti, esso è un ottimo contraccettivo nei ratti, mentre promuove l'ovulazione nelle donne.

| << |  <  |