Multiple-complete-digest restriction fragment mapping: Generazione di mappe pronte alla sequenza per il sequenziamento del DNA su larga scala

RISULTATI

Le procedure sperimentali alla base della mappatura MCD sono mostrate in Fig. 1, e una panoramica concettuale di questo processo è mostrato in Fig. 2. Protocolli standard di biologia molecolare sono impiegati in tutto. Tuttavia, sono stati apportati numerosi adattamenti per produrre dati di qualità adeguata per la mappatura MCD., Le immagini in gel di altissima qualità sono essenziali perché la precisione delle misurazioni delle dimensioni del frammento determina il contenuto informativo dei dati delle impronte digitali e quindi la frequenza con cui diversi frammenti di dimensioni simili vengono confusi tra loro. Inoltre, la mappatura su larga scala è pratica solo quando le immagini del gel possono essere analizzate automaticamente con pochi errori. Questo obiettivo è raggiungibile solo con immagini coerenti e di alta qualità.

iv xmlns:xhtml=”http://www.w3.org/1999/xhtml”>Figura 1

Diagramma di flusso delle procedure wet bench per la mappatura YAC → cosmid e BAC → cosmid MCD., La differenza principale è che, mentre il DNA BAC può essere facilmente purificato dal DNA cromosomico batterico, non esiste un buon metodo preparativo per separare il DNA YAC dal DNA cromosomico del lievito. Nel caso YAC, la piccola percentuale dei cosmidi derivati dallo YAC è identificata da un protocollo di screening delle colonie basato sull’ibridazione. Con i cosmidi derivati da BAC, questo passaggio non è necessario perché il software di mappatura può facilmente eliminare il piccolo numero di cosmidi che non provengono dal BAC.

Figura 2

Rappresentazione schematica del processo di mappatura MCD., (a) Immagine gel. b) Elenco delle dimensioni dei frammenti per ciascun dominio enzimatico in ciascun clone. Le corsie etichettate con un numero identificano il clone come c01 o c02. Le corsie etichettate con la lettera M identificano i marcatori di dimensione. (c) Tre mappe a singolo enzima sono costruite in modo indipendente (a destra). La sincronizzazione tra i domini enzimatici produce una mappa composita (a sinistra). I segni di spunta lunghi indicano i confini tra gruppi ordinati di frammenti; i segni di spunta corti delimitano i frammenti non ordinati all’interno di un gruppo, disegnati arbitrariamente in ordine decrescente.,

La riuscita implementazione della mappatura MCD ha richiesto una co-evoluzione del processo sperimentale e del software di analisi dei dati. Un esempio di questa interazione è il disegno del vettore cosmide. Per il sequenziamento shotgun, il vettore dovrebbe essere il più piccolo possibile per ridurre al minimo il sovraccarico associato al sequenziamento ripetuto del vettore. Per la mappatura MCD, il vettore non deve contenere siti per gli enzimi di mappatura e non deve consentire la creazione di un sito artefatto nella giunzione vettore-inserto (ad es.,, quando un frammento di MboI partial-digest è legato in un sito di clonazione di BamHI, c’è una probabilità che un sito di Bamhi artifactual sarà creato alla giunzione). Quando il vettore s-Cos-DBI viene utilizzato per clonare frammenti MboI a digestione parziale, viene prodotto un singolo frammento contenente vettori di dimensioni minime note (3205 bp) in ciascuno dei nostri tre domini enzimatici. Poiché questo frammento contenente il vettore non è rappresentativo di alcun frammento di digest completo nel genoma sottostante, viene identificato mediante ibridazione con trasferimento di gel ed eliminato dall’elenco dei frammenti utilizzati per l’assemblaggio della mappa.,

Un importante miglioramento della qualità dell’immagine è stato ottenuto passando al colorante intercalante SYBR–green I. Alla lunghezza d’onda di eccitazione di 488 nm utilizzata dal nostro scanner gel, troviamo che SYBR–green I è cinque volte più sensibile dell’arancio tiazolo, che a sua volta è tre volte più sensibile del bromuro di etidio. In genere carichiamo solo 15 ng di DNA cosmide per corsia di gel quando si utilizza SYBR-green I per macchiare gel di dimensioni ordinarie. La distorsione della banda dovuta al sovraccarico locale non è mai un problema perché le bande più grandi contengono solo 5-10 ng di DNA., Inoltre, quando si impiega DNA di purezza solo moderata, come facciamo noi, la pulizia dei digestori di restrizione è inversamente correlata al volume di coltura batterica da cui viene estratto il DNA. SYBR-green I ha notevolmente ridotto il numero di corsie di gel inutilizzabili a causa di digestioni povere o fallite. L’unica complicazione grave è che, per ragioni sconosciute, SYBR-green I mostra un intervallo stretto e variabile su cui la fluorescenza integrata aumenta linearmente con la quantità di DNA nella banda.,

La determinazione automatica, robusta e accurata delle dimensioni dei frammenti richiede marcatori di dimensioni del DNA accuratamente progettati. Idealmente, le bande di marcatori dovrebbero essere uniformemente distanziate lungo la lunghezza dell’arco della curva di mobilità delle dimensioni. Ci deve essere un numero crescente di bande di marcatori man mano che la dimensione del frammento si avvicina alla soglia alla quale le mobilità diventano indipendenti dalla dimensione. L’attenzione alla stabilità curva in questa regione consente un’eccellente precisione di dimensionamento dei frammenti fino a 15 kbp (SD ± 1%) e un’adeguata precisione di dimensionamento dei frammenti fino a 40 kbp (SD ± 5%)., Un secondo requisito è che ci devono essere tre bande che sono facilmente riconoscibili come massimi di intensità locale. Il riconoscimento di queste bande cospicue nucleano la procedura automatica pattern-match con cui il software di analisi delle immagini identifica le bande marker. Nel nostro formato gel standard (Fig. 3), gruppi di sei corsie digest sono affiancati da due corsie marcatore. Tutte le cinque corsie di marcatura sul gel sono utilizzate nell’algoritmo di interpolazione bidimensionale che assegna le dimensioni alle bande di digest.

Figura 3

Immagine in scala di grigi di un tipico gel di mappatura poststained con SYBR-green I., Ci sono cinque corsie segnaletiche, nelle posizioni 1, 8, 15, 22 e 29. Due cloni, ciascuno digerito indipendentemente con EcoRI, HindIII e NsiI (e caricato in quell’ordine) vengono posizionati tra ogni coppia di corsie di marcatura.

Il problema di analisi delle immagini associato a un pattern digest di restrizione è molto diverso dal problema di “chiamata di base” associato a una scala di sequenziamento. Il software di chiamata di base deve solo identificare la banda dominante in ogni posizione della scala., Al contrario, il software progettato per analizzare i modelli di restrizione deve determinare il numero di frammenti in ogni banda, poiché qualsiasi numero di frammenti di dimensioni simili può comigrare in qualsiasi posizione in una corsia. In normali condizioni elettroforetiche, le moltiplicazioni di banda di due o tre sono comuni. Le moltiplicazioni di banda devono essere calcolate nonostante diminuiscano i rapporti segnale-rumore a piccole dimensioni di frammenti e non linearità nella relazione tra intensità di fluorescenza integrata e quantità di DNA per banda. Queste caratteristiche dell’immagine possono variare da corsia a corsia anche sullo stesso gel., Un efficace software di analisi delle immagini deve tenere conto di tutte queste realtà sperimentali. L’analisi di una tipica corsia di gel è mostrata Fig. 4. Ora abbiamo analizzato con successo oltre 1.000 gel con il nostro software e, a conti fatti, è quasi buono come un interprete esperto. Fa alcuni errori che un esperto umano non farebbe, ma analizza anche correttamente molte bande che un esperto avrebbe miscount.

Figura 4

Elaborazione di immagini di gel di agarosio. (a) Immagine a falsi colori di digest dalla corsia 11 del gel mostrato in Fig. 3., Viene mostrata l’immagine a corsia intera (a sinistra) e un’immagine ridimensionata con intensità della regione delimitata da “zoom” (a destra). Le barre bianche puntano a bande che vengono identificate automaticamente dal software di analisi delle immagini. Le dimensioni dei frammenti in coppie di basi sono indicate e le eventuali moltiplicazioni di banda maggiori di una sono indicate tra parentesi. (b) Rappresentazione unidimensionale della corsia completa (superiore) e della regione di zoom (inferiore). Il collasso in una dimensione viene eseguito con uno schema di media basato sulla mediana. Ogni riga viene analizzata separatamente., I pixel vengono prima ordinati per intensità e un numero fisso di pixel di intensità più bassa viene eliminato per tenere conto del divario tra le corsie del gel. Dal resto, viene calcolata una media del quartile medio. (c) Conta frammento per la corsia, che contiene otto singlets, tre doppietti, e una tripletta. Le stime del conteggio dei frammenti si basano sull’andamento dell’intensità della banda integrata rispetto alla dimensione dei frammenti. Questa tendenza è variabile da gel a gel ed è altamente non lineare., Ogni corsia di digest sul gel che non è stata respinta a causa di dati errati viene analizzata simultaneamente per costruire una linea di tendenza composita per la relazione tra intensità integrata e quantità di DNA.

Una caratteristica fondamentale del sistema è il rifiuto automatico di dati di bassa qualità. Non viene fatto alcun tentativo di identificare la fonte del problema. Il software ha un modello interno di come dovrebbe essere una buona corsia di dati e rifiuta qualsiasi corsia che non soddisfi questo modello., Un elenco parziale dei tipi di problemi rilevati include cloni eliminati, cloni misti, digestioni parziali, digestioni fallite, scissione in siti secondari, corsie sovraccaricate, corsie sottocaricate e sporcizia sul gel. Nella pratica attuale, l ‘ 80-90% delle corsie gel sono utilizzabili. Tuttavia, anche le buone corsie possono essere male interpretate. Un potente strumento per rilevare interpretazioni errate è il test di coerenza somma-di-frammenti di enzimi incrociati., Fatta eccezione per i contributi di alcuni piccoli frammenti mancanti di dimensioni inferiori a 500 bp, che in media dovrebbero essere inferiori all ‘ 1% della lunghezza totale del cosmide, la somma dei frammenti dovrebbe essere coerente tra i domini enzimatici. Può variare tra 40 e 50 kbp da clone a clone, ma da enzima ad enzima su un dato clone deviazioni totali di più di 1 o 2 kbp sono quasi certa indicazione che qualcosa non va con l’analisi delle immagini., Utilizzando questo test per rilevare le corsie mal analizzate e correggere manualmente i conteggi dei frammenti, abbiamo essenzialmente eliminato i conteggi dei frammenti su tutte le bande più grandi di 2 kbp.

La fase automatica dell’assemblaggio della mappa MCD procede come una serie di passaggi durante i quali l’ordine del clone termina e i frammenti di restrizione vengono progressivamente raffinati (16, 17). I valori anomali di dimensionamento dei frammenti sono gestiti dal concetto di “zona grigia”. Un accoppiamento di frammenti più preciso della soglia della zona grigia inferiore viene accettato automaticamente a meno che non violi un vincolo topologico della mappa., All’interno della zona grigia, gli accoppiamenti dei frammenti vengono effettuati solo se sono necessari per la coerenza topologica; in caso contrario, vengono posticipati. Gli abbinamenti meno precisi rispetto alla soglia della zona grigia superiore vengono rifiutati a titolo definitivo. Attualmente impostiamo le soglie della zona grigia a 2.0 e 4.0% sulla maggior parte dell’intervallo di dimensioni utilizzabile. Queste soglie sono aumentate sia per i frammenti di grandi dimensioni (a causa della grave perdita di risoluzione elettroforetica) che per i piccoli frammenti (a causa della moderata perdita di risoluzione elettroforetica e dell’aumento dell’allargamento della banda)., I valori anomali statistici generalmente scendono al di sotto della zona grigia. Gli accoppiamenti validi finiscono nella zona grigia principalmente come risultato di una banda multiplet che non è correttamente scomposta dal software di analisi delle immagini nei suoi frammenti componenti.

In definitiva, la chiave per ottenere mappe accurate risiede in una strategia “fix it as you grow”. La premessa di base è che gli errori sono rari, a causa dell’alta qualità dei dati di input., Quando si verificano errori e indipendentemente dal fatto che siano dovuti a aberrazioni di clonazione, errori di analisi delle immagini o errori di assemblaggio delle mappe, il problema è solitamente limitato a uno solo dei tre domini enzimatici. Spesso, il problema è limitato a un singolo clone. La rimozione del clone sospetto consente alla mappa di crescere. Una volta che la mappa si estende oltre la fine del clone sospetto, è generalmente abbastanza facile determinare il motivo per cui quel clone ha interferito originariamente con la crescita della mappa., Se il problema è un errore evidente nell’analisi dell’immagine o nell’identificazione della banda vettoriale, correggiamo il set di dati e rimettiamo il clone nella mappa. Alle nostre elevate profondità di campionamento, questi vincoli sulla costruzione della mappa sono sufficientemente forti ovunque, ma alle estremità, per consentire a quasi tutti gli errori di essere rilevati e corretti. Eventuali errori non rilevati sono all’interno di una lunghezza clone della fine della mappa o in una regione di copertura eccezionalmente bassa.

La Tabella 1 è un riassunto delle mappe YAC → cosmid che abbiamo costruito sul cromosoma umano 7., Non tutti i frammenti sono ordinati e i frammenti localmente non ordinati vengono posizionati in ” gruppi di frammenti.” Nella maggior parte dei casi, c’è una media di 1,2–1,3 frammenti non ordinati per gruppo di frammenti, il che significa che ci avviciniamo strettamente all’obiettivo di ordinare tutti i frammenti di restrizione. Una tipica mappa MCD, che combina i risultati di quattro mappe YAC → cosmid costruite indipendentemente, è mostrata in Fig. 5. Le elevate profondità di campionamento consentono la selezione di un percorso di piastrellatura veramente minimo, con sovrapposizioni di poche coppie di kilobase., YAC fidelity viene convalidato confrontando le regioni sovrapposte tra queste mappe costruite in modo indipendente. Ad oggi, non sono state trovate discrepanze. Come un test ancora più rigoroso di fedeltà YAC, abbiamo preso le impronte digitali di una piccola collezione di cosmidi da una libreria che è stata direttamente succlonata dalla stessa linea cellulare ibrida utilizzata per costruire gli YACs (E. D. Green, risultati inediti). Non sono state trovate discrepanze tra questi cosmidi e quelli derivati dai cloni YAC. Le percezioni popolari sull’instabilità di YAC si basano in gran parte sull’esperienza con un numero relativamente piccolo di librerie., Ciò che questi risultati stabiliscono è che le librerie YAC stabili possono essere costruite e che gli YAC possono essere usati come cloni iniziali per il sequenziamento sistematico.

Visualizza questa tabella:

  • Visualizza inline
  • Visualizza popup
Tabella 1

Riepilogo di YAC → cosmid MCD mappe per le parti del cromosoma umano 7

Figura 5

Rappresentante MCD mappa del cromosoma 7. Quattro YAC derivati da linee cellulari ibride sono stati subclonati in cosmidi per mappare questa regione di 400 kbp., Inoltre, una speciale libreria cosmid derivata direttamente dalla linea cellulare ibrida (cioè non derivata da un clone YAC) è stata posizionata su questa mappa, senza incongruenze. La mappa è raffigurata appena sotto la barra della scala superiore. I domini enzimatici EcoRI, HindIII e NsiI sono raffigurati, dall’alto verso il basso, in rosso, verde e blu. Gruppi ordinati di frammenti sono separati da segni di spunta alti e frammenti non ordinati all’interno di un gruppo sono separati da segni di spunta brevi. I cloni minimal-tiling-path sono visualizzati in viola appena sotto la mappa., Sotto i cloni del percorso di piastrellatura, viene mostrato un insieme più ampio di cloni: questo insieme include tutti i cloni tranne quelli il cui contenuto del frammento è identico a, o un sottoinsieme di, quello di un clone visualizzato. La prossima è una serie di cinque istogrammi. Dall’alto verso il basso, riflettono la copertura cosmid derivata dalle seguenti fonti: la libreria cosmid preparata direttamente dal DNA della linea cellulare ibrida, yWSS1613, yWSS771, yWSS1572 e yWSS1434. Sotto gli istogrammi è una valutazione della qualità della mappa basata su atlas (E. Thayer, lavoro inedito).,

Ora abbiamo sequenziato i cosmidi da quasi 1 Mbp del DNA la cui mappatura è riassunta nella Tabella 1. I dati di sequenziamento shotgun sono stati analizzati con il sistema di sequenza-assemblaggio Phred/Phrap (P. Green, risultati inediti). Non sono stati rilevati errori di mappatura quando le mappe derivate dalla sequenza sono state confrontate con le mappe MCD. Non solo i frammenti erano ordinati correttamente, ma la precisione delle distanze intersite era inferiore all ‘1%, anche se con un errore sistematico leggermente superiore all’ 1% per i frammenti più grandi., Le mappe coinvolte in questo test contenevano più di 700 diversi frammenti di restrizione. In un progetto indipendente di mappatura MCD / sequenziamento shotgun di dimensioni comparabili nella regione HLA di classe I sul cromosoma umano 6, sono stati ottenuti risultati simili (D. E. Geraghty, T. Guillaudeux e M. Janer, risultati inediti). Nel progetto HLA, un singolo errore di mappatura è stato rilevato alla fine di una mappa, che è stata ricondotta al miscounting di una banda multiplet 600 bp in un singolo cosmide. Mappe aggiornate, sequenze e documentazione software possono essere trovate sul nostro sito Web all’indirizzohttp://www.genome.washington.edu.

Leave a Comment