Cartographie des fragments de restriction à digest Multiple complet: génération de cartes prêtes pour la séquence pour le séquençage de L’ADN à grande échelle

résultats

Les procédures expérimentales derrière la cartographie MCD sont illustrées à la Fig. 1, et un aperçu conceptuel de ce processus est illustré à la Fig. 2. Des protocoles Standard de biologie moléculaire sont utilisés partout. Cependant, un certain nombre d’adaptations ont été apportées pour produire des données de qualité adéquate pour la cartographie MCD., Des images gel de très haute qualité sont essentielles car la précision des mesures de taille des fragments détermine le contenu informatif des données d’empreintes digitales et donc la fréquence à laquelle différents fragments de taille similaire sont confondus les uns avec les autres. De plus, la cartographie à grande échelle n’est pratique que lorsque les images gel peuvent être analysées automatiquement avec peu d’erreurs. Cet objectif n’est réalisable qu’avec des images cohérentes et de haute qualité.

iv xmlns:xhtml= »http://www.w3.org/1999/xhtml »>Figure 1

organigramme des procédures de banc humide pour YAC → cosmid et BAC → Cosmid MCD mapping., La principale différence est que, bien que L’ADN BAC puisse facilement être purifié à partir de L’ADN chromosomique bactérien, il n’existe pas de bonne méthode de préparation pour séparer L’ADN YAC de l’ADN chromosomique de la levure. Dans le cas du YAC, les quelques pour cent des cosmides dérivés du YAC sont identifiés par un protocole de criblage de colonies basé sur l’hybridation. Avec les cosmides dérivés du BAC, cette étape est inutile car le logiciel de cartographie peut facilement éliminer le petit nombre de cosmides qui ne proviennent pas du BAC.

Figure 2

représentation Schématique de la base de données CENTRALE du processus de cartographie., (a) image de Gel. B) Liste des tailles de fragments pour chaque domaine enzymatique de chaque clone. Les voies marquées d’un numéro identifient le clone comme c01 ou c02. Les voies marquées de la lettre M identifient les marqueurs de taille. c) trois cartes monoenzymatiques sont construites indépendamment (à droite). La synchronisation entre les domaines enzymatiques donne une carte composite (à gauche). Les marques de tiques longues indiquent les limites entre les groupes ordonnés de fragments; les marques de tiques courtes délimitent les fragments non ordonnés au sein d’un groupe, arbitrairement dessinés par ordre de taille décroissante.,

La mise en œuvre réussie de la cartographie MCD a nécessité une co-évolution du processus expérimental et du logiciel d’analyse des données. Un exemple de cette interaction est la conception du vecteur cosmide. Pour le séquençage shotgun, le vecteur doit être aussi petit que possible pour minimiser la surcharge associée au séquençage répété du vecteur. Pour la cartographie MCD, le vecteur ne doit contenir aucun site pour les enzymes de cartographie et ne permettre aucune possibilité de création d’un site artifactuel à la jonction vecteur-insertion (par exemple,, quand un fragment MboI partiel-digest est ligaturé dans un site de Clonage BamHI, il y a une chance qu’un site BamHI artefactuel soit créé à la jonction). Lorsque le vecteur s-Cos-DBI est utilisé pour cloner des fragments MboI partiellement digérés, un seul fragment contenant un vecteur de taille minimale connue (3205 PB) est produit dans chacun de nos trois domaines enzymatiques. Étant donné que ce fragment contenant des vecteurs n’est représentatif d’aucun fragment à digestion complète dans le génome sous-jacent, il est identifié par hybridation par transfert de gel et éliminé de la liste des fragments utilisés pour l’assemblage de map.,

Une amélioration majeure de la qualité d’image a été obtenue en passant au colorant intercalant SYBR–green I. À La longueur d’onde d’excitation de 488 nm utilisée par notre scanner de gel, nous constatons que SYBR–green I est cinq fois plus sensible que l’orange thiazole, qui est à son tour trois fois plus sensible que le bromure Nous ne chargeons généralement que 15 ng d’ADN cosmide par voie de gel lorsque nous utilisons SYBR-green I pour colorer des gels de dimensions ordinaires. La distorsion de bande due à la surcharge locale n’est jamais un problème car les plus grandes bandes ne contiennent que 5 à 10 ng d’ADN., De plus, lorsque l’on utilise de l’ADN d’une pureté modérée, comme nous le faisons, la propreté des digestions de restriction est inversement liée au volume de culture bactérienne à partir duquel l’ADN est extrait. SYBR-green I a considérablement réduit le nombre de voies de gel inutilisables en raison de digestions médiocres ou ratées. La seule complication grave est que, pour des raisons inconnues, SYBR-green I affiche une plage étroite et variable sur laquelle la fluorescence intégrée augmente linéairement avec la quantité d’ADN dans la bande.,

la détermination automatique, robuste et précise de la taille des fragments nécessite des marqueurs de taille D’ADN soigneusement conçus. Idéalement, les bandes de marqueur devraient être uniformément espacées le long de la longueur d’arc de la courbe de mobilité de taille. Il doit y avoir un nombre croissant de bandes de marqueurs à mesure que la taille du fragment approche du seuil auquel les mobilités deviennent indépendantes de la taille. L’Attention portée à la stabilité de l’ajustement en courbe dans cette région permet une excellente précision de dimensionnement des fragments jusqu’à 15 kbp (SD ± 1%) et une précision de dimensionnement adéquate des fragments jusqu’à 40 kbp (SD ± 5%)., Une deuxième exigence est qu’il doit y avoir trois bandes qui sont facilement reconnues comme maxima d’intensité locale. La reconnaissance de ces bandes visibles permet de nucléer la procédure automatique de correspondance de motifs par laquelle le logiciel d’analyse d’image identifie les bandes de marqueurs. Dans notre format de gel standard (Fig. 3), des ensembles de six voies de digest sont flanqués de deux voies de marqueur. Toutes les cinq voies de marqueur sur le gel sont utilisées dans l’algorithme d’interpolation bidimensionnelle qui attribue des tailles aux bandes de synthèse.

Figure 3

image en échelle de gris d’un gel de cartographie typique poststained avec SYBR–green I., Il y a cinq voies de signalisation, aux positions 1, 8, 15, 22 et 29. Deux clones, chacun digéré indépendamment avec EcoRI, HindIII et NsiI (et chargé dans cet ordre) sont placés entre chaque paire de voies de marqueur.

le problème d’analyse d’image associé à un modèle de synthèse de restriction est très différent du problème « d’appel de base” associé à une échelle de séquençage. Le logiciel d’appel de Base n’a besoin que d’identifier la bande dominante à chaque position d’échelle., En revanche, les logiciels conçus pour analyser les modèles de restriction doivent déterminer le nombre de fragments dans chaque bande, car n’importe quel nombre de fragments de taille similaire peut comigrate à n’importe quelle position dans une voie. Dans des conditions électrophorétiques normales, des multiplicités de bande de deux ou trois sont courantes. Les multiplicités de bande doivent être calculées en dépit de la diminution des rapports signal / bruit à de petites tailles de fragments et des non-linéarités dans la relation entre l’intensité de fluorescence intégrée et la quantité D’ADN par bande. Ces caractéristiques d’image peuvent varier d’une voie à l’autre, même sur le même gel., Un logiciel d’analyse d’image efficace doit tenir compte de toutes ces réalités expérimentales. L’analyse d’une voie de gel typique est montrée Fig. 4. Nous avons maintenant analysé avec succès plus de 1 000 gels avec notre logiciel et, dans l’ensemble, il est presque aussi bon qu’un interprète expert. Il fait des erreurs qu’un expert humain ne ferait pas, mais il analyse également correctement de nombreuses bandes qu’un expert compterait mal.

Figure 4

Traitement des images de gel d’agarose. (a) image en fausse couleur du condensat de la voie 11 du gel représenté à la Fig. 3., L’image de la voie complète est affichée (à gauche), et une image de la région délimitée par « zoom” est affichée (à droite). Les barres blanches pointent vers des bandes qui sont automatiquement identifiées par le logiciel d’analyse d’image. Les tailles de fragments dans les paires de bases sont indiquées, et toutes les multiplicités de bande supérieures à une sont indiquées entre parenthèses. B) représentation unidimensionnelle de la voie complète (en haut) et de la région de zoom (en bas). L’effondrement à une dimension se fait avec un schéma de moyenne biaisée par la médiane. Chaque ligne est analysée séparément., Les Pixels sont d’abord triés par intensité, et un nombre fixe de pixels d’intensité la plus faible est éliminé pour tenir compte de l’écart entre les voies de gel. À partir du reste, une moyenne du quartile moyen est calculée. (c) nombre de fragments pour la voie, qui contient huit singlets, trois doublets et un triplet. Les estimations du nombre de fragments sont fondées sur la tendance de l’intensité de la bande intégrée par rapport à la taille des fragments. Cette tendance est variable d’un gel à l’autre et est hautement non linéaire., Chaque voie digest sur le gel qui n’a pas été rejetée en raison de mauvaises données est analysée simultanément pour construire une ligne de tendance composite pour la relation entre l’intensité intégrée et la quantité D’ADN.

Un élément clé du système est le rejet automatique de la faible qualité des données. Aucune tentative n’est faite pour identifier la source du problème. Le logiciel a un modèle interne de ce à quoi devrait ressembler une bonne voie de données, et il rejette toute voie qui ne satisfait pas ce modèle., Une liste partielle des types de problèmes détectés comprend les clones supprimés, les clones mixtes, les digestions partielles, les digestions ratées, le clivage sur les sites secondaires, les voies surchargées, les voies sous-chargées et la saleté sur le gel. Dans la pratique actuelle, 80 à 90% des voies de gel sont utilisables. Cependant, même les bonnes voies peuvent être mal interprétées. Un outil puissant pour détecter les erreurs d’interprétation est le test de cohérence de la somme des fragments d’enzymes croisées., À l’exception des contributions de quelques petits fragments manquants de taille inférieure à 500 PB, qui devraient en moyenne représenter moins de 1% de la longueur totale du cosmide, la somme des fragments devrait être cohérente dans tous les domaines enzymatiques. Il peut varier entre 40 et 50 kbp d’un clone à l’autre, mais d’une enzyme à l’autre sur un clone donné, des écarts totaux de plus de 1 ou 2 kbp sont une indication presque certaine que quelque chose ne va pas avec l’analyse de l’image., En utilisant ce test pour détecter les voies mal analysées et en corrigeant manuellement le nombre de fragments, nous avons essentiellement éliminé les erreurs de comptage de fragments sur toutes les bandes de plus de 2 kbp.

la phase automatique de L’assemblage de carte MCD se déroule sous la forme d’une série d’étapes au cours desquelles l’ordre des extrémités du clone et des fragments de restriction est progressivement affiné (16, 17). Les valeurs aberrantes de dimensionnement des fragments sont gérées par le concept de” zone grise ». Un appariement de fragments plus précis que le seuil de zone grise inférieure est automatiquement accepté à moins qu’il ne viole une contrainte topologique de la carte., Dans la zone grise, les appariements de fragments ne sont effectués que s’ils sont requis pour la cohérence topologique; sinon, ils sont différés. Les appariements qui sont moins précis que le seuil de la zone grise supérieure sont purement et simplement rejetés. Nous fixons actuellement les seuils de zone grise à 2,0 et 4,0% sur la majeure partie de la plage de taille utilisable. Ces seuils sont augmentés à la fois pour les gros fragments (en raison de la perte sévère de la résolution électrophorétique) et pour les petits fragments (en raison de la perte modérée de la résolution électrophorétique et de l’élargissement accru de la bande)., Les valeurs aberrantes statistiques tombent généralement en dessous de la zone grise. Les appariements valides se retrouvent dans la zone grise principalement à la suite d’une bande multiplet qui n’est pas correctement décomposée par le logiciel d’analyse d’image en fragments de ses composants.

en fin de compte, la clé pour obtenir des cartes précises réside dans une stratégie « réparer à mesure que vous grandissez”. La prémisse de base est que les erreurs sont rares, en raison de la haute qualité des données d’entrée., Lorsque des erreurs se produisent, qu’elles soient dues à des aberrations de Clonage, à des erreurs d’analyse d’image ou à des erreurs d’assemblage de cartes, le problème est généralement limité à un seul des trois domaines enzymatiques. Souvent, le problème est limité à un seul clone. La suppression du clone suspect permet à la carte de se développer. Une fois que la carte s’étend au-delà de la fin du clone suspect, il est généralement assez facile de déterminer pourquoi ce clone a interféré à l’origine avec la croissance de la carte., Si le problème est une erreur évidente dans l’analyse d’image ou l’identification de bande vectorielle, nous corrigeons l’ensemble de données et remettons le clone sur la carte. À nos profondeurs d’échantillonnage élevées, ces contraintes sur la construction de la carte sont suffisamment fortes partout mais aux extrémités pour permettre la détection et la correction de presque toutes les erreurs. Toutes les erreurs non détectées se trouvent soit dans une longueur de clone de la fin de la carte, soit dans une région de couverture exceptionnellement faible.

le tableau 1 est un résumé des cartes YAC → cosmid que nous avons construites sur le chromosome 7 humain., Tous les fragments ne sont pas ordonnés et les fragments non ordonnés localement sont placés dans des « groupes de fragments.” Dans la plupart des cas, il y a en moyenne 1,2 à 1,3 fragments non ordonnés par groupe de fragments, ce qui signifie que nous approchons de près l’objectif d’Ordonner tous les fragments de restriction. Une carte MCD typique, qui combine les résultats de quatre cartes YAC → cosmid construites indépendamment, est illustrée à la Fig. 5. Les profondeurs d’échantillonnage élevées permettent la sélection d’un chemin de carrelage vraiment minimal, avec des chevauchements de seulement quelques paires de kilobases., La fidélité YAC est validée en comparant les régions qui se chevauchent entre ces cartes construites indépendamment. À ce jour, aucune divergence n’a été trouvé. Comme un test encore plus rigoureux de la fidélité YAC, nous avons pris des empreintes digitales d’une petite collection de cosmides d’une bibliothèque qui a été directement sous-cloné à partir de la même lignée cellulaire hybride utilisée pour construire les YAC (E. D. Green, résultats non publiés). Aucune divergence n’a été trouvée entre ces cosmidés et ceux dérivés de clones YAC. Les perceptions populaires au sujet de l’instabilité YAC sont basées en grande partie sur l’expérience avec un nombre relativement faible de bibliothèques., Ce que ces résultats établissent, c’est que des bibliothèques YAC stables peuvent être construites et que les yacs peuvent être utilisés comme clones de départ pour le séquençage systématique.

la Vue de ce tableau:

  • Affichage inline
  • Afficher popup
Table 1

Résumé des YAC → cosmide MCD cartes pour des parties de l’homme chromosome 7

Figure 5

Représentant MCD carte du chromosome 7. Quatre YAC hybrides dérivés de lignées cellulaires ont été sous-clonés en cosmides pour cartographier cette région de 400 kbp., En outre, une bibliothèque cosmide spéciale dérivée directement de la lignée cellulaire hybride (c’est-à-dire non dérivée d’un clone YAC) a également été placée sur cette carte, sans incohérence. La carte est représentée juste en dessous de la barre d’échelle supérieure. Les domaines enzymatiques EcoRI, HindIII et NsiI sont représentés, de haut en bas, en rouge, vert et bleu. Les groupes ordonnés de fragments sont séparés par de grandes marques de tiques et les fragments non ordonnés au sein d’un groupe sont séparés par de courtes marques de tiques. Les clones de chemin de carrelage minimal sont affichés en violet juste en dessous de la carte., Sous les clones de chemin de mosaïque, un plus grand ensemble de clones est affiché: cet ensemble comprend tous les clones sauf ceux dont le contenu du fragment est identique à, ou un sous-ensemble de, celui d’un clone affiché. Vient ensuite une série de cinq histogrammes. De haut en bas, ils reflètent la couverture cosmide dérivée des sources suivantes: la bibliothèque cosmide préparée directement à partir de L’ADN de la lignée cellulaire hybride, yWSS1613, yWSS771, yWSS1572 et yWSS1434. Ci-dessous les histogrammes se trouve une évaluation de la qualité de la carte basée sur atlas (E. Thayer, travail non publié).,

maintenant, Nous avons séquencé cosmides de près de 1 Mbp de l’ADN dont la cartographie est résumée dans le Tableau 1. Les données de séquençage du fusil de chasse ont été analysées avec le système D’assemblage de séquences Phred/Phrap (P. Green, résultats non publiés). Aucune erreur de mappage n’a été détectée lorsque les cartes dérivées de la séquence ont été comparées aux cartes MCD. Non seulement les fragments étaient correctement ordonnés, mais la précision des espacements intersite était inférieure à 1%, mais avec une erreur systématique légèrement supérieure à 1% pour les fragments plus gros., Les cartes impliquées dans ce test contenaient plus de 700 fragments de restriction différents. Dans un projet indépendant de cartographie MCD / séquençage shotgun de taille comparable dans la région HLA de classe I sur le chromosome 6 humain, des résultats similaires ont été obtenus (D. E. Geraghty, T. Guillaudeux et M. Janer, résultats non publiés). Dans le projet HLA, une seule erreur de cartographie a été détectée à la fin d’une carte, qui a été attribuée au mauvais comptage d’une bande multiplet de 600 bp dans un seul cosmide. Des cartes, des séquences et de la documentation logicielle à jour sont disponibles sur notre site web à l’adresse http://www.genome.washington.edu.

Leave a Comment