Multiple-complete-digest Restriction Fragment Mapping: Generierung sequenzfertiger Karten für groß angelegte DNA-Sequenzierung

ERGEBNISSE

Die experimentellen Verfahren hinter der MCD-Mapping sind in Fig. 1, und eine konzeptionelle Übersicht über diesen Prozess ist in Abb. 2. Standard-molekularbiologische Protokolle werden überall eingesetzt. Es wurden jedoch eine Reihe von Anpassungen vorgenommen, um Daten von angemessener Qualität für die MCD-Kartierung zu erstellen., Sehr hochwertige Gelbilder sind essentiell, da die Genauigkeit der Fragmentgrößenmessungen den Informationsgehalt der Fingerabdruckdaten und damit die Häufigkeit bestimmt, mit der verschiedene Fragmente ähnlicher Größe miteinander verwechselt werden. Darüber hinaus ist eine groß angelegte Abbildung nur dann sinnvoll, wenn die Gelbilder mit wenigen Fehlern automatisch analysiert werden können. Dieses Ziel ist nur mit konsistenten, qualitativ hochwertigen Bildern erreichbar.

iv xmlns: xhtml= „http://www.w3.org/1999/xhtml “ > Abbildung 1

Flussdiagramm der Nassbankprozeduren für YAC → cosmid und BAC → cosmid MCD Mapping., Der Hauptunterschied besteht darin, dass BAC-DNA zwar leicht von bakterieller chromosomaler DNA gereinigt werden kann, es jedoch keine gute präparative Methode gibt, um YAC-DNA von Hefe-chromosomaler DNA zu trennen. Im YAC-Fall werden die wenigen Prozent der Cosmiden, die vom YAC abgeleitet sind, durch ein hybridisierungsbasiertes Kolonie-Screening-Protokoll identifiziert. Bei von BAC abgeleiteten Cosmids ist dieser Schritt nicht erforderlich, da die Mapping-Software die geringe Anzahl von Cosmids, die nicht vom BAC stammen, problemlos eliminieren kann.

Abbildung 2

Schematische Darstellung des MCD-Mapping-Prozesses., (a) Gel-Bild. (b) Liste der Fragmentgrößen für jede Enzymdomäne in jedem Klon. Spuren, die mit einer Nummer gekennzeichnet sind, identifizieren den Klon als c01 oder c02. Mit dem Buchstaben M gekennzeichnete Fahrspuren identifizieren Größenmarkierungen. (c) Drei Einzelenzymkarten werden unabhängig voneinander erstellt (rechts). Die Synchronisation über mehrere Domänen hinweg führt zu einer zusammengesetzten Karte (links). Lange Häkchen zeigen Grenzen zwischen geordneten Gruppen von Fragmenten an; kurze Häkchen markieren ungeordnete Fragmente innerhalb einer Gruppe, die willkürlich in der Reihenfolge abnehmender Größe gezeichnet werden.,

Die erfolgreiche Implementierung von MCD Mapping hat eine Weiterentwicklung des experimentellen Prozesses und der Datenanalysesoftware erforderlich gemacht. Ein Beispiel für diese Wechselwirkung ist das Design des Cosmid-Vektors. Für die Shotgun-Sequenzierung sollte der Vektor so klein wie möglich sein, um den mit wiederholter Sequenzierung des Vektors verbundenen Overhead zu minimieren. Für die MCD-Zuordnung sollte der Vektor keine Stellen für das Mapping enthalten und keine Möglichkeit für die Erstellung einer Artefaktstelle an der Vektor-Insert-Kreuzung zulassen (z.,, wenn ein MboI-Teil-Digest-Fragment in eine BamHI-Klonstelle ligiert wird, besteht die Möglichkeit, dass an der Kreuzung eine artefaktmäßige BamHI-Site erstellt wird). Wenn der Vektor s-Cos-DBI zum Klonen von MboI-Teilverdauungsfragmenten verwendet wird, wird in jeder unserer drei Enzymdomänen ein einzelnes vektorhaltiges Fragment bekannter Mindestgröße (3205 bp) erzeugt. Da dieses vektorhaltige Fragment für kein vollständig verdauliches Fragment im zugrunde liegenden Genom repräsentativ ist, wird es durch Gel-Transfer-Hybridisierung identifiziert und aus der Liste der für die Kartenanordnung verwendeten Fragmente eliminiert.,

Eine wesentliche Verbesserung der Bildqualität wurde durch die Umstellung auf den interkalierenden Farbstoff SYBR–green I. Bei der von unserem Gelscanner verwendeten Anregungswellenlänge von 488 nm festgestellt, dass SYBR-green I fünfmal empfindlicher ist als Thiazolorange, was wiederum dreimal empfindlicher ist als Ethidiumbromid. Wir laden normalerweise nur 15 ng Cosmid-DNA pro Gelspur, wenn wir SYBR-green I verwenden, um Gele gewöhnlicher Größe zu färben. Bandverzerrungen aufgrund lokaler Überlastung sind niemals ein Problem, da die größten Bänder nur 5-10 ng DNA enthalten., Darüber hinaus hängt die Sauberkeit der Restriktionsverdauungen bei Verwendung von DNA von nur mäßiger Reinheit, wie wir es tun, umgekehrt mit dem Volumen der Bakterienkultur zusammen, aus der die DNA extrahiert wird. SYBR-green I hat die Anzahl der Gelspuren, die aufgrund schlechter oder fehlgeschlagener Verdauung unbrauchbar sind, stark reduziert. Die einzige schwerwiegende Komplikation besteht darin, dass SYBR–green I aus unbekannten Gründen einen engen und variablen Bereich aufweist, über den die integrierte Fluoreszenz linear mit der DNA-Menge in der Band zunimmt.,

Die automatische, robuste und genaue Bestimmung der Fragmentgrößen erfordert sorgfältig entworfene DNA-Größenmarker. Idealerweise sollten die Markierungsbänder gleichmäßig entlang der Bogenlänge der Größenmobilitätskurve angeordnet sein. Es muss eine zunehmende Anzahl von Markerbändern geben, wenn sich die Fragmentgröße dem Schwellenwert nähert, an dem Mobilitäten größenunabhängig werden. Die Beachtung der Kurvenanpassungsstabilität in diesem Bereich ermöglicht eine hervorragende Fragmentgrößengenauigkeit von bis zu 15 kbp (SD ± 1%) und eine ausreichende Fragmentgrößengenauigkeit von bis zu 40 kbp (SD ± 5%)., Eine zweite Voraussetzung ist, dass es drei Bänder geben muss, die leicht als lokale Intensitätsmaxima erkannt werden können. Die Erkennung dieser auffälligen Bänder erleichtert das automatische Musterübereinstimmungsverfahren, mit dem die Bildanalysesoftware die Markerbänder identifiziert. In unseren standard -, gel-format (Abb. 3), Sätze von sechs Digest-Bahnen werden von zwei Markierungsbahnen flankiert. Alle fünf Markerspuren auf dem Gel werden im zweidimensionalen Interpolationsalgorithmus verwendet, der den verdauten Bändern Größen zuweist.

Abbildung 3

Graustufenbild eines typischen Mapping-Gels poststained mit SYBR-green I., Es gibt fünf Markierungsstreifen an den Positionen 1, 8, 15, 22 und 29. Zwei Klone, die jeweils unabhängig voneinander mit EcoRI, HindIII und NsiI verdaut (und in dieser Reihenfolge geladen) werden zwischen jedem Paar Markierungsbahnen platziert.

Das mit einem Restriction Digest Pattern verbundene Bildanalyseproblem unterscheidet sich erheblich von dem mit einer Sequenzierungsleiter verbundenen „base calling“ – Problem. Base Calling Software muss nur das dominante Band an jeder Leiterposition identifizieren., Im Gegensatz dazu muss Software zur Analyse von Einschränkungsmustern die Anzahl der Fragmente in jedem Band bestimmen, da eine beliebige Anzahl von Fragmenten ähnlicher Größe an jeder Position in einer Spur zusammenlaufen kann. Unter normalen elektrophoretischen Bedingungen sind Bandmultiplikitäten von zwei oder drei üblich. Bandmultiplikitäten müssen trotz abnehmender Signal-Rausch-Verhältnisse bei kleinen Fragmentgrößen und Nichtlinearitäten in der Beziehung zwischen integrierter Fluoreszenzintensität und DNA-Menge pro Band berechnet werden. Diese Bildeigenschaften können von Spur zu Spur auch auf demselben Gel variieren., Eine effektive Bildanalysesoftware muss alle diese experimentellen Realitäten berücksichtigen. Die Analyse einer typischen Gelspur ist Fig. 4. Mittlerweile haben wir über 1.000 Gele mit unserer Software erfolgreich analysiert und sind im Saldo fast so gut wie ein erfahrener Dolmetscher. Es macht einige Fehler, die ein menschlicher Experte nicht machen würde, aber es analysiert auch korrekt viele Bands, die ein Experte falsch zählen würde.

Abbildung 4

Verarbeitung von Agarosegelbildern. (a)Falschfarbenbild von Digest von Spur 11 des Gels in Fig. 3., Das vollspurige Bild wird angezeigt (links), und ein intensitätsgetrenntes Bild des durch „Zoom“ abgegrenzten Bereichs wird angezeigt (rechts). Weiße Balken zeigen auf Bänder, die automatisch von der Bildanalysesoftware identifiziert werden. Fragmentgrößen in Basispaaren sind angegeben, und alle Bandmultiplikitäten größer als eins sind in Klammern angegeben. (b) Eindimensionale Darstellung der Vollspur (oben) und des Zoombereichs (unten). Der Zusammenbruch in eine Dimension erfolgt mit einem medianverzerrten Mittelungsschema. Jede Zeile wird separat analysiert., Pixel werden zuerst nach Intensität sortiert, und eine feste Anzahl der Pixel mit der niedrigsten Intensität wird eliminiert, um den Abstand zwischen den Spuren zu berücksichtigen. Aus dem Rest wird ein Durchschnitt des mittleren Quartils berechnet. (c) Fragment zählt für die Spur, die acht Singlets, drei Doublets und ein Triplet enthält. Die Schätzungen der Fragmentanzahl basieren auf dem Trend der integrierten Bandintensität gegenüber der Fragmentgröße. Dieser Trend ist von Gel zu Gel variabel und sehr nichtlinear., Jede Verdauungsspur auf dem Gel, die aufgrund schlechter Daten nicht abgelehnt wurde, wird gleichzeitig analysiert, um eine zusammengesetzte Trendlinie für die Beziehung zwischen integrierter Intensität und DNA-Menge aufzubauen.

Ein Hauptmerkmal des Systems ist die automatische Ablehnung von Daten mit geringer Qualität. Es wird nicht versucht, die Ursache des Problems zu identifizieren. Die Software verfügt über ein internes Modell, wie eine gute Datenspur aussehen soll, und lehnt jede Spur ab, die diesem Modell nicht entspricht., Eine teilweise Liste der Arten von Problemen, die erkannt werden, umfasst gelöschte Klone, gemischte Klone, Teilverdauungen, fehlgeschlagene Verdauungen, Spaltung an sekundären Stellen, überlastete Fahrspuren, unterbelastete Fahrspuren und Schmutz auf dem Gel. In der aktuellen Praxis sind 80-90% der Gelspuren verwendbar. Aber auch gute Fahrspuren können falsch interpretiert werden. Ein leistungsfähiges Werkzeug zur Erkennung von Fehlinterpretationen ist der Cross enzyme Sum-of-fragments Consistency Test., Abgesehen von Beiträgen einiger fehlender kleiner Fragmente mit einer Größe von weniger als 500 bp, von denen im Durchschnitt erwartet wird, dass sie weniger als 1% der gesamten Cosmid-Länge ausmachen, sollte die Summe der Fragmente über Enzymdomänen hinweg konsistent sein. Es kann zwischen 40 und 50 kbp von Klon zu Klon variieren, aber von Enzym zu Enzym auf einem gegebenen Klon Gesamtabweichungen von mehr als 1 oder 2 kbp sind fast sicher Hinweis darauf, dass etwas mit der Bildanalyse nicht stimmt., Durch die Verwendung dieses Tests zum Erkennen falsch analysierter Spuren und zum manuellen Korrigieren der Fragmentanzahl haben wir Fragmentfehlzählungen auf allen Bändern, die größer als 2 kbp sind, im Wesentlichen eliminiert.

Die automatische Phase der MCD-Map-Assembly verläuft als eine Reihe von Schritten, in denen die Reihenfolge des Klons endet und die Fragmente schrittweise verfeinert werden (16, 17). Fragmentgrößenausreißer werden durch das Konzept der „Grauzone“ behandelt. Eine Fragmentpaarung, die präziser als die untere Grauzonen-Schwelle ist, wird automatisch akzeptiert, sofern sie nicht gegen eine topologische Einschränkung der Karte verstößt., Innerhalb der Grauzone werden Fragmentpaarungen nur dann vorgenommen, wenn sie für die topologische Konsistenz erforderlich sind; andernfalls werden sie verzögert. Paarungen, die weniger genau als die obere Grauzonen-Schwelle sind, werden sofort abgelehnt. Wir setzen derzeit die Grauzonen-Schwellenwerte auf 2.0 und 4.0% über den größten Teil des nutzbaren Größenbereichs. Diese Schwellenwerte werden sowohl für große Fragmente (wegen des starken Verlustes der elektrophoretischen Auflösung) als auch für kleine Fragmente (wegen des mäßigen Verlustes der elektrophoretischen Auflösung und der erhöhten Banderweiterung) erhöht., Statistische Ausreißer fallen in der Regel unter die Grauzone. Gültige Paarungen landen in der Grauzone in erster Linie als Ergebnis eines Multipletbandes, das von der Bildanalysesoftware nicht richtig in seine Komponentenfragmente zerlegt wird.

Letztendlich liegt der Schlüssel zum Erhalt genauer Karten in einer Strategie“ fix it as you grow“. Die Grundvoraussetzung ist, dass Fehler aufgrund der hohen Qualität der Eingabedaten selten sind., Wenn Fehler auftreten und unabhängig davon, ob sie auf Klonfehler, Bildanalysefehler oder Map-Assembly-Fehler zurückzuführen sind, ist das Problem normalerweise auf nur eine der drei Enzymdomänen beschränkt. Oft ist das Problem auf einen einzelnen Klon beschränkt. Durch die Entfernung des verdächtigen Klons kann die Karte wachsen. Sobald sich die Karte über das Ende des verdächtigen Klons hinaus erstreckt, ist es im Allgemeinen recht einfach festzustellen, warum dieser Klon ursprünglich das Kartenwachstum störte., Wenn das Problem ein offensichtlicher Fehler in der Bildanalyse oder Vektorbandidentifikation ist, beheben wir den Datensatz und setzen den Klon wieder in die Karte ein. Bei unseren hohen Abtasttiefen sind diese Einschränkungen bei der Kartenkonstruktion überall ausreichend stark, aber an den Enden, damit fast alle Fehler erkannt und behoben werden können. Unerkannte Fehler liegen entweder innerhalb einer Klonlänge vom Ende der Karte oder in einer Region mit außergewöhnlich geringer Abdeckung.

Tabelle 1 ist eine Zusammenfassung der YAC → cosmid-Karten, die wir auf dem menschlichen Chromosom 7 erstellt haben., Nicht jedes Fragment ist geordnet, und lokal ungeordnete Fragmente werden in „Fragmentgruppen“ platziert.“In den meisten Fällen gibt es durchschnittlich 1,2-1,3 ungeordnete Fragmente pro Fragmentgruppe, was bedeutet, dass wir uns dem Ziel nähern, alle Restriktionsfragmente zu ordnen. Eine typische MCD-Karte, die die Ergebnisse von vier unabhängig konstruierten YAC → cosmid-Karten kombiniert, ist in Abb. 5. Die hohen Abtasttiefen ermöglichen die Auswahl eines wirklich minimalen Fliesenpfades mit Überlappungen von nur wenigen Kilobasenpaaren., Die YAC-Treue wird validiert, indem die überlappenden Regionen zwischen diesen unabhängig erstellten Karten verglichen werden. Bis heute wurden keine Diskrepanzen gefunden. Als noch strengeren Test der YAC-Treue haben wir eine kleine Sammlung von Cosmids aus einer Bibliothek abgefangen, die direkt aus derselben hybriden Zelllinie, die zum Erstellen der YACs verwendet wurde, unterklont wurde (E. D. Green, unveröffentlichte Ergebnisse). Es wurden keine Diskrepanzen zwischen diesen Cosmiden und denen gefunden, die von YAC-Klonen abgeleitet wurden. Populäre Wahrnehmungen über YAC Instabilität basieren weitgehend auf Erfahrungen mit einer relativ kleinen Anzahl von Bibliotheken., Diese Ergebnisse legen nahe, dass stabile YAC-Bibliotheken erstellt werden können und dass YACs als Startklone für die systematische Sequenzierung verwendet werden können.

Diese Tabelle anzeigen:

  • Inline anzeigen
  • Popup anzeigen
Tabelle 1

Zusammenfassung der YAC → cosmid-MCD-Karten für Teile des menschlichen Chromosoms 7

Abbildung 5

Repräsentative MCD-Karte vom Chromosom 7. Vier von hybriden Zelllinien abgeleitete YACs wurden in Cosmids unterteilt, um diese 400-kbp-Region abzubilden., Darüber hinaus wurde eine spezielle Cosmid-Bibliothek, die direkt von der Hybridzellenlinie abgeleitet ist (dh nicht von einem YAC-Klon abgeleitet ist), ohne Inkonsistenzen auf dieser Karte platziert. Die Karte ist direkt unter dem oberen Skalenleiste dargestellt. Die Domänen EcoRI, HindIII und NsiI sind von oben nach unten in Rot, grün und blau dargestellt. Geordnete Gruppen von Fragmenten werden durch hohe Häkchen und ungeordnete Fragmente innerhalb einer Gruppe durch kurze Häkchen getrennt. Die Minimal-Tiling-Path-Klone werden direkt unter der Karte in lila angezeigt., Unterhalb der Kachelpfadklone wird ein größerer Satz von Klonen angezeigt: Dieser Satz enthält alle Klone mit Ausnahme derjenigen, deren Fragmentinhalt mit dem eines angezeigten Klons identisch ist oder eine Teilmenge davon. Als nächstes folgt eine Reihe von fünf Histogrammen. Von oben nach unten spiegeln sie die Cosmid-Abdeckung wider, die aus folgenden Quellen stammt: die Cosmid-Bibliothek, die direkt aus hybrider Zelllinien-DNA, yWSS1613, yWSS771, yWSS1572 und yWSS1434 hergestellt wurde. Unterhalb der Histogramme befindet sich eine Kartenqualitätsbewertung basierend auf Atlas (E. Thayer, unveröffentlichtes Werk).,

Wir haben jetzt cosmids aus fast 1 Mbp der DNA sequenziert, deren Zuordnung in Tabelle 1 zusammengefasst ist. Die Schrotflinten-Sequenzierungsdaten wurden mit dem Phred/Phrap Sequence-Assembly-System analysiert (P. Green, unveröffentlichte Ergebnisse). Beim Vergleich der sequenzabgeleiteten Karten mit den MCD-Karten wurden keine Mapping-Fehler festgestellt. Die Fragmente waren nicht nur korrekt angeordnet, sondern die Genauigkeit der Abstände zwischen den Standorten betrug weniger als 1%, wenn auch mit einem systematischen Fehler von etwas mehr als 1% für die größeren Fragmente., Die an diesem Test beteiligten Karten enthielten mehr als 700 verschiedene Restriktionsfragmente. In einem unabhängigen MCD-Mapping/Shotgun-Sequenzierungsprojekt vergleichbarer Größe in der HLA-Klasse-I-Region auf dem menschlichen Chromosom 6 wurden ähnliche Ergebnisse erzielt (D. E. Geraghty, T. Guillaudeux und M. Janer, unveröffentlichte Ergebnisse). Im HLA-Projekt wurde am Ende einer Karte ein einzelner Mapping-Fehler festgestellt, der auf die Fehlzählung eines 600-bp-Multipletbandes in einer einzigen Cosmid zurückgeführt wurde. Aktuelle Karten, Sequenzen und Software-Dokumentation finden Sie auf unserer Website unter http://www.genome.washington.edu.

Leave a Comment