Multiple-complete-digest restriction fragment mapping: Generating sequence-ready maps for large-scale DNA sequencing

resultaten

de experimentele procedures achter MCD mapping zijn weergegeven in Fig. 1, en een conceptueel overzicht van dit proces is weergegeven in Fig. 2. De standaard moleculaire biologie protocollen zijn aangewend door. Er zijn echter een aantal aanpassingen aangebracht om gegevens van adequate kwaliteit voor het in kaart brengen van MCD ‘ s te verkrijgen., Zeer hoogwaardige gelbeelden zijn essentieel omdat de precisie van de metingen van de fragmentgrootte de informatie-inhoud van de vingerafdrukgegevens bepaalt en dus de frequentie waarmee verschillende fragmenten van vergelijkbare grootte met elkaar worden verward. Bovendien is grootschalige mapping alleen praktisch als de gelbeelden met weinig fouten automatisch kunnen worden geanalyseerd. Dit doel is alleen haalbaar met consistente beelden van hoge kwaliteit.

iv xmlns: xhtml=”http://www.w3.org/1999/xhtml ” > figuur 1

Stroomdiagram van natte bankprocedures voor YAC → cosmid en BAC → cosmid MCD mapping., Het belangrijkste verschil is dat, terwijl BAC DNA gemakkelijk kan worden gezuiverd uit bacterieel chromosomaal DNA, is er geen goede voorbereidende methode om YAC DNA te scheiden van gistchromosomaal DNA. In het geval van de YAC worden de paar procent van de kosmiden die zijn afgeleid van de YAC geïdentificeerd door middel van een hybridisatie-gebaseerd kolonie-screening protocol. Bij Bac-afgeleide kosmiden is deze stap overbodig omdat de mapping software gemakkelijk het kleine aantal kosmiden die niet afkomstig zijn van het BAC kan elimineren.

Figuur 2

schematische weergave van het MCD-mapping-proces., (a) Gelafbeelding. b) lijst van fragmentgroottes voor elk enzymdomein in elke kloon. Rijstroken gelabeld met een nummer identificeren de kloon als c01 of c02. Rijstroken gelabeld met de letter M identificeren grootte markers. (C) drie enkelvoudige enzymkaarten zijn onafhankelijk geconstrueerd (rechts). Synchronisatie tussen enzymdomeinen resulteert in een samengestelde kaart (links). Lange tekenmerken geven grenzen aan tussen geordende groepen fragmenten; korte tekenmerken onderscheiden ongeordende fragmenten binnen een groep, willekeurig getekend in volgorde van afnemende grootte.,

de succesvolle implementatie van MCD-mapping vereist een co-evolutie van het experimentele proces en de software voor gegevensanalyse. Een voorbeeld van deze interactie is het ontwerp van de kosmide vector. Voor het rangschikken van het Jachtgeweer, zou de vector zo klein mogelijk moeten zijn om de overhead verbonden aan het herhaalde rangschikken van de vector te minimaliseren. Voor MCD mapping, moet de vector geen sites voor de mapping enzymen bevatten en geen mogelijkheid bieden voor het creëren van een artifactuele site op de vector-insert junction (bijv.,, wanneer een Mboi partial-digest fragment is ligated in een BamHI klonen site, is er een kans dat een artifactual BamHI site zal worden gemaakt op de kruising). Wanneer de vector s-Cos-DBI wordt gebruikt om fragmenten van Mboi te klonen, wordt één enkel vectorhoudend fragment van bekende minimumgrootte (3205 bp) geproduceerd in elk van onze drie enzymdomeinen. Omdat dit Vector-bevattende fragment niet representatief is voor een volledig-verteerbaar fragment in het onderliggende genoom, wordt het geà dentificeerd door gel-overdrachthybridisatie en geëlimineerd uit de lijst van fragmenten die voor kaartassemblage worden gebruikt.,

een belangrijke verbetering van de beeldkwaliteit werd bereikt door over te schakelen op de intercalerende kleurstof SYBR–green I. bij de excitatiegolflengte van 488 nm die door onze gelscanner wordt gebruikt, vinden we dat SYBR–green I vijf keer gevoeliger is dan thiazole orange, dat op zijn beurt drie keer gevoeliger is dan ethidiumbromide. Bij gebruik van SYBR–green I om gels van gewone afmetingen te bevlekken, laden we meestal slechts 15 ng cosmid DNA per gelstrook. Bandvervorming door lokale overbelasting is nooit een probleem omdat de grootste bands slechts 5-10 ng DNA bevatten., Bovendien is bij het gebruik van DNA van slechts matige zuiverheid, zoals wij dat doen, de zuiverheid van de restrictieverteringen omgekeerd gerelateerd aan het volume bacteriekweek waaruit het DNA wordt geëxtraheerd. SYBR-green I heeft het aantal gelbanen dat onbruikbaar is door slechte of mislukte verteringen sterk verminderd. De enige ernstige complicatie is dat SYBR–green I om onbekende redenen een smal en variabel bereik vertoont waarover de geïntegreerde fluorescentie lineair toeneemt met de hoeveelheid DNA in de band.,

automatische, robuuste en nauwkeurige bepaling van fragmentgrootte vereist zorgvuldig ontworpen DNA-maatmarkers. Idealiter moeten de markerbanden gelijkmatig worden verdeeld over de booglengte van de maatmobiliteitscurve. Er moet een toenemend aantal markerbanden zijn naarmate de fragmentgrootte de drempel nadert waarop mobiliteit grootteonafhankelijk wordt. Aandacht voor de curve-fitting stabiliteit in dit gebied maakt uitstekende fragment sizing precisie tot 15 kbp (SD ± 1%) en voldoende fragment sizing precisie tot 40 kbp (SD ± 5%)., Een tweede vereiste is dat er drie banden moeten zijn die gemakkelijk herkend worden als lokale intensiteitsmaxima. Erkenning van deze opvallende banden kern de automatische patroon-match procedure waarmee de beeldanalyse software identificeert de marker banden. In ons standaard gelformaat (Fig. 3), sets van zes digest rijstroken worden geflankeerd door twee marker rijstroken. Alle van de vijf marker rijstroken op de gel worden gebruikt in de tweedimensionale interpolatie algoritme dat maten toewijst aan de digest banden.

Figuur 3

grijsschaal afbeelding van een typische mapping gel poststained met SYBR-green I., Er zijn vijf markeerstroken, op posities 1, 8, 15, 22 en 29. Twee klonen, elk onafhankelijk verteerd met EcoRI, HindIII en NsiI (en geladen in die volgorde) worden geplaatst tussen elk paar marker rijstroken.

het image analysis probleem geassocieerd met een restrictiesamengegegevenspatroon is heel anders dan het “base calling” probleem geassocieerd met een sequencing ladder. Base calling software hoeft alleen de dominante band op elke ladder positie te identificeren., In tegenstelling, software ontworpen om beperkingspatronen te analyseren moet het aantal fragmenten in elke band bepalen, aangezien om het even welk aantal fragmenten van gelijkaardige grootte op om het even welke positie in een steeg kan comigreren. Onder normale elektroforetische omstandigheden, band multiplicities van twee of drie zijn gemeenschappelijk. De bandmultipliciteiten moeten ondanks het verminderen van signaal-aan-ruisverhoudingen bij kleine fragmentgrootte en niet-lineariteit in de verhouding tussen geïntegreerde fluorescentieintensiteit en de hoeveelheid van DNA per band worden berekend. Deze beeldkenmerken kunnen variëren van rijstrook tot rijstrook, zelfs op dezelfde gel., Effectieve beeldanalyse software moet rekening houden met al deze experimentele realiteiten. De analyse van een typische gelbaan wordt weergegeven Fig. 4. We hebben nu met succes meer dan 1.000 gels geanalyseerd met onze software en, per saldo, het is bijna net zo goed als een deskundige tolk. Het maakt een aantal fouten die een menselijke expert niet zou maken, maar het analyseert ook correct veel bands die een expert niet zou tellen.

Figuur 4

verwerking van agarose-gelafbeeldingen. (a) vals-kleurenbeeld van digest van baan 11 van de gel weergegeven in Fig. 3., De volledige baanafbeelding wordt weergegeven (links), en een intensiteitsafbeelding van het gebied dat is afgebakend door “zoom” wordt weergegeven (rechts). Witte balken wijzen naar banden die automatisch worden geïdentificeerd door de beeldanalysesoftware. Fragmentgroottes in basisparen worden aangegeven, en elke bandmultipliciteiten groter dan één worden tussen haakjes gegeven. (b) eendimensionale weergave van de volledige rijstrook (boven) en het zoomgebied (onder). De ineenstorting tot één dimensie wordt gedaan met een mediaan-bevooroordeeld gemiddelde schema. Elke rij wordt afzonderlijk geanalyseerd., Pixels worden eerst gesorteerd op intensiteit, en een vast aantal van de laagste intensiteit pixels worden geëlimineerd om rekening te houden met de kloof tussen gel rijstroken. Uit de rest wordt een gemiddelde van het middelste kwartiel berekend. (C) Fragment telt voor de baan, die acht singlets, drie doublets, en een triplet bevat. De schattingen van het aantal fragmenten zijn gebaseerd op de trend in geïntegreerde bandintensiteit versus fragmentgrootte. Deze trend is variabel van gel tot gel en is zeer niet-lineair., Elke digest lane op de gel die niet is afgewezen vanwege slechte gegevens wordt tegelijkertijd geanalyseerd om een samengestelde trendlijn te bouwen voor de relatie tussen geïntegreerde intensiteit en DNA-hoeveelheid.

een belangrijk kenmerk van het systeem is de automatische afwijzing van gegevens van lage kwaliteit. Er wordt geen poging gedaan om de oorzaak van het probleem te achterhalen. De software heeft een intern model van hoe een goede datastrook eruit zou moeten zien, en het verwerpt elke rijstrook die niet voldoet aan dit model., Een gedeeltelijke lijst van de soorten problemen die worden gedetecteerd omvat verwijderde klonen, gemengde klonen, gedeeltelijke digesties, mislukte digesties, splitsing op secundaire sites, overbelaste rijstroken, onderbelaste rijstroken, en vuil op de gel. In de huidige praktijk zijn 80-90% van de gelbanen bruikbaar. Zelfs goede rijstroken kunnen echter verkeerd worden geïnterpreteerd. Een krachtig hulpmiddel voor het ontdekken van misinterpretaties is de cross enzyme sum-of-fragmenten consistentietest., Met uitzondering van bijdragen van enkele ontbrekende kleine fragmenten van minder dan 500 bp, die gemiddeld naar verwachting minder dan 1% van de totale kosmide lengte zijn, zou de som van fragmenten consistent moeten zijn over enzymdomeinen. Het kan variëren tussen 40 en 50 kbp van kloon naar kloon, maar van enzym naar enzym op een bepaalde kloon totale afwijkingen van meer dan 1 of 2 kbp zijn bijna zeker indicatie dat er iets mis is met de beeldanalyse., Door deze test te gebruiken om verkeerd geanalyseerde rijstroken te detecteren en handmatig de fragmenttellingen te corrigeren, hebben we in wezen fragmentfouten op alle banden groter dan 2 kbp geëlimineerd.

De automatische fase van de MCD-kaartsamenstelling verloopt als een reeks stappen waarin de volgorde van de kloon eindigt en restrictiefragmenten geleidelijk worden verfijnd (16, 17). Fragment sizing uitschieters worden behandeld door de “grijze zone” concept. Een fragment-koppeling die nauwkeuriger is dan de onderste drempel van de grijze zone wordt automatisch geaccepteerd, tenzij het een topologische beperking van de kaart schendt., Binnen de grijze zone worden fragmentkoppelingen alleen gemaakt als ze nodig zijn voor topologische consistentie; anders worden ze uitgesteld. Koppelingen die minder nauwkeurig zijn dan de bovenste drempelwaarde voor de grijze zone worden ronduit afgewezen. Momenteel stellen we de drempelwaarden voor grijze zones op 2,0 en 4,0% voor het grootste deel van het bruikbare groottebereik. Deze drempels worden verhoogd zowel voor grote fragmenten (wegens het strenge verlies van elektroforetische resolutie) als voor kleine fragmenten (wegens het gematigde verlies van elektroforetische resolutie en de verhoogde bandverbreding)., Statistische uitschieters vallen over het algemeen onder de grijze zone. Geldige pairings eindigen in de grijze zone voornamelijk als gevolg van een multiplet band die niet goed wordt afgebroken door de beeldanalyse software in de component fragmenten.

uiteindelijk ligt de sleutel tot het verkrijgen van nauwkeurige kaarten in een” fix it as you grow ” strategie. Het uitgangspunt is dat fouten zeldzaam zijn, vanwege de hoge kwaliteit van de inputgegevens., Wanneer fouten optreden, en ongeacht of ze te wijten zijn aan het klonen van aberraties, beeld-analyse fouten, of kaart-assemblage fouten, het probleem is meestal beperkt tot slechts een van de drie enzymdomeinen. Vaak is het probleem beperkt tot een enkele kloon. Door het verwijderen van de verdachte kloon kan de kaart groeien. Zodra de kaart verder gaat dan het einde van de verdachte kloon, is het over het algemeen vrij gemakkelijk om te bepalen waarom die kloon oorspronkelijk interfereerde met de kaartgroei., Als het probleem een duidelijke fout is in de beeldanalyse of vectorband identificatie, repareren we de dataset en zetten de kloon terug in de kaart. Bij onze hoge bemonsteringsdiepte zijn deze beperkingen op de kaartconstructie overal, maar aan de uiteinden, voldoende sterk om bijna alle fouten te detecteren en te herstellen. Niet-gedetecteerde fouten bevinden zich binnen een kloon lengte van het einde van de kaart of in een gebied met een uitzonderlijk lage dekking.

Tabel 1 is een samenvatting van de YAC → kosmid kaarten die we hebben gebouwd op menselijk chromosoom 7., Niet elk fragment is geordend, en lokaal ongeordende fragmenten worden geplaatst in ” fragment groepen.”In de meeste gevallen is er een gemiddelde van 1.2-1.3 ongeordende fragmenten per fragmentgroep, wat betekent dat we het doel van het ordenen van alle restrictiefragmenten nauw benaderen. Een typische MCD kaart, die de resultaten van vier onafhankelijk geconstrueerde YAC → kosmid kaarten combineert, is weergegeven in Fig. 5. De hoge bemonsteringsdiepte maakt de selectie van een echt minimaal tegelpad mogelijk, met overlappingen van slechts een paar kilobase-paren., YAC fidelity wordt gevalideerd door de overlappende gebieden tussen deze onafhankelijk geconstrueerde kaarten te vergelijken. Tot op heden zijn er geen verschillen gevonden. Als een nog strengere test van YAC-trouw, hebben we vingerafdrukken genomen van een kleine verzameling kosmiden uit een bibliotheek die direct werd gesubkloneerd uit dezelfde hybride cellijn die werd gebruikt om de YACs te construeren (E. D. Green, ongepubliceerde resultaten). Er werden geen discrepanties gevonden tussen deze kosmiden en degenen die werden afgeleid van YAC klonen. Populaire percepties over YAC instabiliteit zijn grotendeels gebaseerd op ervaring met een relatief klein aantal bibliotheken., Wat deze resultaten aantonen is dat stabiele YAC-bibliotheken kunnen worden gebouwd, en dat YACs kan worden gebruikt als de startklonen voor systematische sequencing.

View this table:

  • View inline
  • View popup
Tabel 1

Summary of YAC → cosmid MCD maps for portions of human chromosome 7

Figuur 5

representatieve MCD-kaart van chromosoom 7. Vier hybride cellijn-afgeleide YACs werden gesubcloneerd in kosmiden om deze 400 kbp regio in kaart te brengen., Daarnaast werd op deze kaart ook een speciale kosmid-bibliotheek geplaatst die rechtstreeks afkomstig is van de hybride cellijn (dus niet afgeleid van een YAC-kloon), zonder inconsistenties. De kaart is net onder de bovenste schaalbalk afgebeeld. Enzymdomeinen EcoRI, HindIII en NsiI worden van boven naar beneden afgebeeld in rood, groen en blauw. Geordende groepen fragmenten worden gescheiden door hoge tekenmerken en ongeordende fragmenten binnen een groep worden gescheiden door korte tekenmerken. De minimal-tiling-path klonen worden weergegeven in paars net onder de kaart., Onder het tegelpad klonen wordt een grotere set klonen getoond: deze set bevat alle klonen behalve die waarvan de fragmentinhoud identiek is aan of een subset is van die van een getoonde kloon. De volgende is een serie van vijf histogrammen. Van boven naar beneden weerspiegelen ze de kosmid-dekking die is afgeleid van de volgende bronnen: de cosmid-bibliotheek die rechtstreeks is samengesteld uit hybride cellijn-DNA, yWSS1613, yWSS771, yWSS1572 en yWSS1434. Onder de histogrammen is een kaartkwaliteitsbeoordeling gebaseerd op atlas (E. Thayer, ongepubliceerd werk).,

we hebben nu kosmiden gesequenced uit bijna 1 Mbp van het DNA waarvan de mapping is samengevat in Tabel 1. De shotgun sequencing data werden geanalyseerd met het Phred / Phrap sequence-assemblage systeem (P. Green, ongepubliceerde resultaten). Er werden geen mapping fouten gedetecteerd toen de reeks afgeleide kaarten werden vergeleken met de MCD kaarten. Niet alleen waren de fragmenten correct geordend, maar de nauwkeurigheid van de tussenafstanden was minder dan 1%, zij het met een systematische fout iets meer dan 1% voor de grotere fragmenten., De kaarten die bij deze test betrokken waren, bevatten meer dan 700 verschillende restrictiefragmenten. In een onafhankelijk MCD mapping / shotgun sequencing project van vergelijkbare grootte in de HLA klasse I regio op menselijk chromosoom 6, werden vergelijkbare resultaten verkregen (D. E. Geraghty, T. Guillaudeux, en M. Janer, ongepubliceerde resultaten). In het HLA project werd een enkele mapping fout gedetecteerd aan het einde van een kaart, die werd getraceerd naar het verkeerd tellen van een 600 bp multiplet band in een enkele cosmid. Up-to-date kaarten, sequenties en softwaredocumentatie zijn te vinden op onze website onder http://www.genome.washington.edu.

Leave a Comment