Multiple-complete-digest restriction fragmentmapping: generering av sekvenskartor för storskalig DNA-sekvensering

resultat

de experimentella procedurerna bakom mcd-kartläggning visas i Fig. 1, och en begreppsmässig översikt över denna process visas i Fig. 2. Standard molekylärbiologi protokoll används i hela. Ett antal anpassningar har dock gjorts för att ta fram data av lämplig kvalitet för kartläggningen av LÄNKKOPPLINGAR., Mycket högkvalitativa gelbilder är viktiga eftersom precisionen i fragmentstorleksmätningarna bestämmer informationsinnehållet i fingeravtrycksdata och därmed frekvensen vid vilken olika fragment av liknande storlek förväxlas med varandra. Vidare är storskalig kartläggning endast praktisk när gelbilderna kan analyseras automatiskt med få fel. Detta mål kan endast uppnås med konsekventa bilder av hög kvalitet.

iv xmlns:xhtml=”http://www.w3.org/1999/xhtml”> Figur 1

flödesschema för våtbänk förfaranden för YAC → cosmid och BAC → cosmid mcd kartläggning., Huvudskillnaden är att medan BAC-DNA lätt kan renas från bakteriellt kromosomalt DNA finns det ingen bra preparativ metod för att separera YAC-DNA från jästkromosomalt DNA. I YAC-fallet identifieras de få procent av kosmiderna som härrör från YAC genom ett hybridiseringsbaserat koloniscreeningsprotokoll. Med BAC-härledda kosmider är detta steg onödigt eftersom kartläggningsprogramvaran lätt kan eliminera det lilla antalet kosmider som inte härrör från BAC.

Figur 2

Schematisk representation av MCD-kartläggningsprocessen., (a) Gel bild. B) Förteckning över fragmentstorlekar för varje enzymdomän i varje klon. Körfält märkta med ett nummer identifiera klonen som C01 eller C02. Körfält märkta med bokstaven M identifiera storlek markörer. C) tre enzym-kartor är oberoende konstruerade (höger). Synkronisering över enzymdomäner resulterar i en sammansatt karta (vänster). Långa kryssmärken anger gränser mellan ordnade grupper av fragment; korta kryssmärken avgränsar oordnade fragment inom en grupp, godtyckligt ritade i fallande storlek.,

det framgångsrika genomförandet av MCD-kartläggning har krävt en samutveckling av den experimentella processen och dataanalysprogramvaran. Ett exempel på denna interaktion är utformningen av cosmid vektorn. För hagelgevärssekvensering ska vektorn vara så liten som möjligt för att minimera överhuvudet i samband med upprepad sekvensering av vektorn. För MCD-kartläggning bör vektorn inte innehålla några platser för mappningsenzymerna och inte tillåta någon möjlighet att skapa en artefaktuell plats vid vektorinläggskorsningen (t. ex.,, när ett Mboi partial-digest fragment ligeras till en BamHI kloning plats, det finns en chans att en artefaktuell BamHI plats kommer att skapas vid korsningen). När vektorn s-Cos-DBI används för att klona Mboi partial-digest fragment, produceras ett enda vektorinnehållande fragment av känd minsta storlek (3205 bp) i var och en av våra tre enzymdomäner. Eftersom detta vektorinnehållande fragment inte är representativt för något fullständigt smältfragment i det underliggande genomet identifieras det med gelöverföringshybridisering och elimineras från listan över fragment som används för kartmontering.,

en stor förbättring av bildkvaliteten uppnåddes genom att byta till det interkalaterande färgämnet SYBR-green I. vid excitationsvåglängden på 488 nm som används av vår gelskanner finner vi att SYBR-green i är fem gånger känsligare än tiazol orange, vilket i sin tur är tre gånger känsligare än etidiumbromid. Vi brukar ladda endast 15 ng cosmid DNA per gel lane när du använder SYBR–green jag att färga geler av vanliga mått. Bandförvrängning på grund av lokal överbelastning är aldrig ett problem eftersom de största banden innehåller endast 5-10 ng DNA., Dessutom, när man använder DNA av endast måttlig renhet, som vi gör, är renheten av begränsningen smälter omvänt relaterad till volymen av bakteriekultur från vilken DNA extraheras. SYBR-green I har kraftigt minskat antalet gelbanor som är oanvändbara på grund av dåliga eller misslyckade smältningar. Den enda allvarliga komplikationen är att SYBR–green I av okända skäl visar ett smalt och variabelt intervall över vilket integrerad fluorescens ökar linjärt med mängden DNA i bandet.,

Automatisk, robust och noggrann bestämning av fragmentstorlekar kräver noggrant utformade DNA-storleksmarkörer. Helst bör markörbanden vara jämnt fördelade längs båglängden på storlekskurvan. Det måste finnas ett ökande antal markörband eftersom fragmentstorleken närmar sig tröskeln vid vilken mobiliteter blir storlek oberoende. Uppmärksamhet på kurvmonteringsstabilitet i denna region möjliggör utmärkt fragmentstorlek upp till 15 kbp (SD ± 1%) och tillräcklig fragmentstorlek upp till 40 kbp (SD ± 5%)., Ett andra krav är att det måste finnas tre band som lätt erkänns som lokal intensitet maxima. Erkännande av dessa iögonfallande band kärnar den automatiska mönstermatchning förfarande genom vilken bildanalysprogramvaran identifierar markörbanden. I vårt vanliga gelformat (Fig. 3), uppsättningar av sex digest lanes flankeras av två markörbanor. Alla de fem markörbanorna på gelén används i den tvådimensionella interpoleringsalgoritmen som tilldelar storlekar till smältbanden.

Figur 3

Grå bild av en typisk kartläggning gel poststained med SYBR green I., Det finns fem markörbanor, på positionerna 1, 8, 15, 22 och 29. Två kloner, var och en självständigt smält med EcoRI, HindIII och NsiI (och laddad i den ordningen) placeras mellan varje par markörbanor.

bildanalysproblemet som är förknippat med ett restriktionsmönstermönster skiljer sig helt från problemet ”base calling” som är förknippat med en sekvensstege. Base calling software behöver bara identifiera det dominerande bandet vid varje stege position., Däremot måste programvara som är utformad för att analysera begränsningsmönster bestämma antalet fragment i varje band, eftersom ett antal fragment av liknande storlek kan komma i vilken position som helst i ett körfält. Under normala elektroforetiska förhållanden är bandmultipliciteter av två eller tre vanliga. Bandmultipliciteter måste beräknas trots minskande signal-till-brusförhållanden vid små fragmentstorlekar och icke-linjäriteter i förhållandet mellan integrerad fluorescensintensitet och DNA-kvantitet per band. Dessa bildegenskaper kan variera från körfält till körfält även på samma gel., Effektiv bildanalys programvara måste redogöra för alla sådana experimentella realiteter. Analysen av en typisk gelbana visas Fig. 4. Vi har nu framgångsrikt analyserat över 1,000 geler med vår programvara och i balans är det nästan lika bra som en expert tolk. Det gör några misstag som en mänsklig expert inte skulle göra, men det analyserar också korrekt många band som en expert skulle felräkna.

Figur 4

bearbetning av agarosgelbilder. (a) falsk färgbild av digest från körfält 11 av gelén som visas i Fig. 3., Full-lane bilden visas (vänster), och en intensitetsskadad bild av regionen avgränsad av ”zoom” visas (höger). Vita fält pekar på band som automatiskt identifieras av bildanalysprogramvaran. Fragmentstorlekar i baspar anges, och alla bandmultiplikatorer som är större än en ges inom parentes. (B) endimensionell representation av hela körfältet (övre) och zoomområdet (nedre). Kollapsen till en dimension görs med ett median-partiskt medelvärdessystem. Varje rad analyseras separat., Pixlar sorteras först efter intensitet, och ett fast antal av de lägsta intensitetspixlarna elimineras för att ta hänsyn till klyftan mellan gelbanor. Från resten beräknas ett genomsnitt av mittenkvartilen. C) Fragment räknas för körfältet, som innehåller åtta singlets, tre doublets och en triplett. Fragmentantal uppskattningar baseras på trenden i integrerad bandintensitet kontra fragment storlek. Denna trend varierar från gel till gel och är mycket olinjär., Varje digest lane på gelén som inte har avvisats på grund av dåliga data analyseras samtidigt för att bygga en sammansatt trendlinje för förhållandet mellan integrerad intensitet och DNA-kvantitet.

en viktig funktion i systemet är automatisk avvisning av data av låg kvalitet. Inga försök görs för att identifiera källan till problemet. Programvaran har en intern modell av vad en bra data lane ska se ut, och det avvisar alla körfält som inte uppfyller denna modell., En partiell lista över de typer av problem som upptäcks inkluderar borttagna kloner, blandade kloner, partiella digestioner, misslyckade digestioner, klyvning vid sekundära platser, överbelastade körfält, underladdade körfält och smuts på gelén. I nuvarande praxis är 80-90% av gelbanorna användbara. Men även bra körfält kan misstolkas. Ett kraftfullt verktyg för att upptäcka feltolkningar är cross enzyme sum-of-fragments konsistenstest., Förutom bidrag från några få saknade små fragment av storlek mindre än 500 bp, som i genomsnitt förväntas vara mindre än 1% av den totala kosmidlängden, bör summan av fragment vara konsekvent över enzymdomäner. Det kan variera mellan 40 och 50 kbp från klon till klon, men från enzym till enzym på en given klon totala avvikelser på mer än 1 eller 2 KBP är nästan säker indikation på att något är fel med bildanalysen., Genom att använda detta test för att upptäcka misanalyserade körfält, och manuellt korrigera fragmentantalet, har vi i huvudsak eliminerat fragmentskonteringar på alla band som är större än 2 KBP.

den automatiska fasen av MCD-kartmonteringen fortsätter som en serie steg under vilka ordningen för klonändarna och begränsningsfragmenten gradvis raffineras (16, 17). Fragmentstorlek outliers hanteras av” gray zone ” – konceptet. En fragmentparning som är mer exakt än den nedre gråzonströskeln accepteras automatiskt om den inte bryter mot en topologisk begränsning av kartan., Inom den gråzonen görs fragmentparningar endast om de krävs för topologisk konsistens; annars skjuts de upp. Pairings som är mindre exakta än den övre gråzonströskeln avvisas direkt. Vi ställer för närvarande In gråzonströsklarna på 2.0 och 4.0% över det mesta av det användbara storleksintervallet. Dessa tröskelvärden ökas både för stora fragment (på grund av den allvarliga förlusten av elektroforetisk upplösning) och för små fragment (på grund av den måttliga förlusten av elektroforetisk upplösning och den ökade bandbreddningen)., Statistiska outliers faller i allmänhet under den gråzonen. Giltiga par hamnar i gråzonen främst som ett resultat av ett multipelband som inte sönderdelas ordentligt av bildanalysprogramvaran i dess komponentfragment.

i slutändan ligger nyckeln till att få exakta kartor i en ”fixa det när du växer” – strategi. Den grundläggande förutsättningen är att fel är sällsynta, på grund av den höga kvaliteten på indata., När fel uppstår, och oavsett om de beror på kloning avvikelser, bildanalysfel eller kartmonteringsfel, är problemet vanligtvis begränsat till bara en av de tre enzymdomänerna. Ofta är problemet begränsat till en enda klon. Avlägsnande av den misstänkta klonen gör att kartan kan växa. När kartan sträcker sig bortom slutet av den misstänkta klonen är det i allmänhet ganska lätt att bestämma varför den klonen ursprungligen störde karttillväxten., Om problemet är ett uppenbart misstag i bildanalysen eller vektorbandsidentifieringen fixar vi datauppsättningen och lägger klonen tillbaka i kartan. Vid våra höga provtagningsdjup är dessa begränsningar på kartkonstruktionen tillräckligt starka överallt men i ändarna för att nästan alla fel ska kunna upptäckas och fixas. Eventuella oupptäckta fel ligger antingen inom en klonlängd från slutet av kartan eller i en region med exceptionellt låg täckning.

tabell 1 är en sammanfattning av YAC → cosmid-kartorna som vi har byggt på Human kromosom 7., Inte varje fragment beställs, och lokalt oordnade fragment placeras i ” fragmentgrupper.”I de flesta fall finns det i genomsnitt 1,2-1,3 oordnade fragment per fragmentgrupp, vilket innebär att vi närmar oss målet att beställa alla begränsningsfragment. En typisk MCD karta, som kombinerar resultaten av fyra oberoende av varandra konstruerade YAC → cosmid kartor, visas i Fig. 5. De höga provtagningsdjupen gör det möjligt att välja en verkligt minimal kakel, med överlappningar av endast några kilobaspar., YAC fidelity valideras genom att jämföra de överlappande regionerna mellan dessa oberoende konstruerade kartor. Hittills har inga avvikelser hittats. Som en ännu mer noggrann test av YAC trohet, vi tar fingeravtryck på en liten samling av cosmids från ett bibliotek som var direkt subcloned från samma cell hybrid linje används för att konstruera YACs (E. D. Green, opublicerade resultat). Inga avvikelser hittades mellan dessa kosmider och de som härleddes från YAC-kloner. Populära uppfattningar om YAC instabilitet bygger till stor del på erfarenhet av ett relativt litet antal bibliotek., Vad dessa resultat fastställer är att stabila YAC-bibliotek kan byggas, och att YACs kan användas som startkloner för systematisk sekvensering.

visa den här tabellen:

  • Visa inline
  • visa popup
Tabell 1

sammanfattning av YAC → cosmid mcd-kartor för delar av Human kromosom 7

Figur 5

representativ mcd-karta från kromosom 7. Fyra hybridcell-Line-härledda YACs underklonades i cosmids för att kartlägga denna 400 kbp-region., Dessutom placerades ett speciellt cosmid-bibliotek som härleddes direkt från hybridcelllinjen (dvs. inte härledd från en YAC-klon) på denna karta, utan inkonsekvenser. Kartan är avbildad strax under den övre skalan. Enzymdomäner EcoRI, HindIII och NsiI avbildas, från topp till botten, i rött, grönt och blått. Beställda grupper av fragment separeras av höga fästmärken och oordnade fragment inom en grupp är åtskilda av korta fästmärken. De minimala tiling-path klonerna visas i lila strax under kartan., Under kakel path kloner visas en större uppsättning kloner: denna uppsättning innehåller alla kloner utom de vars fragment innehåll är identisk med, eller en delmängd av, den för en visad klon. Nästa är en serie av fem histogram. Från topp till botten, de speglar cosmid täckning som härrör från följande källor: cosmid bibliotek beredd direkt från hybrid cellinje-DNA, yWSS1613, yWSS771, yWSS1572, och yWSS1434. Nedan är histogrammen en kartkvalitetsbedömning baserad på atlas (E. Thayer, opublicerat arbete).,

Vi har nu sekvenserat kosmider från nästan 1 Mbp av DNA vars kartläggning sammanfattas i Tabell 1. Hagelgevär sekvenseringsdata analyserades med phred / Phrap sequence-assembly system (P. Green, opublicerade resultat). Inga mappningsfel upptäcktes när sekvensens härledda kartor jämfördes med MCD-kartorna. Inte bara var fragmenten korrekt beställda, men noggrannheten hos intersite-avstånden var mindre än 1%, om än med ett systematiskt fel något mer än 1% för de större fragmenten., Kartorna i detta test innehöll mer än 700 olika begränsningsfragment. I en oberoende MCD kartläggning/shotgun sekvensering projekt av samma storlek i HLA-klass i regionen på människans kromosom 6, liknande resultat erhölls (D. E. Geraghty, T. Guillaudeux, och M. Janer, opublicerade resultat). I HLA-projektet upptäcktes ett enda kartfel i slutet av en karta, vilket spårades till att en 600 bp multiplet band i en enda cosmid. Uppdaterade kartor, sekvenser och programdokumentation finns på vår webbplats på http://www.genome.washington.edu.

Leave a Comment