Multiple-complete-digest restriction fragment mapping: generering af sekvensklare kort til storskala DNA-sekventering

resultater

de eksperimentelle procedurer bag MCD-kortlægning er vist i fig. 1, og en konceptuel oversigt over denne proces er vist i fig. 2. Standard molekylærbiologiske protokoller anvendes overalt. Der er dog foretaget en række tilpasninger for at producere data af tilstrækkelig kvalitet til MCD-kortlægning., Meget høj kvalitet gel billeder er afgørende, fordi præcisionen af fragmentet størrelse målinger bestemmer informationsindholdet af fingeraftryksdata og dermed den frekvens, hvormed forskellige fragmenter af samme størrelse forveksles med hinanden. Desuden er kortlægning i stor skala kun praktisk, når gelbillederne kan analyseres automatisk med få fejl. Dette mål kan kun opnås med konsistente billeder i høj kvalitet.

iv dimlns:.html=”http://www.w3.org/1999/xhtml”> Figur 1

rutediagram over vådbænkprocedurer for YAC and cosmid og BAC.cosmid MCD-kortlægning., Den væsentligste forskel er, at mens BAC-DNA let kan renses fra bakterielt kromosomalt DNA, er der ingen god præparativ metode til at adskille YAC-DNA fra gærkromosomalt DNA. I YAC-sagen identificeres de få procent af kosmiderne, der er afledt af YAC, ved hjælp af en hybridiseringsbaseret koloniscreeningsprotokol. Med BAC-afledte cosmids, er dette trin unødvendigt, fordi mapping-software kan let fjerne den lille antal af cosmids, der ikke stammer fra BAC.

figur 2

skematisk repræsentation af MCD-kortlægningsproces., (A) Gel billede. b) Liste over fragmentstørrelser for hvert en .ymdomæne i hver klon. Baner mærket med et nummer identificerer klonen som c01 eller C02. Baner mærket med bogstavet M identificere størrelse markører. (C) tre enkelt-en .ymkort er uafhængigt konstrueret (højre). Synkronisering på tværs af en .ymdomæner resulterer i et sammensat kort (til venstre). Lange kryds mærker angiver grænser mellem ordnede grupper af fragmenter; korte kryds mærker afgrænser uordnede fragmenter inden for en gruppe, vilkårligt tegnet i rækkefølge af faldende størrelse.,

Den vellykkede gennemførelse af MCD kortlægning har krævet en co-evolution af den eksperimentelle proces og data analyse software. Et eksempel på denne interaktion er designet af cosmid-vektoren. For haglgeværsekvensering skal vektoren være så lille som muligt for at minimere overhead forbundet med gentagen sekventering af vektoren. For MCD-kortlægning bør vektoren ikke indeholde steder for kortlægningsen andymerne og ikke tillade nogen mulighed for oprettelse af et kunstigt sted ved vektorindsatskrydset (f. eks.,, når et Mboi-partielt fordøjelsesfragment ligeres til et BamHI-kloningssted, er der en chance for, at der oprettes et kunstigt BamHI-sted ved krydset). Når vektoren s-Cos-DBI bruges til at klone Mboi partielle fordøjelsesfragmenter, produceres et enkelt vektorholdigt fragment af kendt minimumsstørrelse (3205 bp) i hvert af vores tre en .ymdomæner. Da dette vektorholdige fragment ikke er repræsentativt for noget komplet fordøjelsesfragment i det underliggende genom, identificeres det ved geloverførselshybridisering og elimineres fra listen over fragmenter, der anvendes til kortmontering.,

En stor forbedring i billedkvaliteten, der blev opnået ved at skifte til intercalating farvestof SYBR–grøn I. På excitationsbølgelængde af 488 nm, der anvendes af vores gel scanner, finder vi, at SYBR–grønne jeg er fem gange mere følsomme end thiazole orange, som igen er tre gange mere følsomme end ethidiumbromid. Vi indlæser typisk kun 15 ng cosmid-DNA pr. gelbane, når vi bruger SYBR–green i til at plette geler med almindelige dimensioner. Båndforvrængning på grund af lokal overbelastning er aldrig et problem, fordi de største bånd kun indeholder 5-10 ng DNA., Når vi anvender DNA med kun moderat renhed, som vi gør, er renheden af restriktions fordøjelserne omvendt relateret til mængden af bakteriekultur, hvorfra DNA ‘ et ekstraheres. SYBR-green I har i høj grad reduceret antallet af gelbaner, der er ubrugelige på grund af dårlig eller mislykket fordøjelse. Den eneste alvorlige komplikation er, at SYBR–green I af ukendte årsager viser et smalt og variabelt område, over hvilket integreret fluorescens stiger lineært med mængden af DNA i båndet.,

automatisk, robust og nøjagtig bestemmelse af fragmentstørrelser kræver omhyggeligt designede DNA-størrelsesmarkører. Ideelt set bør markørbåndene være ensartet fordelt langs buelængden af størrelsesmobilitetskurven. Der skal være et stigende antal markørbånd, når fragmentstørrelsen nærmer sig den tærskel, hvor mobiliteter bliver størrelsesuafhængige. Opmærksomhed på kurvetilpasningsstabilitet i dette område tillader fremragende fragmentstørrelsespræcision op til 15 kbp (SD 1 1%) og tilstrækkelig fragmentstørrelsespræcision op til 40 kbp (SD 5 5%)., Et andet krav er, at der skal være tre bånd, der let genkendes som lokal intensitetsma .ima. Genkendelse af disse iøjnefaldende bånd kernerer den automatiske mønster-match-procedure, hvormed billedanalysesoft .aren identificerer markørbåndene. I vores standard gelformat (Fig. 3), er sæt af seks digest baner flankeret af to markør baner. Alle de fem markørbaner på gelen bruges i den todimensionelle interpolationsalgoritme, der tildeler størrelser til fordøjelsesbåndene.

figur 3

Gråskala billede af en typisk kortlægning gel poststained med SYBR-grøn I., Der er fem markeringsbaner på positionerne 1, 8, 15, 22 og 29. To kloner, hver uafhængigt fordøjet med EcoRI, HindIII og NsiI (og indlæst i den rækkefølge) placeres mellem hvert par markørbaner.

billedanalyseproblemet, der er forbundet med et begrænsningsfordøjelsesmønster, er helt anderledes end problemet med “baseopkald”, der er forbundet med en sekventeringsstige. Baseopkaldssoft .are behøver kun at identificere det dominerende bånd ved hver stigeposition., I modsætning hertil skal soft .are, der er designet til at analysere begrænsningsmønstre, bestemme antallet af fragmenter i hvert bånd, da ethvert antal fragmenter af lignende størrelse kan komme i enhver position i en bane. Under normale elektroforetiske betingelser er båndmultipliciteter på to eller tre almindelige. Båndmultipliciteter skal beregnes på trods af faldende signal-til-støjforhold ved små fragmentstørrelser og ikke-linearitet i forholdet mellem integreret fluorescensintensitet og DNA-mængde pr. Disse billedegenskaber kan variere fra bane til Bane, selv på den samme gel., Effektiv billedanalyse soft .are skal redegøre for alle sådanne eksperimentelle realiteter. Analysen af en typisk gelbane er vist Fig. 4. Vi har nu med succes analyseret over 1,000 geler med vores soft .are, og i balance er det næsten lige så godt som en ekspertfortolk. Det gør nogle fejl, som en menneskelig ekspert ikke ville gøre, men det analyserer også Korrekt mange bands, som en ekspert ville miscount.

figur 4

behandling af agarosegelbilleder. (a) falsk farvebillede af fordøjelsen fra bane 11 af gelen vist i Fig. 3., Fuldbanebilledet vises (til venstre), og et intensitetskaleret billede af det område, der er afgrænset af “.oom”, vises (til højre). Hvide bjælker peger på bånd, der automatisk identificeres af billedanalysesoft .aren. Fragmentstørrelser i basepar er angivet, og eventuelle båndmultiplikationer større end en er angivet i parentes. (b) en-dimensionel repræsentation af hele banen (øverst) og zoomområdet (nederst). Sammenbruddet til en dimension sker med en median-partisk gennemsnitsplan. Hver række analyseres separat., Pixels er først sorteret efter intensitet, og et fast antal af de laveste intensitet pixels er elimineret at tage højde for forskellen mellem gel baner. Fra resten beregnes et gennemsnit af det midterste kvartil. (C) Fragment tæller for lane, som indeholder otte singlets, tre dubletter, og en triplet. Fragment count estimater er baseret på tendensen i integreret båndintensitet versus fragment størrelse. Denne tendens er variabel fra gel til gel og er meget ikke-lineær., Hver fordøjelsesbane på gelen, der ikke er blevet afvist på grund af dårlige data, analyseres samtidigt for at opbygge en sammensat trendlinie for forholdet mellem integreret intensitet og DNA-mængde.

et centralt element i systemet er automatisk afvisning af data af lav kvalitet. Der gøres ikke noget forsøg på at identificere kilden til problemet. Soft .aren har en intern model af, hvordan en god databane skal se ud, og den afviser enhver bane, der ikke tilfredsstiller denne model., En delvis liste over de typer problemer, der opdages, inkluderer slettede kloner, blandede kloner, delvise fordøjelser, mislykkede fordøjelser, spaltning på sekundære steder, overbelastede baner, underbelastede baner og snavs på gelen. I den nuværende praksis er 80-90% af gelbanerne anvendelige. Men selv gode baner kan fortolkes forkert. Et kraftfuldt værktøj til at detektere fejlfortolkninger er korsen .ymet sum-of-fragments konsistenstest., Bortset fra bidrag fra nogle få manglende små fragmenter af størrelse under 500 bp, som i gennemsnit forventes at være mindre end 1% af den samlede cosmidlængde, skal summen af fragmenter være konsistente på tværs af en .ymdomæner. Det kan variere mellem 40 og 50 kbp fra klon til klon, men fra enzym til enzym på en given klon samlede afvigelser på mere end 1 eller 2 kbp er næsten sikkert tegn på, at noget er galt med det billede analyse., Ved at bruge denne test til at detektere misanalyserede baner og manuelt korrigere fragmenttællingerne, har vi i det væsentlige elimineret fragment-fejl på alle bånd større end 2 kbp.

den automatiske fase af MCD-kortkonstruktionen fortsætter som en række trin, hvor klonens rækkefølge slutter, og restriktionsfragmenter raffineres gradvist (16, 17). Fragment dimensionering outliers håndteres af” grå zoneone ” koncept. En fragmentparring, der er mere præcis end den nedre grå zoneonetærskel, accepteres automatisk, medmindre den krænker en topologisk begrænsning af kortet., Inden for den grå zoneone fremstilles fragmentparringer kun, hvis de er nødvendige for topologisk konsistens; ellers udsættes de. Parringer, der er mindre præcise end den øvre grå thresholdone tærskel afvises direkte. Vi indstiller i øjeblikket grå zoneonetærsklerne til 2.0 og 4.0% over det meste af det anvendelige størrelsesområde. Disse tærskler er steget både for store fragmenter (på grund af alvorlige tab af elektroforese-opløsning) og for små fragmenter (på grund af den moderate tab af elektroforese opløsning og den øgede band udvidelse)., Statistiske outliers falder generelt under den grå .one. Gyldige parringer ender primært i den grå .one som et resultat af et multipletbånd, der ikke nedbrydes korrekt af billedanalysesoft .aren i dets komponentfragmenter.

i sidste ende ligger nøglen til at få nøjagtige kort i en “fi.it as you gro.” – strategi. Den grundlæggende forudsætning er, at fejl er sjældne på grund af den høje kvalitet af inputdataene., Når der opstår fejl, og uanset om de skyldes kloning af aberrationer, billedanalysefejl eller kortmonteringsfejl, er problemet normalt begrænset til kun et af de tre en .ymdomæner. Ofte er problemet begrænset til en enkelt klon. Fjernelse af den mistænkte klon gør det muligt for kortet at vokse. Når kortet strækker sig ud over slutningen af den mistænkte klon, er det generelt ret nemt at afgøre, hvorfor den klon oprindeligt forstyrrede kortvæksten., Hvis problemet er en åbenbar fejl i billedanalysen eller vektorbåndsidentifikationen, løser vi datasættet og sætter klonen tilbage på kortet. På vores høje prøveudtagningsdybder er disse begrænsninger på kortkonstruktionen tilstrækkeligt stærke overalt, men i enderne til at tillade næsten alle fejl at blive opdaget og rettet. Eventuelle uopdagede fejl er enten inden for en klon længde af enden af kortet eller i et område med usædvanlig lav dækning.tabel 1 er et resum.af de YAC cos cosmid-kort, som vi har bygget på humant kromosom 7., Ikke alle fragmenter er bestilt, og lokalt uordnede fragmenter placeres i “fragment grupper.”I de fleste tilfælde er der i gennemsnit 1, 2-1, 3 uordnede fragmenter pr.fragmentgruppe, hvilket betyder, at vi nøje nærmer os målet om at bestille alle begrænsningsfragmenter. Et typisk MCD-kort, der kombinerer resultaterne af fire uafhængigt konstruerede YAC cos cosmid-kort, er vist i Fig. 5. De høje prøvetagningsdybder tillader valg af en virkelig minimal flisebelægning sti, med overlapninger af kun et par kilobase par., YAC fidelity valideres ved at sammenligne de overlappende regioner mellem disse uafhængigt konstruerede kort. Til dato er der ikke fundet uoverensstemmelser. Som en endnu mere grundig test af YAC troskab, vi fingeraftryk af en lille samling af cosmids fra et bibliotek, der var direkte subcloned fra den samme hybrid celle linje, der anvendes til at konstruere YACs (E. D. Grøn, upublicerede resultater). Der blev ikke fundet nogen uoverensstemmelser mellem disse kosmider og dem, der var afledt af YAC-kloner. Populære opfattelser af YAC-ustabilitet er stort set baseret på erfaringer med et relativt lille antal biblioteker., Hvad disse resultater viser, er, at stabile YAC-biblioteker kan bygges, og at YAC ‘ er kan bruges som startkloner til systematisk sekventering.

Se denne tabel:

  • Vis inline
  • Vis popup
Tabel 1

Resumé af YAC → cosmid MCD kort til dele af human kromosom 7

Figur 5

Repræsentant MCD kort fra kromosom 7. Fire hybride cellelinjeafledte YAC ‘ er blev subcloneret i cosmids for at kortlægge denne 400 kbp-region., Derudover blev et specielt cosmid-bibliotek afledt direkte fra hybridcellelinjen (dvs.ikke afledt af en YAC-klon) også placeret på dette kort uden uoverensstemmelser. Kortet er afbildet lige under den øverste skala bar. Enzym domæner EcoRI, HindIII, og NsiI er afbildet, fra top til bund, i rød, grøn og blå. Ordnede grupper af fragmenter er adskilt af høje kryds mærker og uordnede fragmenter inden for en gruppe er adskilt af korte kryds mærker. Klonerne med minimal flisebelægning vises i lilla lige under kortet., Under flisebelægning vej kloner, et større sæt af kloner er vist: dette sæt indeholder alle kloner, undtagen dem, hvis fragment indhold er identisk med, eller en delmængde af, at et vist klon. Næste er en serie på fem histogrammer. Fra top til bund, og de afspejler cosmid dækning stammer fra følgende kilder: cosmid bibliotek, der tilberedes direkte fra hybrid cellelinje-DNA, yWSS1613, yWSS771, yWSS1572, og yWSS1434. Under histogrammerne er en kortkvalitetsvurdering baseret på atlas (E. Thayer, upubliceret arbejde).,

Vi har nu sekventeret cosmids fra næsten 1 Mbp af DNA ‘ et, hvis kortlægning er opsummeret i tabel 1. Shotgun-sekventeringsdataene blev analyseret med Phred/Phrap-sekvens-samlingssystemet (P. Green, upublicerede resultater). Der blev ikke fundet nogen kortlægningsfejl, når sekvensen afledte kort blev sammenlignet med MCD-kortene. Ikke kun var fragmenterne korrekt bestilt, men nøjagtigheden af intersite-afstanden var mindre end 1%, omend med en systematisk fejl noget mere end 1% for de større fragmenter., Kortene involveret i denne test indeholdt mere end 700 forskellige begrænsningsfragmenter. I et uafhængigt MCD-kortlægnings – / haglgeværsekventeringsprojekt af sammenlignelig størrelse i HLA klasse i-regionen på humant kromosom 6 blev der opnået lignende resultater (de Geraghty, T. Guillaudeu.og M. Janer, upublicerede resultater). I HLA-projektet blev der registreret en enkelt kortlægningsfejl i slutningen af et kort, som blev sporet til miscounting af et 600 bp multipletbånd i et enkelt cosmid. Opdaterede kort, sekvenser og soft .are dokumentation kan findes på vores hjemmeside på http://www.genome.washington.edu.

Leave a Comment