Flere-komplett-digest restriction fragment kartlegging: Generere sekvensen-klar maps for storskala DNA-sekvensering

RESULTATER

Den eksperimentelle prosedyrer bak MCD kartlegging er vist i Fig. 1, og en konseptuell oversikt over denne prosessen er vist i Fig. 2. Standard molekylær biologi protokoller er ansatt hele. Men en del tilpasninger har vært gjort for å produsere data av tilstrekkelig kvalitet for MCD kartlegging., Svært høy kvalitet gel bilder er viktig fordi presisjonen av fragment størrelse målinger bestemmer hvilken informasjon innhold av fingerprint data og dermed ofte ulike fragmenter av lignende størrelse blir forvekslet med en annen. Videre storskala kartlegging er bare praktisk når gelen bilder kan analyseres automatisk med få feil. Dette målet er bare oppnåelig med jevn, høy kvalitet bilder.

iv xmlns:xhtml=»http://www.w3.org/1999/xhtml»> Figur 1

Flow diagram av våt benken prosedyrer for YAC → cosmid og BAC → cosmid MCD kartlegging., Den viktigste forskjellen er at mens BAC DNA kan lett bli renset fra bakteriell kromosomale DNA, det er ingen god preparative metode for å skille YAC DNA fra gjær kromosomale DNA. I YAC tilfellet, få prosent av cosmids som er avledet fra YAC er identifisert av en hybridisering-basert koloni-screening-protokollen. Med BAC-avledet cosmids, er dette trinnet unødvendig fordi kartlegging programvare kan lett eliminere lite antall av cosmids som ikke stammer fra BAC.

Figur 2

Skjematisk fremstilling av MCD kartlegging prosessen., (en) Gel-bilde. (b) Liste over fragment størrelser for hvert enzym domene i hver klone. Baner som er merket med et nummer som identifiserer klone som c01 eller c02. Baner som er merket med bokstaven M identifisere størrelse markører. (c) Tre single-enzym kart er uavhengig bygget (Høyre). Synkronisering på tvers av enzymet domener resulterer i en sammensatt kart (til Venstre). Lang avmerkingene angir grenser mellom bestilte grupper av fragmenter; kort avmerkingene markere unummerert fragmenter i en gruppe, vilkårlig trukket for å redusere størrelsen.,

Den vellykkede gjennomføringen av MCD kartlegging har krevd en co-utvikling av eksperimentell prosess og data analyse programvare. Ett eksempel på dette samspillet er utformingen av cosmid vektor. For hagle sekvensering, vektor bør være så liten som mulig for å redusere overhead forbundet med gjentatte sekvensering av vektor. For MCD kartlegging, vektor må ikke inneholde områder for kartlegging av enzymer og la ingen mulighet for etablering av en artefakt-området i vektor-sett kryss (f.eks., når en MboI delvis-digest fragment er ligated inn i en BamHI kloning stedet, det er en sjanse for at en artefakt BamHI nettstedet vil bli opprettet i krysset). Når vektor s-Cos-DBI brukes til å klone MboI delvis-digest fragmenter, en enkelt vektor som inneholder fragment av kjente minimum størrelse (3205 bp) er produsert i hver av våre tre enzym domener. Fordi dette vektor som inneholder fragment er ikke representant for noen komplett fordøye fragment i den underliggende genom, det er identifisert med gel-overføring hybridisering og eliminert fra listen over fragmenter brukt til kart montering.,

En stor forbedring i bildekvalitet ble oppnådd ved å bytte til intercalating fargestoff SYBR–green I. Ved eksitasjon bølgelengde på 488 nm brukt av våre gel scanner, finner vi at SYBR–green jeg er fem ganger mer følsom enn thiazole oransje, som i sin tur er tre ganger mer følsom enn etidiumbromid. Vi vanligvis legg bare 15 ng av cosmid DNA per gel lane når du bruker SYBR–green jeg å farge geleer av vanlige dimensjoner. Bandet forvrengning på grunn av lokal overbelastning er aldri et problem fordi den største band inneholde bare 5-10 ng DNA., Videre, når ansette DNA av bare moderat renhet, som vi gjør, renhold av begrensning fordøyer er omvendt relatert til volumet av bakteriekulturer som DNA er pakket ut. SYBR–green jeg i stor grad har redusert antall gel baner som er ubrukelig på grunn av dårlig eller mislykket digestions. Den eneste alvorlige komplikasjonen er at, av ukjente grunner, SYBR–green jeg viser en smal og variable range over som integrert fluorescens øker lineært med mengden av DNA i bandet.,

Automatisk, robust og nøyaktig bestemmelse av fragment størrelser krever nøye utformet for DNA-størrelse markører. Ideelt sett markør band bør være jevnt fordelt langs buen lengden på størrelse mobilitet kurve. Det må være et økende antall av markør band som fragment størrelse tilnærminger terskelen for når mobilities blitt størrelse uavhengig. Oppmerksomhet til kurve-montering stabilitet i denne regionen gir utmerket fragment dimensjonering presisjon opp til 15 kbp (SD ± 1%) og tilstrekkelig fragment dimensjonering presisjon opp til 40 kbp (SD ± 5%)., Et annet krav er at det må være tre band som er lett gjenkjennelige som lokale intensitet maxima. Anerkjennelse av disse iøynefallende band nucleates den automatiske mønster-match prosedyre der bildet analyse programvare identifiserer markør band. I vår standard gel-format (Fig. 3), sett av seks fordøye baner er flankert av to markør baner. Alle de fem markør kjørefelt på gel er brukt i den to-dimensjonale interpolering algoritme som tildeler størrelser til fordøye band.

Figur 3

Gray skala bilde av en typisk kartlegging gel poststained med SYBR–green I., Det er fem markør lanes, på stillinger 1, 8, 15, 22 og 29. To kloner, hver uavhengig fordøyd med EcoRI, HindIII, og NsiI (og lagt inn i den rekkefølgen) er plassert mellom hvert par av markør baner.

The image analysis problem forbundet med en begrensning fordøye mønsteret er ganske forskjellig fra den «base kalle» problemet forbundet med en sekvensering stigen. Base ringer programvaren trenger bare å identifisere dominerende band på hver stige posisjon., I kontrast, programvare designet for å analysere begrensning mønstre må bestemme antall fragmenter i hvert bånd, siden en rekke fragmenter av lignende størrelse kan comigrate på hvilken som helst posisjon i et kjørefelt. Under normale elektroforetiske forhold, band multiplicities av to eller tre er vanlig. Bandet multiplicities må beregnes på tross av synkende signal-til-støyforholdet i små fragment størrelser og nonlinearities i forholdet mellom integrert fluorescens intensitet og DNA-mengde per band. Disse image egenskaper kan variere fra veibane lane selv på samme gel., Effektiv image analysis software må ta hensyn til alle slike eksperimentelle realiteter. Analyse av en typisk gel lane er vist i Fig. 4. Vi har nå lykkes analysert over 1000 gels med vår programvare, og på balanse, det er nesten like god som en ekspert tolk. Det gjør noen feil som en menneskelig ekspert ville ikke gjøre, men det er også riktig analyserer mange band som en ekspert ville miscount.

Figur 4

Behandling av agarose gel bilder. (a) Usant-fargebilde av fordøye fra lane 11 av gel vist i Fig. 3., Full-lane bildet (til Venstre), og en intensitet-rescaled bilde av regionen avgrenset av «zoom» er vist (til Høyre). Hvit barer punkt til band som blir automatisk identifisert av bilde-analyse programvare. Fragment-størrelser i base par er angitt, og eventuelle band multiplicities større enn én, er gitt i parentes. (b) En-dimensjonal representasjon av full lane (Øverst) og zoom-regionen (Nederst). Sammenbruddet til en dimensjon er gjort med en median-partisk gjennomsnitt ordningen. Hver rad er analysert separat., Punkter er først sortert etter intensitet, og et fast antall av den laveste intensiteten punkter er eliminert for å forklare gapet mellom gel baner. Fra resten, et gjennomsnitt på midten kvartil er beregnet. (c) Fragment teller for lane, som inneholder åtte singleter, tre doublets, og en triplett. Fragment count estimatene er basert på utviklingen i integrert band intensitet versus fragment størrelse. Denne trenden er variabel fra gel til gel og er sterkt ikke-lineære., Hver fordøye lane på gel som ikke har blitt avvist på grunn av dårlige data er analysert samtidig å bygge et sammensatt trend linje for forholdet mellom integrert intensitet og DNA-mengde.

En viktig funksjon i systemet er automatisk avvisning av lav kvalitet data. Det gjøres ikke noe forsøk på å identifisere kilden til problemet. Programvaren har en intern modell av hva en god data lane bør se ut, og det avviser alle kjørefelt som ikke tilfredsstiller denne modellen., En delvis liste over typer av problemer som er oppdaget har slettet kloner, blandet kloner, delvis digestions, mislyktes digestions, cleavage på sekundære områder, overfylt baner, underloaded baner, og skitt på gelen. I dagens praksis, 80-90% av gel-baner er brukbare. Men selv gode baner kan bli misforstått. Et kraftig verktøy for å oppdage feiltolkninger er korset enzym summen-av-fragmenter konsistens test., Med unntak for bidrag fra noen mangler små fragmenter av størrelse mindre enn 500 bp, som er gjennomsnittlig forventet å være mindre enn 1% av den totale cosmid lengde, summen av fragmenter bør være konsekvent på tvers av enzymet domener. Det kan variere mellom 40 og 50 kbp fra klone å klone, men fra enzym å enzym på en gitt klone totalt avvik på mer enn 1 eller 2 kbp er nesten sikker indikasjon på at noe er galt med bildet analyse., Ved å bruke denne testen til å oppdage misanalyzed baner, og manuelt korrigere fragment teller, vi har i hovedsak eliminert fragment miscounts på alle band som er større enn 2 kbp.

Den automatiske fase av MCD kart montering fortsetter som en serie av trinn hvor rekkefølgen av clone ender og begrensning fragmenter er stadig raffinert (16, 17). Fragment dimensjonering utliggere er håndtert av «gråsone» – konseptet. Et fragment sammenkobling som er mer presis enn den nedre grå sone terskelen er automatisk akseptert med mindre det bryter med en topologiske begrensning av kartet., Innen grå sonen, fragment sammenkoblinger er bare gjøres hvis det er nødvendig for topologiske konsistens; ellers, de er utsatt. Motstandere som er mindre presis enn den øvre grå sone terskelen er avvist. Vi har for tiden sett den grå sonen terskler på 2.0 og 4.0% over det meste av brukbar størrelse utvalg. Disse grensene er økt både for store fragmenter (på grunn av alvorlig tap av elektroforetiske oppløsning) og for små fragmenter (på grunn av den moderate tap av elektroforetiske oppløsning og økt band utvidelse)., Statistiske uteliggere vanligvis faller under grå sone. Gyldig sammenkoblinger ende opp i den grå sonen først og fremst som et resultat av en multiplet band som ikke er riktig dekomponert av bilde-analyse programvare i sine enkelte fragmenter.

til Slutt, nøkkelen til å oppnå nøyaktige kart og ligger i en «løs det som du vokser» – strategien. Den grunnleggende forutsetningen er at feil er sjeldne, på grunn av den høye kvaliteten på inndata., Når feil oppstår, og uansett om de er på grunn av kloning avvik, bilde-analyse feil, eller kart-montering feil, problemet er vanligvis begrenset til bare ett av de tre enzym domener. Ofte, problemet er begrenset til en enkelt klone. Fjerning av mistenker klone lar kartet for å vokse. Når kartet strekker seg utover slutten av mistenker klone, det er vanligvis ganske lett å finne ut hvorfor klone opprinnelig forstyrret med kart vekst., Hvis problemet er en åpenbar feil i bilde-analyse eller vektor-band identifikasjon, vi fikse data set og sette klone tilbake til kartet. På vår høye prøvetaking dyp, er disse begrensninger på kartet konstruksjonen er sterk nok overalt, men på endene for å tillate nesten alle feil blir oppdaget og reparert. Noen uoppdaget feil enten innen en klone lengden på slutten av kart eller i en region med svært lav dekning.

Tabell 1 er et sammendrag av YAC → cosmid kart som vi har bygget på menneskelig kromosom 7., Ikke alle fragment er bestilt, og lokalt unummerert fragmenter er plassert i «fragment grupper.»I de fleste tilfeller, det er et gjennomsnitt på 1.2–1.3 unummerert fragmenter per fragment gruppe, noe som betyr at vi tett tilnærming målet med bestilling av alle begrensning fragmenter. En typisk MCD-kart, som kombinerer resultatene av fire uavhengig bygget YAC → cosmid kart, er vist i Fig. 5. Den høye prøvetaking dypet tillate valg av en virkelig minimal flislegging banen, med overlapper av bare et par kilobase par., YAC fidelity er validert ved å sammenligne de overlappende områdene mellom disse uavhengig bygget kart. Til dags dato, ingen avvik har blitt funnet. Som en enda mer grundig test av YAC troskap, vi fingerprinted en liten samling av cosmids fra et bibliotek som var direkte subcloned fra samme hybrid cellelinje som brukes til å konstruere den YACs (D. E. Grønn, upubliserte resultater). Ingen forskjeller ble funnet mellom disse cosmids og de som var avledet fra YAC kloner. Populære oppfatninger om YAC ustabilitet er i stor grad basert på erfaring med et relativt lite antall av bibliotekene., Hva disse resultatene etablere er at stabile YAC biblioteker kan bygges, og at YACs kan brukes som starter kloner for systematisk og sekvensering.

Vis denne tabellen:

  • Vis inline
  • Vis popup
Tabell 1

Oppsummering av YAC → cosmid MCD kart for deler av menneskelig kromosom 7.

Figur 5

Representant MCD kart fra kromosom 7. Fire hybrid celle-linje-avledet YACs var subcloned inn cosmids å kartlegge dette 400 kbp regionen., I tillegg, en spesiell cosmid bibliotek avledet direkte fra hybrid-cellelinje (dvs., ikke hentet fra en YAC klone) ble også plassert på dette kartet, med ingen uregelmessigheter. Kartet er avbildet like nedenfor øvre målestokk. Enzym domener EcoRI, HindIII, og NsiI er avbildet, fra topp til bunn, i rødt, grønt og blått. Bestilte grupper av fragmentene separeres ved høye aksemerker og unummerert fragmenter i en gruppe er atskilt med kort markeringer. Minimal-flislegging-banen kloner er vist i lilla rett under kartet., Under flislegging banen kloner, et større sett av kloner er vist: dette settet inneholder alle kloner, bortsett fra de som fragment innhold er identiske med, eller et delsett av, at av en vist klone. Neste er en serie på fem histogrammer. Fra topp til bunn, de gjenspeiler cosmid dekning hentet fra følgende kilder: cosmid bibliotek forberedt direkte fra hybrid cellelinje-DNA, yWSS1613, yWSS771, yWSS1572, og yWSS1434. Under histogrammer er et kart kvalitetsvurdering basert på atlas (E. Thayer, upublisert arbeid).,

Vi har nå sekvensert cosmids fra nesten 1 Mbp av DNA som kartleggingen er oppsummert i Tabell 1. Hagle sekvensering data ble analysert med Phred/Phrap rekkefølge for montering system (S. Green, upubliserte resultater). Ingen tilordning feil ble oppdaget når sekvensen er avledet kart ble sammenlignet med MCD kart. Ikke bare var fragmenter riktig bestilt, men nøyaktigheten av intersite spacings var mindre enn 1%, men med en systematisk feil noe mer enn 1% for de større fragmenter., Kartene som er involvert i denne testen inneholdt mer enn 700 forskjellige begrensning fragmenter. I en uavhengig MCD kartlegging/hagle sekvensering prosjekt av sammenlignbar størrelse i HLA klasse i regionen på menneskelig kromosom 6, tilsvarende resultater ble oppnådd (D. E. Geraghty, T. Guillaudeux, og M. Janer, upubliserte resultater). I HLA-prosjektet, en enkel kartlegging feilen ble oppdaget på slutten av et kart, som ble sporet til miscounting av en 600 bp multiplet band i en enkelt cosmid. Oppdatert kart, sekvenser, og dokumentasjonen for programvaren kan bli funnet på vår Web-område: http://www.genome.washington.edu.

Leave a Comment