Multiple-complete-digest restriction fragment mapping: generování sekvenčně připravených map pro rozsáhlé sekvenování DNA

výsledky

experimentální postupy za mapováním MCD jsou uvedeny na obr. 1 a koncepční přehled tohoto procesu je znázorněn na obr. 2. Používají se standardní protokoly molekulární biologie. Byla však provedena řada úprav, aby se vytvořily údaje odpovídající kvality pro mapování MCD., Velmi kvalitní gelové obrazy jsou nezbytné, protože přesnost měření velikosti fragmentu určuje informační obsah Dat otisků prstů a tím i frekvenci, při které jsou různé fragmenty podobné velikosti navzájem zaměňovány. Mapování ve velkém měřítku je navíc praktické pouze tehdy, když lze gelové obrázky analyzovat automaticky s několika chybami. Tento cíl je dosažitelný pouze s konzistentními, vysoce kvalitními obrázky.

iv xmlns:xhtml=“http://www.w3.org/1999/xhtml“> Obrázek 1

vývojový diagram mokré lavičce postupy pro YAC → cosmid a BAC → cosmid MCD mapování., Hlavní rozdíl spočívá v tom, že zatímco DNA BAC může být snadno čištěna z bakteriální chromozomální DNA, neexistuje žádná dobrá preparativní metoda k oddělení DNA YAC od chromozomální DNA kvasinek. V případě YAC je několik procent kosmidů, které jsou odvozeny z YAC, identifikováno protokolem pro screening kolonií založeným na hybridizaci. U kosmidů odvozených od BAC je tento krok zbytečný, protože mapovací software může snadno eliminovat malý počet kosmidů, které nepocházejí z BAC.

Obrázek 2

schematické znázornění procesu mapování MCD., a) obraz gelu. b) seznam velikostí fragmentů pro každou enzymovou doménu v každém klonu. Pruhy označené číslem identifikují klon jako c01 nebo c02. Pruhy označené písmenem M identifikují značky velikosti. c) tři mapy s jedním enzymem jsou nezávisle konstruovány (vpravo). Synchronizace mezi enzymovými doménami má za následek složenou mapu (vlevo). Dlouhé značky klíšťat označují hranice mezi uspořádanými skupinami fragmentů; krátké značky klíšťat vymezují neuspořádané fragmenty ve skupině, libovolně nakreslené v pořadí klesající velikosti.,

úspěšná implementace mapování MCD vyžadovala souběžný vývoj experimentálního procesu a softwaru pro analýzu dat. Jedním z příkladů této interakce je návrh kosmidního vektoru. Pro sekvenování brokovnice by měl být vektor co nejmenší, aby se minimalizovala režie spojená s opakovaným sekvenováním vektoru. Pro mapování MCD by vektor neměl obsahovat žádná místa pro mapovací enzymy a neumožňovat vytvoření umělého místa na křižovatce vector-insert (např.,, když je fragment částečného trávení MboI ligován do klonovacího místa BamHI, existuje šance, že na křižovatce bude vytvořeno umělé místo BamHI). Když se vektor s-Cos-DBI používá ke klonování fragmentů částečného trávení MboI, vytvoří se v každé z našich tří enzymových domén jediný fragment obsahující vektor známé minimální velikosti (3205 bp). Protože tento fragment obsahující vektor není reprezentativní pro žádný fragment s úplným strávením v základním genomu, je identifikován hybridizací přenosu gelu a vyloučen ze seznamu fragmentů používaných pro sestavení mapy.,

významné zlepšení kvality obrazu bylo dosaženo přepnutím na interkalující barvivo SYBR–green i.při excitační vlnové délce 488 nm, kterou používá náš gelový skener, zjistíme, že SYBR–green I je pětkrát citlivější než thiazol orange, který je zase třikrát citlivější než ethidiumbromid. Při použití SYBR–green I obvykle načítáme pouze 15 ng cosmid DNA na gelový pruh, abychom obarvili gely běžných rozměrů. Zkreslení pásma v důsledku lokálního přetížení není nikdy problém, protože největší pásma obsahují pouze 5-10 ng DNA., Kromě toho, při použití DNA pouze mírné čistoty, stejně jako my, čistotu omezení výběrů je nepřímo úměrná objemu bakteriální kultury, z nichž je DNA extrahována. SYBR-green i výrazně snížil počet gelových pruhů, které jsou nepoužitelné kvůli špatnému nebo neúspěšnému trávení. Jedinou závažnou komplikací je, že SYBR–green i z neznámých důvodů zobrazuje úzký a variabilní rozsah, ve kterém se integrovaná fluorescence lineárně zvyšuje s množstvím DNA v pásmu.,

automatické, robustní a přesné stanovení velikostí fragmentů vyžaduje pečlivě navržené značky velikosti DNA. V ideálním případě by značky měly být rovnoměrně rozmístěny podél délky oblouku křivky pohyblivosti velikosti. Musí existovat rostoucí počet značkovacích pásem, protože velikost fragmentu se blíží prahu, při které se mobility stávají nezávislými na velikosti. Pozor na stabilitu křivky v této oblasti umožňuje vynikající přesnost velikosti fragmentu až do 15 kbp (SD ± 1%) a odpovídající přesnost velikosti fragmentu až do 40 kbp (SD ± 5%)., Druhým požadavkem je, že musí existovat tři pásma, která jsou snadno rozpoznatelná jako maxima místní intenzity. Rozpoznání těchto nápadných pásem vytváří automatický postup shody vzorů, pomocí kterého software pro analýzu obrazu identifikuje značkovací pásma. V našem standardním formátu gelu (obr. 3), sady šesti stravovacích pruhů jsou lemovány dvěma značkovými pruhy. Všech pět pruhů značek na gelu se používá v dvourozměrném interpolačním algoritmu, který přiřazuje velikosti stravitelným pásmům.

obrázek 3

obrázek šedé stupnice typického mapovacího gelu poststained se SYBR-green I., V polohách 1, 8, 15, 22 a 29 je pět značkových pruhů. Dva klony, z nichž každý je nezávisle tráven EcoRI, HindIII a NsiI (a načten v tomto pořadí), jsou umístěny mezi každou dvojicí značkových pruhů.

analýza obrazu problém spojený s omezením digest vzor je zcela odlišná od „base calling“ problém spojený s sekvenční žebřík. Software Base calling potřebuje pouze k identifikaci dominantního pásma na každé pozici žebříku., Naproti tomu software určený k analýze restrikčních vzorců musí určit počet fragmentů v každém pásmu, protože libovolný počet fragmentů podobné velikosti může přijít v libovolné poloze v pruhu. Za normálních elektroforetických podmínek jsou běžné násobnosti pásma dvou nebo tří. Kapela multiplicities musí být počítáno v to i přes slábnoucí signál-šum poměr na malý fragment velikosti a nelineárnosti ve vztazích mezi integrované fluorescenční intenzity a množství DNA za kapelu. Tyto obrazové charakteristiky se mohou lišit od pruhu k pruhu i na stejném gelu., Efektivní software pro analýzu obrazu musí odpovídat za všechny takové experimentální skutečnosti. Analýza typického gelového pruhu je znázorněna na obr. 4. Nyní jsme s naším softwarem úspěšně analyzovali více než 1 000 gelů a v rovnováze je téměř stejně dobrý jako odborný tlumočník. Dělá některé chyby, které by lidský odborník neudělal, ale také správně analyzuje mnoho kapel, které by odborník přepočítal.

obrázek 4

zpracování obrazů agarózového gelu. a) falešně barevný obraz digestu z pruhu 11 gelu znázorněného na obr. 3., Obrázek v plném pruhu je zobrazen (vlevo) a je zobrazen obraz oblasti vymezené „zoomem“ (vpravo). Bílé pruhy ukazují na pásma, která jsou automaticky identifikována softwarem pro analýzu obrazu. Jsou uvedeny velikosti fragmentů v základních párech a v závorkách jsou uvedeny libovolné násobnosti pásma větší než jedna. b) jednorozměrné znázornění plného pruhu (horní) a oblasti zoomu (dolní). Kolaps do jedné dimenze se provádí se středním zkresleným průměrem. Každý řádek je analyzován Samostatně., Pixely jsou nejprve seřazeny podle intenzity a pevný počet pixelů s NEJNIŽŠÍ intenzitou je eliminován, aby se zohlednila mezera mezi gelovými pruhy. Ze zbytku se vypočítá průměr středního kvartilu. (c) Fragment se počítá pro pruh, který obsahuje osm singletů, tři doublety a jeden triplet. Odhady počtu fragmentů jsou založeny na trendu integrované intenzity pásma versus velikosti fragmentu. Tento trend je variabilní od gelu k gelu a je vysoce nelineární., Každý digest lane na gelu, který nebyl odmítnut kvůli špatným datům, je analyzován současně, aby se vytvořila kompozitní trendová linie pro vztah mezi integrovanou intenzitou a množstvím DNA.

klíčovým prvkem systému je automatické odmítnutí dat nízké kvality. Není proveden žádný pokus o identifikaci zdroje problému. Software má interní model toho, jak by měl vypadat dobrý datový pruh, a odmítá jakýkoli pruh, který tento model nesplňuje., Částečný seznam typů problémů, které jsou zjištěny zahrnuje odstraněny klony, smíšené klony, částečný rozklad, nepodařilo rozklad, štěpení na sekundární servery, přetížené pruhy, underloaded pruhy, a nečistoty na gel. V současné praxi je 80-90% gelových pruhů použitelných. Nicméně i dobré jízdní pruhy mohou být špatně interpretovány. Výkonným nástrojem pro detekci chybných interpretací je test konzistence křížového enzymu sum-of-fragmenty., S výjimkou příspěvků z několika chybějících malých fragmentů o velikosti menší než 500 bp, u nichž se v průměru očekává, že budou menší než 1% celkové délky kosmidu, by měl být součet fragmentů konzistentní napříč enzymovými doménami. To se může pohybovat mezi 40 a 50 kbp od klon, klon, ale z enzymu enzymu na danou klon celkové odchylky o více než 1 nebo 2 kbp jsou téměř jisté znamení, že je něco špatně s analýzou obrazu., Použitím tohoto testu k detekci misanalyzovaných pruhů a ruční opravě počtu fragmentů jsme v podstatě odstranili chybné přepočítání fragmentů na všech pásmech větších než 2 kbp.

automatické fáze MCD mapě montáž probíhá jako série kroků, během nichž pořadí klon končí a omezení fragmenty jsou postupně rafinované (16, 17). Odlehlé rozměry fragmentů jsou řešeny konceptem „šedé zóny“. Párování fragmentů, které je přesnější než dolní prahová hodnota šedé zóny, je automaticky přijato, pokud neporušuje topologické omezení mapy., V šedé zóně se párování fragmentů provádí pouze tehdy, jsou-li vyžadovány pro topologickou konzistenci; jinak jsou odloženy. Dvojice, které jsou méně přesné než práh horní šedé zóny, jsou zcela odmítnuty. V současné době nastavujeme prahové hodnoty šedé zóny na 2,0 a 4,0% ve většině použitelného rozsahu velikostí. Tyto prahové hodnoty se zvyšují jak u velkých fragmentů (kvůli těžké ztrátě elektroforetického rozlišení), tak u malých fragmentů (kvůli mírné ztrátě elektroforetického rozlišení a zvýšenému rozšíření pásma)., Statistické odlehlé hodnoty obecně klesají pod šedou zónu. Platné párování skončí v šedé zóně, především v důsledku multiplet kapela, která není správně rozložen v obrazu-software pro analýzu dat na jednotlivé fragmenty.

nakonec klíč k získání přesných map spočívá ve strategii“ fix it as you grow“. Základním předpokladem je, že chyby jsou vzácné kvůli vysoké kvalitě vstupních dat., Pokud se vyskytnou chyby a bez ohledu na to, zda jsou způsobeny aberacemi klonování, chybami analýzy obrazu nebo chybami sestavy mapy, je problém obvykle omezen pouze na jednu ze tří enzymových domén. Problém je často omezen na jeden klon. Odstranění podezřelého klonu umožňuje růst mapy. Jakmile mapa přesahuje konec podezřelého klonu, je obecně docela snadné určit, proč tento klon původně zasahoval do růstu mapy., Pokud je problém zjevnou chybou v identifikaci obrazové analýzy nebo vektorového pásma, opravíme datovou sadu a klon vložíme zpět do mapy. V našich vysokých hloubkách odběru vzorků jsou tato omezení na konstrukci mapy dostatečně silná všude, ale na koncích, aby bylo možné detekovat a opravit téměř všechny chyby. Jakékoli nezjištěné chyby jsou buď v délce klonu na konci mapy, nebo v oblasti s mimořádně nízkým pokrytím.

Tabulka 1 je souhrn map YAC → cosmid, které jsme postavili na lidském chromozomu 7., Ne každý fragment je uspořádán a lokálně neuspořádané fragmenty jsou umístěny do “ fragmentových skupin.“Ve většině případů existuje v průměru 1,2-1,3 neuspořádaných fragmentů na fragmentovou skupinu, což znamená, že úzce přistupujeme k cíli objednání všech restrikčních fragmentů. Typická mapa MCD, která kombinuje výsledky čtyř nezávisle konstruovaných map YAC → cosmid, je znázorněna na obr. 5. Vysoká hloubka odběru vzorků umožňují výběr skutečně minimální obklady cestu, se překrývá jen pár kilobase párů., Věrnost YAC je ověřena porovnáním překrývajících se oblastí mezi těmito nezávisle vytvořenými mapami. K dnešnímu dni nebyly nalezeny žádné nesrovnalosti. Jako ještě přísnější test věrnosti YAC jsme otiskli malou sbírku kosmidů z knihovny, která byla přímo podtržena ze stejné hybridní buněčné linie používané k konstrukci YACs (E.D. Green, nepublikované výsledky). Mezi těmito kosmidy a těmi, které byly odvozeny od klonů YAC, nebyly nalezeny žádné nesrovnalosti. Populární vnímání nestability YAC je založeno převážně na zkušenostech s relativně malým počtem knihoven., Tyto výsledky ukazují, že lze vytvořit stabilní knihovny YAC a že YAC lze použít jako výchozí klony pro systematické sekvenování.

Zobrazit tato tabulka:

  • Zobrazit inline
  • Zobrazit popup
Tabulka 1

Shrnutí YAC → cosmid MCD mapy pro části lidského chromozomu 7

Obrázek 5

Zástupce MCD mapě z chromozomu 7. Čtyři hybridní buněčné linie odvozené YAC byly podtříděny do kosmidů, aby mapovaly tuto oblast 400 kbp., Kromě toho byla na této mapě také umístěna speciální knihovna cosmid odvozená přímo z linie hybridních buněk (tj. Mapa je zobrazena těsně pod horní lištou měřítka. Enzymové domény EcoRI, HindIII a NsiI jsou zobrazeny shora dolů v červené, zelené a modré barvě. Uspořádané skupiny fragmentů jsou odděleny vysokými značkami klíšťat a neuspořádané fragmenty ve skupině jsou odděleny krátkými značkami klíšťat. Klony s minimální dráhou jsou zobrazeny ve fialové barvě těsně pod mapou., Pod obklady cestu klony, většího souboru klonů je uvedeno: tato sada obsahuje všechny klony kromě těch, jejichž fragment obsah je totožný nebo podmnožinu, zobrazí klon. Další je řada pěti histogramů. Shora dolů odrážejí pokrytí cosmid odvozené z následujících zdrojů: knihovna cosmid připravená přímo z DNA hybridní buněčné linie, yWSS1613, yWSS771, yWSS1572 a yWSS1434. Pod histogramy je hodnocení kvality mapy založené na atlasu (e.Thayer, nepublikovaná práce).,

nyní máme sekvenované kosmidy z téměř 1 Mbp DNA, jejichž mapování je shrnuto v tabulce 1. Data sekvenování brokovnice byla analyzována pomocí sekvenčního systému phred / Phrap (P. Green, nepublikované výsledky). Při porovnávání map odvozených sekvencí s mapami MCD nebyly zjištěny žádné chyby mapování. Nejen, že byly fragmenty správně objednat, ale přesnost služba mezisíťového vzdálenost byla menší než 1%, i když s systematická chyba poněkud více než 1%, pro větší fragmenty., Mapy zapojené do tohoto testu obsahovaly více než 700 různých fragmentů omezení. V nezávislém projektu Mapování MCD/sekvenování brokovnice srovnatelné velikosti v oblasti HLA třídy i na lidském chromozomu 6 byly získány podobné výsledky (D.E. Geraghty, T. Guillaudeux A M. Janer, nepublikované výsledky). V projektu HLA byla na konci jedné mapy zjištěna jediná chyba mapování, která byla vysledována k nesprávnému zobrazení multipletového pásma 600 bp v jediném cosmidu. Aktuální mapy, sekvence a softwarová dokumentace naleznete na našich webových stránkách na http://www.genome.washington.edu.

Leave a Comment