Multiple-complete – Digest restriction fragment mapping: Generating sequence-ready maps for large-scale DNA sequencing

RESULTS

the experimental procedures behind MCD mapping are showed in Fig. 1, A koncepcyjny przegląd tego procesu pokazano na Rys. 2. Stosowane są standardowe protokoły biologii molekularnej. Dokonano jednak wielu dostosowań w celu uzyskania danych o odpowiedniej jakości dla mapowania MCD., Bardzo wysokiej jakości obrazy żelowe są niezbędne, ponieważ precyzja pomiarów rozmiaru fragmentu determinuje zawartość informacyjną danych daktyloskopijnych, a tym samym częstotliwość, z jaką różne fragmenty o podobnej wielkości są ze sobą mylone. Ponadto mapowanie na dużą skalę jest praktyczne tylko wtedy, gdy obrazy żelu mogą być analizowane automatycznie z kilkoma błędami. Cel ten można osiągnąć tylko dzięki spójnym, wysokiej jakości obrazom.

iv xmlns:xhtml=”http://www.w3.org/1999/xhtml”> Rysunek 1

schemat blokowy procedur mokrej ławki dla YAC → cosmid i BAC → mapowanie cosmid MCD., Główną różnicą jest to, że, podczas gdy BAC DNA może łatwo oczyszczać z bakteryjnego DNA chromosomalnego, nie ma dobrej metody preparatywnej, aby oddzielić YAC DNA od DNA chromosomalnego drożdży. W przypadku YAC, kilka procent cosmids, które pochodzą z YAC są identyfikowane przez hybrydyzacji oparte Colony-screening protocol. W przypadku cosmidów pochodzących z BAC ten krok jest niepotrzebny, ponieważ oprogramowanie mapujące może łatwo wyeliminować niewielką liczbę cosmidów, które nie pochodzą z BAC.

Rysunek 2

schematyczna reprezentacja procesu mapowania MCD., a) obraz żelowy. b) wykaz rozmiarów fragmentów dla każdej domeny enzymu w każdym klonie. Pasy oznaczone numerem identyfikują klon jako c01 lub c02. Pasy oznaczone literą M identyfikują znaczniki wielkości. C) trzy mapy jednosylabowe są skonstruowane niezależnie (po prawej). Synchronizacja między domenami enzymatycznymi skutkuje złożoną mapą (po lewej). Długie znaki wskazujące granice między uporządkowanymi grupami fragmentów; krótkie znaki wskazujące wyznaczają nieuporządkowane fragmenty w obrębie grupy, dowolnie rysowane w kolejności malejącej wielkości.,

udane wdrożenie mapowania MCD wymagało koewolucji procesu eksperymentalnego i oprogramowania do analizy danych. Jednym z przykładów tej interakcji jest konstrukcja wektora cosmid. W przypadku sekwencjonowania wektor powinien być jak najmniejszy, aby zminimalizować obciążenie związane z powtarzającym się sekwencjonowaniem wektora. W przypadku mapowania MCD wektor nie powinien zawierać miejsc dla mapowania i nie powinien umożliwiać tworzenia artefaktu na skrzyżowaniu wektor-insert (np.,, gdy fragment częściowo strawiony MboI jest ligowany do miejsca klonowania BamHI, istnieje szansa, że artefaktualne miejsce BamHI zostanie utworzone na skrzyżowaniu). Gdy wektor s-Cos-DBI jest używany do klonowania fragmentów częściowo strawionych MboI, w każdej z naszych trzech domen enzymu powstaje pojedynczy wektor zawierający fragment o znanej minimalnej wielkości (3205 bp). Ponieważ ten fragment zawierający wektor nie jest reprezentatywny dla żadnego pełnowartościowego fragmentu w genomie bazowym, jest identyfikowany przez hybrydyzację gel-transfer i eliminowany z listy fragmentów używanych do montażu map.,

znaczna poprawa jakości obrazu została osiągnięta poprzez przejście na barwnik interkalujący SYBR–green I. przy długości fali wzbudzenia 488 nm używanej przez nasz skaner żeli, znajdujemy, że SYBR–green i jest pięć razy bardziej wrażliwy niż tiazolowa pomarańcza, która z kolei jest trzy razy bardziej wrażliwa niż bromek etydyny. Zazwyczaj ładujemy tylko 15 ng cosmid DNA na linię żelu, gdy używamy SYBR-green I do barwienia żeli o zwykłych wymiarach. Zniekształcenia pasma spowodowane lokalnym przeciążeniem nigdy nie stanowią problemu, ponieważ największe pasma zawierają tylko 5-10 ng DNA., Ponadto, przy stosowaniu DNA o umiarkowanej czystości, tak jak to robimy, czystość trawienia ograniczającego jest odwrotnie związana z objętością kultury bakteryjnej, z której DNA jest ekstrahowane. SYBR-green i znacznie zmniejszył liczbę pasów żelowych, które są bezużyteczne z powodu słabych lub nieudanych trawień. Jedynym poważnym powikłaniem jest to, że z nieznanych powodów SYBR–green i wyświetla wąski i zmienny zakres, w którym zintegrowana fluorescencja zwiększa się liniowo wraz z ilością DNA w paśmie.,

Automatyczne, solidne i dokładne określenie rozmiarów fragmentów wymaga starannie zaprojektowanych markerów wielkości DNA. Idealnie, pasma znaczników powinny być równomiernie rozmieszczone wzdłuż długości łuku krzywej mobilności wielkości. Musi istnieć coraz większa liczba pasm znaczników, Ponieważ rozmiar fragmentu zbliża się do progu, przy którym ruchliwość staje się niezależna od rozmiaru. Uwaga na stabilność dopasowania krzywej w tym regionie pozwala na doskonałą dokładność doboru fragmentu do 15 kbp (SD ± 1%) i odpowiednią dokładność doboru fragmentu do 40 kbp (SD ± 5%)., Drugim wymogiem jest to, że muszą istnieć trzy pasma, które są łatwo rozpoznawalne jako lokalne maksima intensywności. Rozpoznawanie tych rzucających się w oczy pasm powoduje automatyczną procedurę dopasowania wzorca, za pomocą której oprogramowanie do analizy obrazu identyfikuje pasmy znaczników. W naszym standardowym formacie żelu (rys. 3), zestawy sześciu pasów strawnych są flankowane dwoma pasami znacznikowymi. Wszystkie z pięciu pasów markerów na żelu są używane w dwuwymiarowym algorytmie interpolacji, który przypisuje rozmiary pasmom digest.

Rysunek 3

obraz w skali szarości typowego żelastwa odwzorowującego oznaczonego symbolem SYBR–green I., Istnieje pięć pasów oznaczających, na pozycjach 1, 8, 15, 22 i 29. Dwa klony, każdy niezależnie trawiony EcoRI, HindIII i NsiI (i załadowany w tej kolejności) są umieszczone pomiędzy każdą parą pasów znaczników.

problem z analizą obrazu związany ze wzorcem restriction digest różni się od problemu „wywołania bazowego” związanego z drabiną sekwencjonowania. Oprogramowanie do wywoływania bazowego musi tylko zidentyfikować dominujące pasmo na każdej pozycji drabiny., W przeciwieństwie do tego, oprogramowanie zaprojektowane do analizy wzorców ograniczeń musi określać liczbę fragmentów w każdym paśmie, ponieważ dowolna liczba fragmentów o podobnej wielkości może się łączyć w dowolnym miejscu na pasie. W normalnych warunkach elektroforetycznych wielokrotność pasma dwóch lub trzech jest powszechna. Mnożność pasma musi być obliczona pomimo zmniejszających się proporcji sygnału do szumu przy małych rozmiarach fragmentów i nieliniowości w zależności między zintegrowaną intensywnością fluorescencji a ilością DNA na pasmo. Te cechy obrazu mogą się różnić w zależności od pasa ruchu, nawet na tym samym żelu., Skuteczne oprogramowanie do analizy obrazu musi uwzględniać wszystkie takie eksperymentalne rzeczywistości. Analiza typowego pasa żelowego pokazana jest rys. 4. Z powodzeniem przeanalizowaliśmy ponad 1000 żeli za pomocą naszego oprogramowania i, w sumie, jest on prawie tak dobry, jak ekspert Tłumacz. Popełnia błędy, których nie popełniłby ludzki ekspert, ale również poprawnie analizuje wiele zespołów, które ekspert pomyliłby.

Rysunek 4

przetwarzanie obrazów w żelu agarozowym. (a) fałszywy-kolorowy obraz trawienia z pasa 11 żelu pokazanego na Rys. 3., Wyświetlany jest obraz w pełnym pasie ruchu (po lewej) i przeskalowany intensywność obrazu obszaru wyznaczonego przez „zoom” (po prawej). Białe paski wskazują pasma, które są automatycznie identyfikowane przez oprogramowanie do analizy obrazu. W nawiasach podano rozmiary fragmentów w parach podstawowych, a w nawiasach podano dowolne wielokrotności pasma większe niż jeden. b) jednowymiarowa reprezentacja pełnego pasa ruchu (górnego) i obszaru powiększenia (Dolnego). Załamanie do jednego wymiaru odbywa się za pomocą schematu uśredniania mediany. Każdy rząd jest analizowany osobno., Piksele są najpierw sortowane według intensywności, a stała liczba pikseli najniższej intensywności jest eliminowana, aby uwzględnić lukę między pasami żelowymi. Z pozostałej części oblicza się średnią z środkowego kwartylu. C) Fragment liczy się dla pasa, który zawiera osiem singletów, trzy dublety i jeden triplet. Szacunki liczby fragmentów opierają się na trendzie intensywności zintegrowanego pasma w porównaniu z rozmiarem fragmentu. Trend ten jest zmienny od żelu do żelu i jest bardzo nieliniowy., Każda linia trawienia na żelu, która nie została odrzucona z powodu złych danych, jest analizowana jednocześnie, aby zbudować złożoną linię trendu dla relacji między zintegrowaną intensywnością i ilością DNA.

kluczową cechą systemu jest automatyczne odrzucanie danych niskiej jakości. Nie podejmuje się próby identyfikacji źródła problemu. Oprogramowanie ma wewnętrzny model tego, jak powinien wyglądać dobry pas danych, i odrzuca każdy pas, który nie spełnia tego modelu., Częściowa lista typów wykrytych problemów obejmuje usunięte klony, mieszane klony, częściowe przetrawianie, nieudane przetrawianie, rozszczepienie w miejscach drugorzędnych, przeciążone pasy ruchu, pod obciążone pasy ruchu i brud na żelu. W obecnej praktyce użytkowych jest 80-90% pasów żelbetowych. Jednak nawet dobre pasy mogą być błędnie interpretowane. Potężnym narzędziem do wykrywania błędnych interpretacji jest test konsystencji enzymu Cross-of-fragments., Z wyjątkiem kilku brakujących małych fragmentów o wielkości mniejszej niż 500 bp, które średnio mają wynosić mniej niż 1% całkowitej długości kosmków, suma fragmentów powinna być spójna dla domen enzymatycznych. Może wahać się od 40 do 50 kbp od klonu do klonu, ale od enzymu do enzymu na danym klonie całkowite odchylenia większe niż 1 lub 2 kbp są prawie pewne oznaki, że coś jest nie tak z analizą obrazu., Korzystając z tego testu do wykrywania nieprawidłowo analizowanych pasów i ręcznego korygowania zliczania fragmentów, zasadniczo wyeliminowaliśmy błędy w liczbach fragmentów na wszystkich pasmach większych niż 2 kbp.

automatyczna Faza montażu map MCD przebiega jako seria kroków, podczas których kolejność końców klonu i fragmenty ograniczeń są stopniowo udoskonalane (16, 17). Odstające rozmiary fragmentów są obsługiwane przez koncepcję „szarej strefy”. Parowanie fragmentów, które jest bardziej precyzyjne niż dolny próg szarej strefy, jest automatycznie akceptowane, chyba że narusza ograniczenie topologiczne mapy., W szarej strefie pary fragmentów są tworzone tylko wtedy, gdy są wymagane dla spójności topologicznej; w przeciwnym razie są odroczone. Pary, które są mniej precyzyjne niż górny próg szarej strefy, są odrzucane wprost. Obecnie ustawiamy progi szarej strefy na 2,0 i 4,0% w większości użytkowych rozmiarów. Progi te są podwyższone zarówno dla dużych fragmentów (ze względu na znaczną utratę rozdzielczości elektroforetycznej), jak i dla małych fragmentów (ze względu na umiarkowaną utratę rozdzielczości elektroforetycznej i zwiększone poszerzenie pasma)., Statystycznie odstające wartości zazwyczaj spadają poniżej szarej strefy. Poprawne pary trafiają do szarej strefy przede wszystkim w wyniku wielopasmowego pasma, które nie jest prawidłowo rozkładane przez oprogramowanie do analizy obrazu na jego fragmenty składowe.

ostatecznie kluczem do uzyskania dokładnych map jest strategia „napraw to w miarę rozwoju”. Podstawowym założeniem jest to, że błędy są rzadkie, ze względu na wysoką jakość danych wejściowych., Gdy występują błędy i niezależnie od tego, czy są one spowodowane aberracjami klonowania, błędami analizy obrazu lub błędami montażu map, problem jest zwykle ograniczony do jednej z trzech domen enzymu. Często problem ogranicza się do pojedynczego klonu. Usunięcie podejrzanego klonu pozwala na rozwój mapy. Gdy mapa wykracza poza koniec podejrzanego klona, łatwo jest ustalić, dlaczego ten klon pierwotnie zakłócał rozwój mapy., Jeśli problem jest oczywistym błędem w analizie obrazu lub identyfikacji pasma wektorowego, naprawiamy zestaw danych i umieszczamy klon z powrotem na mapie. Na naszych dużych głębokościach próbkowania ograniczenia w konstrukcji mapy są wystarczająco silne wszędzie, ale na końcach, aby umożliwić wykrywanie i naprawianie prawie wszystkich błędów. Wszelkie niewykryte błędy są albo w długości klonu końca mapy, albo w regionie o wyjątkowo niskim zasięgu.

Tabela 1 jest podsumowaniem map YAC → cosmid, które zbudowaliśmy na ludzkim chromosomie 7., Nie każdy fragment jest uporządkowany i lokalnie nieuporządkowane fragmenty są umieszczane w „grupach fragmentów.”W większości przypadków na Grupę fragmentów przypada średnio 1,2–1,3 nieuporządkowanych fragmentów, co oznacza, że ściśle podchodzimy do celu uporządkowania wszystkich fragmentów restrykcyjnych. Typowa Mapa MCD, która łączy wyniki czterech niezależnie skonstruowanych map YAC → cosmid, pokazana jest na Rys. 5. Duża głębokość próbkowania pozwala na wybór naprawdę minimalnej ścieżki płytek, z nakładaniem się tylko kilku par kilobazy., YAC fidelity jest sprawdzany przez porównanie nakładających się regionów między tymi niezależnie skonstruowanymi mapami. Do tej pory nie znaleziono żadnych rozbieżności. Jako jeszcze bardziej rygorystyczny test YAC fidelity, pobraliśmy odciski palców małej kolekcji cosmidów z biblioteki, która została bezpośrednio podklonowana z tej samej hybrydowej linii komórkowej, której użyto do skonstruowania YAC (E. D. Green, niepublikowane wyniki). Nie stwierdzono rozbieżności między tymi kosmykami a tymi pochodzącymi od klonów YAC. Popularne postrzeganie niestabilności YAC opiera się w dużej mierze na doświadczeniach ze stosunkowo niewielką liczbą bibliotek., Wyniki te wskazują na to, że stabilne biblioteki YAC mogą być budowane i że YAC mogą być używane jako początkowe klony do systematycznego sekwencjonowania.

wyświetl tę tabelę:

  • wyświetl inline
  • wyświetl popup
Tabela 1

podsumowanie map YAC → cosmid MCD dla części chromosomu 7 człowieka

Rysunek 5

reprezentatywna Mapa MCD z chromosomu 7. Cztery hybrydowe YAC-y pochodzące z linii komórkowych zostały podklonowane do cosmidów, aby zmapować ten region 400 kbp., Ponadto na tej mapie umieszczono specjalną bibliotekę cosmid pochodzącą bezpośrednio z hybrydowej linii komórkowej (tzn. nie pochodzącą z klonu YAC), bez żadnych niespójności. Mapa przedstawiona jest tuż pod górnym paskiem skali. Domeny enzymatyczne EcoRI, HindIII i NsiI są przedstawione, od góry do dołu, w kolorze czerwonym, zielonym i niebieskim. Uporządkowane grupy fragmentów są oddzielone wysokimi znakami wskazującymi, a nieuporządkowane fragmenty wewnątrz grupy są oddzielone krótkimi znakami wskazującymi. Klony ścieżki minimal-tiling są wyświetlane na fioletowo tuż pod mapą., Poniżej klonów ścieżki kafelkowej pokazany jest większy zestaw klonów: zestaw ten obejmuje wszystkie klony z wyjątkiem tych, których zawartość fragmentu jest identyczna z zawartością wyświetlanego klonu lub jego podzbiorem. Następnie jest seria pięciu histogramów. Od góry do dołu odzwierciedlają one pokrycie cosmid pochodzące z następujących źródeł: biblioteka cosmid przygotowana bezpośrednio z hybrydowej linii komórkowej DNA, yWSS1613, yWSS771, yWSS1572 i yWSS1434. Poniżej histogramów znajduje się Ocena jakości mapy oparta na atlasie (E. Thayer, praca niepublikowana).,

zsekwencjonowaliśmy teraz cosmidy z prawie 1 Mbp DNA, których mapowanie podsumowano w tabeli 1. Dane sekwencjonowania shotgun analizowano za pomocą systemu montażu sekwencji Phred / Phrap (P. Green, niepublikowane wyniki). Nie wykryto błędów mapowania, gdy porównywano mapy pochodzące z sekwencji z mapami MCD. Nie tylko fragmenty zostały prawidłowo uporządkowane, ale dokładność odstępów międzytowych wynosiła mniej niż 1%, choć z błędem systematycznym nieco ponad 1% dla większych fragmentów., Mapy biorące udział w tym teście zawierały ponad 700 różnych fragmentów ograniczeń. W niezależnym projekcie sekwencjonowania MCD/shotgun o porównywalnej wielkości w regionie HLA klasy i na chromosomie 6 człowieka uzyskano podobne wyniki (D. E. Geraghty, T. Guillaudeux i M. Janer, niepublikowane wyniki). W projekcie HLA na końcu jednej mapy wykryto pojedynczy błąd mapowania, który wynikał z błędnego wyliczenia pasma multipletu 600 bp w jednym cosmidzie. Aktualne mapy, sekwencje i dokumentacja oprogramowania można znaleźć na naszej stronie internetowej pod adresem http://www.genome.washington.edu.

Leave a Comment