optimalizace primerů PCR zaměřených na bakteriální Gen ribozomální RNA 16S

problémová omezení

jak je uvedeno v předchozím odstavci, optimální pár primerů by měl současně maximalizovat účinnost a pokrytí a minimalizovat zkreslení shody. V následujícím textu popisujeme, jak kvantitativně zakódujeme tato omezení.

účinnost

perfektní dvojice primerů by měla splňovat několik omezení zaměřených na zlepšení účinnosti a specifičnosti PCR ., Současně však uspokojení všech omezení je často nepraktické a většina nejmodernějších primerů porušuje jedno nebo více omezení . Proto jsme se rozhodli zavést efektivitu jako optimalizační skóre, kódující mnoho omezení jako fuzzy skóre funkce. Přesněji, definovali jsme naše skóre efektivity jako součet deseti bodů: sedm fuzzy skóre podmínek souvisejících s omezeními účinnosti single-primer, zprůměrováno přes všechny primery v primer-set-Pair, plus tři podmínky skóre související s účinností párů primer-set jako celku., Vzhledem k tomu, že všechny termíny se mají pohybovat mezi 0 a 1, skóre optimalizace se pohybuje od 0 (minimální účinnost) do 10 (maximální účinnost).

obecně řečeno, naše fuzzy skóre se počítá 1 pro každé omezení, které je dokonale uspokojeno, nebo alternativně hodnota mezi 0 a 1 v závislosti na tom, jak blízko je primer k limitu omezení. Jako příklad zvažte teplotu tavení základního nátěru, Tm. Tm by měla být v dokonalém základním nátěru větší nebo rovna 52 stupňům, ale 51 je stále tolerovatelné, i když ne ideální., V tomto případě naše funkce fuzzy scoring přiřadí 1 teplotám 52 stupňů nebo vyšším, 0 až teplotám 50 stupňů nebo méně a považuje lineární rostoucí funkci mezi 50 a 52 stupni. Každý termín je přesně popsán v následujícím textu.

podmínky 7 single-primer score jsou:

  1. teplota tání TM primeru se vypočítá podle vzorce nejbližšího souseda . Bodový termín je 1, pokud TM ≥ 52, 0, pokud TM ≤ 50 a (Tm – 50)/2, Pokud 50 < Tm < 52.,

  2. obsah GC: obsah GC je frakce FGC párů bází v sekvenci primerů rovných buď G (guanin) nebo C (cytosin). Bodový termín je 1, pokud 0.5 ≤ fGC ≤ 0.7, 0, pokud FGC > 0.7 nebo fGC < 0.4 a (0.5 – fGC)/0.1 if 0.4 ≤ fGC < 0.5.

  3. 3′-end stability – skóre termín 1: dva body termíny jsou definovány týkající se stability 3 ‚ – end. První termín je 0, pokud poslední tři základny primeru sestávají výhradně z As (adeninů) a Ts (thyminů) a 1 jinak.,

  4. 3′-end stability – skóre termín 2: druhé skóre termín je 0, pokud posledních 5 bází obsahují více než 3 Cs nebo Gs, a 1 jinak.

  5. Homopolymery: homopolymer je sekvence identických nukleotidů. Termín skóre je 1, pokud neexistují homopolymery delší než 4 nt, 0,5, pokud nejsou homopolymery delší než 5 nt, a 0, pokud je v sekvenci alespoň homopolymer delší než 5 nt.

  6. self-dimers: přítomnost samočinných oblastí mezi páry identických primerů může vést ke vzniku samostimerů., Vzhledem k maximálnímu počtu zápasů v mezerovém vyrovnání mezi základním nátěrem s jeho zpětným doplňkem, maxM, je bodový termín 1, pokud maxM ≤ 8, 0, pokud maxM ≥ 11 a (11-maxM)/3, Pokud 8 < maxM < 11.

  7. sponky do vlasů: vlásenka může být vytvořena za přítomnosti samoobsluhy v sekvenci primeru, zejména na jejím 3 ‚ konci., Bodový termín je 0, pokud pro alespoň jedno vyrovnání bez mezery mezi základním nátěrem a zpětným doplňkem jeho 3‘-konce odpovídá jak Poslední nukleotid, tak 3 nebo více ze 4 předcházejících nukleotidů, a 1 jinak.

3 primer-set-páry skóre termíny jsou definovány takto:

  1. teplota Tání rozsah: tavicí teplota rozsah ΔTm primeru-set-dvojice se počítá jako maximální mínus minimální teploty tání všech primerů v sadě páru., Skóre termín je 1, pokud ΔTm ≤ 3, 0, pokud ΔTm ≥ 5 a (5 – ΔTm)/2 je-li 3 < ΔTm < 5.

  2. dimery: zvažujeme maximální počet zápasů maxM napříč všemi možnými zarovnáními mezi všemi možnými kombinacemi dopředných a zpětných primerů z dvojice primer-set. Bodový termín je 1, pokud maxM ≤ 8, 0, pokud maxM ≥ 11 a (11 – maxM)/3, Pokud 8 < maxM < 11.,

  3. délka Amplikonu rozsah: vzhledem ke známé snížení účinnosti PCR s rostoucí amplikon délky , chceme délky generované amplikony leží v úzkém rozmezí. Zvláště se chceme vyhnout amplikonům mnohem kratším než cílová délka, protože by byly nadměrně zesíleny vůči ostatním. Chceme však být schopni tolerovat malý zlomek odlehlých hodnot, abychom se vyhnuli penalizaci potenciálně cenných párů primerů kvůli několika vzácným sekvencím., Vzhledem k reprezentativní soubor bakteriální 16S sekvencí, tzv. „referenční set“ od teď budeme brát v úvahu rozdíl Δamplen mezi střední a první percentil amplikon délky přes všechny možné amplikony, se tvořil tím, že odpovídá všechny kombinace forward a reverse primerů z množiny dvojice s referenční sadou. Bodový termín je 1, Pokud Δamplen ≤ 50 nukleotidů, 0, pokud Δamplen ≥ 100 a (100-Δamplen)/50, pokud 50 < Δamplen < 100.,

volba hodnotících kritérií a výchozí prahová hodnota jsou založeny na předchozí literatuře . Prahové hodnoty i intervaly fuzzy tolerance však může uživatel nastavit odlišně od výchozího a podle svých experimentálních potřeb zadáním požadovaných hodnot jako vstupních parametrů při volání nástroje příkazového řádku.

pokrytí

skóre pokrytí je definováno jako počet sekvencí 16S odpovídajících alespoň jednomu primeru., Vzhledem k sekvencím primeru a bakteriálních 16S definujeme osivo posledních 5 nukleotidů na 3 ‚ – konci primeru a považujeme sekvenci 16S za shodnou se základním nátěrem, pokud existuje oblast sekvence 16S, která přesně odpovídá i) osivu primeru; a ii) zbytek primeru s nanejvýš 2 mismatches . Sekvence 16S z referenční sady je považována za pokrytou dvojicí primer-set-pair, pokud alespoň jeden přední a jeden reverzní primer v páru primer-set odpovídá sekvenci., Vzhledem k tomu, že účinnost PCR klesá s délkou ampliconu, klademe další omezení: vzhledem k tomu, že se jedná o dvojici primerů a referenční sadu sekvencí 16S, odhadujeme délku cílového ampliconu jako medián délek všech amplikonů získaných porovnáním všech kombinací předních a zpětných primerů z dvojice primerů se sadou referencí. Pak jsme se zvážit, jak nejsou zahrnuty všechny 16S referenční sekvence amplikonu, jejichž délky se liší o více než 100 nukleotidů (buď delší nebo kratší) z cílové délky.,

Matching-bias

Vzhledem k referenční sadu 16 sekvence a primeru-set-pair, třetí optimalizace skóre opatření variability množství kombinací forward a reverse primerů, odpovídající každé 16S referenční sekvence. Pokrytí variability vzhledem k odpovídající zaujatost by měla být minimalizována, nebo alespoň tvořily, když studie je možno kvantifikovat relativní abundances různých bakteriálních druhů, z důvodu zesílení zkreslení směrem k druhům, na které se vztahuje více kombinací forward a reverse primery., Jako měřítko zkreslení shody využíváme variační koeficient pokrytí napříč cílovými sekvencemi, vypočítaný jako směrodatná odchylka nad průměrem počtu kombinací odpovídajících každé sekvenci.

referenční sada 16S sekvencí, příprava a anotace

pro optimalizaci výše uvedených tří skóre se spoléháme na reprezentativní sadu bakteriálních sekvencí 16S extrahovaných z veřejné databáze sekvencí 16S, Greengenů ., Na GreenGenes sekvence 16S databáze je organizována do Operačních Taxonomických Jednotek (OTUs), které jsou vnořené shluky sekvencí v databázi, organizovaný na různých úrovních inter-cluster podobnosti. Pro každou úroveň podobnosti je ke každému clusteru přidružena referenční sekvence, která je maximálně podobná všem ostatním sekvencím ve stejném clusteru . Soubor referenčních sekvencí lze tedy považovat za reprezentativní podmnožinu celé sekvenční databáze, která se stává stále přesnější pro zvyšování úrovní podobnosti mezi klastry (a tedy i počtu referenčních sekvencí)., Jako dobrý kompromis mezi reprezentativností a složitostí jsme zvolili 85% úroveň podobnosti mezi klastry, což odpovídá souboru 5088 reprezentativních sekvencí, které mají být použity k posouzení optimalizačních kritérií.

i když velmi citlivé anotace Bakterie a Archaea domén, GreenGenes taxonomie není navržen tak, aby rozlišit sekvence patřící do eukaryot nebo viry., Z tohoto důvodu jsme se rozhodli k re-komentovat 16 bakteriálních sekvencí využití původní NCBI taxonomy přesně identifikovat, mezi reprezentativní sekvence, pouze ty, které patří do domény Bakterie. Od domény, chybí informace z NCBI anotace přibližně 20% sekvencí, jsme navrhli postup ad hoc pro identifikaci bakteriálních sekvencí mezi nimi. Postup je podrobně popsán v doplňkových materiálech (viz Doplňkový soubor 1)., Konzervativně jsme se rozhodli zvážit pouze sekvence anotované jako bakterie jak v naší kurátorské anotaci založené na NCBI, tak v původní anotaci GreenGenes. Výsledkem byla sada 4573 reprezentativních 16S sekvencí patřících do bakteriální domény.,

optimalizační algoritmus

vzhledem k tomu, že problém volby optimálních primerů vyžaduje současnou optimalizaci různých konkurenčních skóre, může být obsazen jako multi-objektivní optimalizační problém, kde vyhledávací prostor je soubor všech možných párů primerů a bodovací funkce nebo optimalizační kritérium lze definovat tak, aby se maximalizovala účinnost a pokrytí a minimalizovalo se zkreslení shody., Při více než jedno kritérium, musí být optimalizováno současně, ale cíle, které mají být optimalizovány jsou protichůdné, jeden je obvykle není zájem v jednom řešení, ale spíše v sadu Pareto-optimální řešení, tj. v sadu řešení, pro které žádný z cílů, které mohou být zlepšeny, aniž by byla obětována alespoň jeden další cíl ., Výsledkem víceobjektivové optimalizace již není jedinečný optimální pár primerů, jako v jednobjektivní optimalizaci, ale spíše sbírka párů primerů, které nejsou horší než jakýkoli jiný pár primerů a jsou přísně lepší podle alespoň jednoho z kritérií. Přesněji řečeno, pro tri-cíl optimalizace problému maximalizace efektivity (E) a pokrytí (C) optimalizace skóre a minimalizuje odpovídající-bias (M) skóre, definované v předchozí části, kandidát primer-set-páry jsou hodnoceny podle objektivní funkce vektoru f = (f, E, f C, fM)., Vzhledem k tomu, dva primer-set-páry p A p‘, říkáme, že P dominuje p ‚(p ≺ p‘), pokud a pouze v případě, f (p) ≠ f (p‘), fE (p) ≥ fE (p‘), fC (p) ≥ fC (p‘) a fM (p) ≤ fM (p‘). Pokud žádný p‘ neexistuje takový, že p ‚ ≺ p, primer-set-pair p se nazývá Pareto-optimální. V této souvislosti je cílem volby optimálních primerů určit (nebo přibližné) soubor všech Pareto-optimálních párů primerů, jejichž obraz v trojobjektivním prostoru se nazývá Pareto front .

Chcete-li vyhledat optimální frontu Pareto, spoléháme se na dvoufázový iterovaný přístup místního vyhledávání best improvement navržený Dubois-Lacoste et al., a účinně využívány v Sambo et al. a Borrotti et al. pro optimální víceobjektivní návrh experimentů.

Místní vyhledávání začíná od počátečního řešení a iterativně ho vylepšuje použitím malých lokálních změn a vyhodnocením pokaždé, když jejich vliv na kvalitu řešení; zastaví se, když žádné další místní změny nemohou zlepšit řešení. Proces je iterován z několika různých výchozích bodů a nejlepší řešení, jaké kdy bylo nalezeno, je vráceno jako přiblížení neznámého Optima ., Společné rozšíření lokálního vyhledávání, multi-objektivní případě, je začít ze sady počáteční Pareto řešení, vzorek jedno řešení z přední, optimalizovat s místní vyhledávání náhodné scalarization problému, tj. lineární kombinace optimalizace skóre s hmotností vzorku rovnoměrně náhodně z jednotky simplex, aktualizovat Pareto front a opakovat až do ukončení podmínka je splněna .,

postup multi-OBJECTIVE-SEARCH, jehož pseudo-kód je uveden v následujícím textu, přijímá jako vstupy požadovaný rozsah amplicon délek (rangeamplen), reprezentativní sadu 16S sekvencí (repset), počáteční sadu (možná degenerovaných) párů primerů (init) a počet restartů (nres). Postup začíná výběrem ze všech možných párů primerů s požadovanou délkou amplionu, délkou primeru (mezi 17 a 21 nukleotidy) a cílovou doménou (bakterie nebo univerzální).,

degenerované páry primerů se převádějí na nedegenerované páry primerů a přidávají se do archivu. Postup pak opakuje nrest časy, pokaždé, když vzorkování náhodný primer-set-pair pstart z Pareto přední a náhodný vektor α relativních hmotností pro skóre optimalizace, s hmotností vzorkované rovnoměrně z jednotky simplex; postup, pak, řeší skalarizaci multi-objektivní problém, tj. jeden-objektivní problém, ve kterém lineární kombinace tří cílů s relativní hmotností α je maximalizován, a přidá výsledek do archivu., Za tímto účelem, účinnost, pokrytí a shoda-zkreslení skóre jsou normalizovány na své maximum, takže každý normalizovaný skóre se pohybuje mezi 0 a 1, a matching-bias je předefinován jako 1 – matching-bias, takže to může být maximalizován jako ostatní skóre., amplikon délky v rangeamplen

2 Přidat do archivu odpovídající non-degenerovaný primer-set-páry

3, pro r = 1 nrest

4 pf = PARETO-PŘEDNÍ(archiv)

5 Vzorek pstart z pf

6 Vzorek α od 3, s Σi ai = 1,

7 p = MÍSTNÍ VYHLEDÁVÁNÍ(pstart , α , repset)

8 Přidat p do archivu

9 návrat archiv

Single-cílem optimalizace je získat pomocí Nejlepší Zlepšení Lokální Vyhledávací algoritmus : začíná z počáteční primer-set-pair, MÍSTNÍ-VYHLEDÁVACÍ algoritmus prochází primery set-dvojice a, pro každý primer, skenuje své okolí, jsem.,e. sada všech možných lokálních poruch základního nátěru. Místní odchylky se skládají ve všech možných vyletí jednoho nukleotidu (hodnocení tři další možné základny) a všechny možné doplňky a pohlcení jednoho nukleotidu na končetinách., Vyhledávání v řešení prostoru je provedeno s nejlepší zlepšení místní vyhledávání, přístup: po vygenerování celého okolí, jak je vysvětleno výše, algoritmus vybere nejlepší soused šumů, začne z něj vytvářet další sousedství, a iteruje, dokud nedosáhne řešení, pro které není lepší soused šumů lze nalézt. Postup se ukončí, pokud na jakýkoli základní nátěr v páru primerů nelze aplikovat žádné další místní zlepšení., Funkce váženého skóre vypočítá tři optimalizační skóre z dvojice primer-set-pair a reprezentativní sady, vynásobí skóre relativními váhami α a Vrátí součet výsledků.

Jsme vyvinuli softwarový nástroj prováděcí náš přístup a pustil to pod GNU General Public Licence jako mopo16S softwarový nástroj (Multi-Cíl Primer Optimalizace pro 16S experimenty) v http://sysbiobig.dei.unipd.it/?q=Software#mopo16S., mopo16S je implementován jako nástroj příkazového řádku multithreading c++; softwarový nástroj se spoléhá na efektivní algoritmy a datové struktury z knihovny SeqAn a používá knihovnu openMP pro multithreading.,>

4 for I = 1 to |pcurr|

5 pri = i-TH primer of pcurr

6 for pnew = pcurr with all possible additions and removals of a base at the ends and replacements of a base of pri

7 scorenew = WEIGHTED-SCORE(pnew , α , repset)

8 if scorenew >div> scorebest

9 pbest = pnew

10 scorebest = scorenew

11 pcurr = pbest

12 return pcurr

state-of-the-art primer pairs as initial solutions

vybrali jsme online databázi probebase jako zdroj kandidátních primer-set-párů, které mají být použity jako počáteční řešení mopo16s., Databáze obsahuje více než 500 párů (možná zvrhlík), primery a zprávy pro každý primer jeho sekvence, strnad a na pozici, která odpovídá referenční 16S Escherichia coli gen, a cílové domény, pro kterou je určen (buď Bakterie, Archaea nebo Univerzální).,

s ohledem na požadovaný rozsah je pro cílový amplikon délky jako vstupní mopo16S, vybrali jsme všechny páry primerů z probeBase databáze splňující všechny následující vlastnosti:

  • délka Amplikonu v požadovaném rozsahu;

  • Délka obou primerů větší než nebo rovno 17 nt a menší než nebo rovna 21 nt;

  • Bakterie nebo Univerzální cílové domény z obou primerů.,

Protože náš přístup je pro práci se soubory non-degenerované primery, v případě degeneracies buď dopředný nebo zpětný primer, dosadíme degenerovaný primer s odpovídající sadu non-degenerované primery, získané tím, že přiřadí všechny možné kombinace hodnot degenerované nukleotidů v primeru. Příklad tohoto postupu je uveden v tabulce 1.

vypočítali jsme tři skóre pro každý z párů primer-set-pair a identifikovali mezi nimi páry primer-set, které tvoří počáteční Pareto front.

Leave a Comment