Optimalizálása PCR primerek célzó bakteriális 16S riboszomális RNS gén / BMC bioinformatika

Problémakorlátok

amint azt az előző bekezdésben, optimális primer-set-pár egyidejűleg maximalizálja a hatékonyságot és lefedettséget, és minimalizálja megfelelő-elfogultság. A következőkben leírjuk, hogyan kvantitatív módon kódoltuk ezeket a korlátokat.

hatékonyság

a tökéletes alapozó-készletpároknak számos korlátozást kell kielégíteniük, amelyek célja a PCR hatékonyságának és specifikusságának javítása ., Ugyanakkor az összes kényszer egyidejű kielégítése gyakran kivitelezhetetlen, és a legmodernebb primerek többsége egy vagy több korlátozást sért . Ezért úgy döntöttünk, hogy optimalizálási pontként bevezetjük a hatékonyságot, sok kényszert fuzzy pontozási funkcióként kódolva. Pontosabban, meghatároztuk a hatékonyság pontszám, mint az összeg tíz pontszám feltételek: hét fuzzy pontszám kapcsolatos kifejezések egy primer hatékonyság korlátok, átlagolt minden primerek a primer-set-Párok, plusz három pontszám kapcsolatos Feltételek hatékonyságát a primer-set-Párok egészére., Mivel minden feltételnek 0 és 1 között kell változnia, az optimalizálási pontszám 0-tól (minimális hatékonyság) 10-ig (maximális hatékonyság) terjed.

Általánosságban elmondható, hogy fuzzy pontszámunk 1-et számít minden olyan kényszer esetében, amely tökéletesen elégedett, vagy alternatívaként 0 és 1 közötti értéket, attól függően, hogy az alapozó milyen közel van a korláthoz. Példaként vegye figyelembe az alapozó olvadási hőmérsékletét, a Tm-t. A TM-nek 52 foknál nagyobbnak vagy egyenlőnek kell lennie egy tökéletes alapozóban, de az 51 még mindig tolerálható, bár nem ideális., Ebben az esetben a fuzzy pontozási funkcióunk 1-52 fokos vagy annál magasabb hőmérsékletet, 0-50 fokos vagy annál alacsonyabb hőmérsékletet rendel, és lineáris növekvő funkciót tekint 50-52 fok között. Minden kifejezést pontosan leírunk a következőkben.

a 7 egyindító pontszám kifejezések:

olvadási hőmérséklet: az olvadási hőmérséklet Tm egy primer számítjuk a legközelebbi szomszéd képlet . A pontszám kifejezés 1 ha TM ≥ 52, 0 ha TM ≤ 50 és (Tm – 50)/2 ha 50 < TM < 52.,
GC-tartalom: a GC-tartalom az alappárok FGC frakciója a primer szekvenciában, amely vagy G (guanin), vagy C (citozin). A pontszám kifejezés 1 ha 0,5 ≤ fGC ≤ 0,7, 0 ha fGC > 0,7 vagy fGC < 0,4 és (0,5 – fGC)/0,1 ha 0,4 ≤ fGC < 0, 5.
3 ‘- end stability-score term 1: két score kifejezések meghatározása vonatkozó 3 ‘ – end stabilitás. Az első kifejezés 0, ha az alapozó utolsó három alapja teljes egészében As (adenines) és TS, (Timinek) és 1 egyéb.,
3 ‘ – End stability-score term 2: a második pontszám kifejezés 0, ha az utolsó 5 bázisok tartalmaznak több mint 3 Cs vagy Gs, és 1 egyébként.
Homopolimerek: a homopolimer azonos nukleotidok szekvenciája. A pontszám kifejezés 1, ha nincsenek 4 nt-nél hosszabb homopolimerek, 0, 5, ha nincsenek 5 nt-nél hosszabb homopolimerek, 0, ha a sorozatban legalább 5 nt-nél hosszabb homopolimer van.
Öndimerek: az azonos primerek párjai közötti önkiegészítő régiók jelenléte az öndimerek kialakulásához vezethet., Figyelembe véve a maximális számú mérkőzést egy rés-mentes igazítás között egy primer fordított KOMPLEMENT, maxM, a pontszám kifejezés 1 ha maxM ≤ 8, 0 ha maxM ≥ 11 és (11 – maxM)/3 Ha 8 < maxM < 11.
hajtű: hajtű alakítható ki az alapozó szekvencián belüli Ön komplementaritás jelenlétében, különösen a 3 ‘ – végén., A pontszám kifejezés 0, ha az alapozó és a 3’-végének fordított komplementje közötti legalább egy résmentes igazítás esetén mind az utolsó nukleotid, mind a 4 előző nukleotid közül legalább 3 vagy több megegyezik, és egyébként 1.

a 3 alapozó-készlet-pár pontszám kifejezések meghatározása a következő:

olvadási hőmérséklet-tartomány: az alapozó-készletpár ΔTm olvadási hőmérséklet-tartományát a beállított párban lévő összes alapozó olvadási hőmérsékletének minimális mínusz maximumaként számítják ki., A pontszám kifejezés 1, Ha ΔTm ≤ 3, 0 ha ΔTm ≥ 5 és (5 – ΔTm)/2 ha 3 < ΔTm < 5.
Dimers: az előre-és a hátrameneti alapozók lehetséges kombinációi között az összes lehetséges egyezés maxM maximális számát tekintjük egy alapozó-halmazpárból. A pontszám kifejezés 1, ha maxM ≤ 8, 0 ha maxM ≥ 11 és (11 – maxM)/3 Ha 8 < maxM < 11.,
Amplicon hossztartomány: a PCR hatékonyságának ismert csökkenése miatt az amplicon hosszának növelésével azt akarjuk, hogy a generált ampliconok hossza szűk tartományban legyen. Különösen azt szeretnénk elkerülni, hogy az amplikonok sokkal rövidebbek legyenek, mint a célhossz, mivel a többiekhez képest túlerősítettek lennének. Szeretnénk azonban tolerálni a kiugró értékek egy kis részét, hogy elkerüljük a potenciálisan értékes alapozó-halmazpárokat néhány ritka szekvencia miatt., Adott egy reprezentatív csoportja bakteriális 16S sorozatok, úgynevezett “referencia-set” mostantól, úgy véljük, hogy a különbség Δamplen között a medián az első százalékos a amplicon messzire, valamennyi lehetséges amplicons, alakult meg az összes megfelelő kombinációi előre, hátra alapozók a pár a referencia-set. A pontszám kifejezés 1, Ha Δamplen ≤ 50 nukleotid, 0 ha Δamplen ≥ 100 és (100 – Δamplen) / 50 ha 50 < Δamplen < 100.,

a pontozási kritériumok és az alapértelmezett küszöbérték kiválasztása a korábbi szakirodalom alapján történik . Mind a küszöbértékeket, mind a fuzzy tolerancia intervallumokat a felhasználó az alapértelmezettől eltérően, kísérleti igényeinek megfelelően állíthatja be úgy, hogy a parancssori eszköz hívásakor bemeneti paraméterként megadja a kívánt értékeket.

lefedettség

a lefedettségi pontszám a legalább egy alapozóval párosított 16S-szekvenciák számát jelenti., Egy primer és egy bakteriális 16S szekvenciáit figyelembe véve meghatározzuk a primer utolsó 5 nukleotidját a primer 3′-végén, és egy 16S szekvenciát tekintünk a primer által illesztettnek, ha a 16S szekvencia egy olyan régiója létezik, amely pontosan megegyezik i) az alapozó magja; és ii) a primer fennmaradó része legfeljebb 2 eltéréssel . Egy referenciakészletből származó 16S-szekvenciát akkor tekintünk alapozó-halmazpárnak, ha az alapozó-halmazpárban legalább egy előre-és egy fordított alapozó megfelel a szekvenciának., Mivel a PCR hatékonyság csökken amplicon hossza elő egy további megkötés: adott egy alapozó-set-pár referencia készlet 16 sorozatok, úgy becsüljük, hogy a cél amplicon hosszú, mint az átlagos hossza az összes amplicons által szerzett összes megfelelő kombinációi előre, hátra alapozók a primer-set-pár a referencia-set. Ezután úgy tekintjük, hogy nem terjed ki mind a 16 referencia-szekvenciára, amelynek amplikonhossza több mint 100 nukleotid (hosszabb vagy rövidebb) különbözik a célhossztól.,

Matching-bias

a 16S sorozatok és a primer-set-pár referenciakészlete alapján a harmadik optimalizálási pontszám az egyes 16S referenciaszekvenciáknak megfelelő előre-és hátrameneti primerek kombinációjának változékonyságát méri. Lefedettség variabilitás miatt megfelelő elfogultság minimalizálni kell, vagy legalábbis elszámolni, ha a vizsgálat célja, hogy számszerűsíteni a relatív bőségét a különböző baktériumfajok, mert az erősítés torzítás felé a faj által lefedett több kombinációja előre és hátra primerek., A megfelelő torzítás mértékeként kihasználjuk a lefedettség variációs együtthatóját a célszekvenciákon keresztül, az egyes szekvenciáknak megfelelő kombinációk számának átlaga feletti szórásként számítva.

16S szekvenciák Referenciakészlete, előkészítés és annotáció

a fenti három pont optimalizálása érdekében a 16S szekvenciák reprezentatív csoportjára támaszkodunk, amelyeket egy nyilvános 16S szekvencia adatbázisból, a GreenGenes-ből extraháltunk ., A GreenGenes 16S szekvencia adatbázis operatív rendszertani egységekben (OTUs) van szervezve, amelyek az adatbázisban lévő szekvenciák beágyazott klaszterei, amelyek a klaszterek közötti hasonlóság különböző szintjein szerveződnek. A hasonlóság minden szintjén egy referenciaszekvenciát társítanak az egyes klaszterekhez, maximálisan hasonlóan az ugyanazon klaszter összes többi szekvenciájához . A referenciaszekvenciák halmaza tehát a teljes szekvencia-adatbázis reprezentatív részhalmazának tekinthető, egyre pontosabbá válik a klaszterek közötti hasonlóság (és így a referenciaszekvenciák száma) szintjének növelése érdekében., A reprezentativitás és a komplexitás közötti jó kompromisszumként egy 85%-os klaszterek közötti hasonlósági szintet választottunk, amely megfelel az optimalizálási kritériumok értékeléséhez használt 5088 reprezentatív szekvenciának.

bár nagyon érzékeny a baktériumok és Archaea domének jelölésére, a GreenGenes taxonómia nem az eukariótákhoz vagy vírusokhoz tartozó szekvenciák megkülönböztetésére szolgál., Ezért úgy döntöttünk, hogy újra annotáljuk a 16S bakteriális szekvenciákat, kihasználva az eredeti NCBI taxonómiát, hogy pontosan azonosítsuk a reprezentatív szekvenciákat, csak a baktériumok doménjéhez tartozó szekvenciákat. Mivel az NCBI jegyzetből a szekvenciák mintegy 20% – ára hiányzik a domain információ, ad hoc eljárást terveztünk a bakteriális szekvenciák azonosítására. Az eljárást részletesen ismertetjük a kiegészítő anyagokban (Lásd az 1. kiegészítő fájlt)., Mi konzervatív választotta, hogy fontolja meg, csak a sorozatok annotált, mint a baktériumok, mind a kurátora, NCBI-alapú jegyzet, valamint az eredeti GreenGenes jegyzet. Ez azt eredményezte, hogy egy sor 4573 reprezentatív 16S szekvenciák tartozó baktériumok domain.,

Optimalizálási algoritmus

Mivel a probléma optimális alapozók választás megkívánja a optimalizálása különböző versengő pontszámok, lehet leadott, mint egy multi-objektív optimalizálási probléma, ahol a keresési tér a készlet összes lehetséges alapozó-set-pár s egy pontozási funkció, vagy optimalizálás kritérium lehet meghatározni, tehát, hogy maximalizálja a hatékonyságot, illetve fedezet, illetve minimalizálja megfelelő-elfogultság., Ha egynél több kritériumot egyszerre kell optimalizálni, de az optimalizálandó célok ellentmondásosak, akkor általában nem egyetlen megoldás érdekli, hanem a Pareto optimális megoldások halmaza, azaz olyan megoldások halmaza, amelyekre egyik célkitűzés sem javítható legalább egy másik cél feláldozása nélkül ., A többcélú optimalizálás eredménye már nem egyedi optimális alapozó-készletpár, mint az egy objektív optimalizálásnál, hanem olyan alapozó-készlet-Párok gyűjteménye, amelyek nem rosszabbak, mint bármely más alapozó-készlet-pár, és szigorúan jobbak legalább az egyik kritérium szerint. Pontosabban, a hatékonyság (E) és a lefedettség (C) optimalizálási pontszámok maximalizálásának Tri-objektív optimalizálási problémájára, valamint az előző szakaszban meghatározott megfelelő-elfogultság (M) pontszám minimalizálására a jelölt primer-set-párokat egy F = (f E ; f C ; fM) objektív függvényvektor szerint értékeljük., Két alapozó-halmazpár p és p’ esetén azt mondjuk, hogy P dominál p’ (p ≺ p’), Ha és csak akkor, ha F (p) ≠ F (p’), fE (p) ≥ Fe (p’), fC (p) ≥ fC (p’) és fM (p) ≤ fM (p’). Ha nincs olyan P’, hogy p ‘ ≺ p, a primer-set-pár p nevezzük Pareto-optimális. Ebben az összefüggésben az optimális alapozók kiválasztásának célja az összes Pareto-optimális alapozó-készletpár készletének meghatározása (vagy közelítése), amelynek képét a Tri-objektív térben Pareto Frontnak nevezik .

az optimális Pareto front kereséséhez a Dubois-Lacoste et al által javasolt kétfázisú iterált legjobb helyi keresési megközelítésre támaszkodunk., és hatékonyan kihasználva Sambo et al. és Borrotti et al. az optimális multi-objektív tervezési kísérletek.

a helyi keresés egy kezdeti megoldásból indul ki, és iteratív módon finomítja azt Kis Helyi változások alkalmazásával, és minden alkalommal értékeli a megoldás minőségére gyakorolt hatásukat; leáll, ha további helyi változások nem javíthatják a megoldást. A folyamat több különböző kiindulási pontból iterálódik, és a valaha talált legjobb megoldás az ismeretlen optimális közelítéseként kerül visszaadásra ., A helyi keresés közös kiterjesztése a többcélú esetre a kezdeti Pareto megoldások sorozatából indul ki, az egyik megoldás mintája elölről, a helyi kereséssel optimalizálva a probléma véletlenszerű skálarizációját, azaz az optimalizálási pontszámok lineáris kombinációját, véletlenszerűen mintavételezett súlyokkal a simplex egységből, frissítse a Pareto elejét és iteráljon mindaddig, amíg a megszüntetési feltétel nem teljesül .,

az eljárás MULTI-OBJECTIVE-SEARCH, amelynek pszeudo-kódját az alábbiak szerint jelentik, bemenetként megkapja a kívánt ampliconhosszúságot( rangeamplen), a 16S szekvenciák (repset) reprezentatív készletét, a (Esetleg degenerált) primer Párok (init) kezdeti készletét és az újraindítások számát (nres). Az eljárás úgy kezdődik, hogy az init-ből kiválasztunk minden lehetséges primer párot a kívánt amplicon hosszúsággal, primer hosszúsággal( 17-21 nukleotid között) és céltartalommal (baktériumok vagy univerzális).,

a degenerált primer párokat nem degenerált primer-halmazpárokká alakítják át, majd egy archívumba adják. Az eljárás akkor iterates nrest minden egyes alkalommal, amikor a mintavétel véletlenszerű alapozó-set-pár pstart a Pareto előtt, majd egy véletlen vektor α a relatív súlyok az optimalizálás pontszámok, a súly mintában szereplő egységesen az egység simplex; az eljárás, akkor megoldja scalarization a multi-objektív probléma, azaz egyetlen cél probléma, amely egy lineáris kombinációja a három célkitűzés a relatív súlyok α maximális, majd hozzáteszi, az eredmény, hogy az archívum., Ebből a célból a hatékonyság, a lefedettség és a matching-bias pontszámok a maximumukra normalizálódnak, így minden normalizált pontszám 0 és 1 között mozog, a matching-bias pedig 1 – matching-bias-ként van definiálva, így maximalizálható, mint a többi pontszám., amplicon hossza rangeamplen

2 Add hozzá archívum a megfelelő nem-degenerált alapozó-set-pár,

3 r = 1 nrest

4 pf = PARETO-FRONT(archív)

5 Minta pstart a pf

6 Minta α 3-tól, a Σi ai = 1

7 p = HELYI-KERESÉS(pstart , α , repset)

8 Hozzáadása p archívum

9 vissza archívum

Egyetlen cél optimalizálás kapott segítségével a Legjobb Javulás Helyi Keresési algoritmus : kezdve az első alapozó-set-pár, a HELYI KERESÉSI algoritmus végighalad a primerek a set-pár, valamint minden alapozó, vizsgálatok a környéken, én.,e. az alapozó minden lehetséges helyi perturbációjának halmaza. A helyi perturbációk egy nukleotid minden lehetséges flipjéből állnak (a három másik lehetséges bázis értékelése), valamint egy nukleotid minden lehetséges kiegészítéséből és eltávolításából a végtagokban., A keresés a megoldás térben végzett a legjobb javulás helyi keresés után generáló az egész környék, mint fentebb említettük, az algoritmus kiválasztja a legjobb szomszéd perturbáció, elindul, hogy létrehoz a következő környék, valamint iterates amíg el nem éri a megoldás, amely nem jobb szomszéd perturbáció megtalálható. Az eljárás akkor fejeződik be, ha a primer-set-pár bármely alapozójára további helyi fejlesztéseket nem lehet alkalmazni., A súlyozott pontszám függvény kiszámítja a három optimalizálási pontot egy alapozó-halmazpárból és a reprezentatív halmazból, megsokszorozza a pontszámokat az α relatív súlyokkal, és visszaadja az eredmények összegét.

kifejlesztettünk egy szoftvereszközt, amely megvalósítja a megközelítésünket, és a GNU General Public Licence alatt, mint mopo16s szoftver eszköz (Multi-Objective Primer Optimization for 16S experiments) a http://sysbiobig.dei.unipd.it/?q=Software#mopo16S., a mopo16s egy többszálú C++ parancssori eszköz, amely a SeqAn könyvtár hatékony algoritmusaira és adatszerkezeteire támaszkodik, valamint az openMP könyvtárat használja a többszálú feldolgozáshoz.,>

4 i = 1 |pcurr|

5 pri = i-edik alapozó pcurr

6 pnew = pcurr minden lehetséges kiegészítések, valamint a költöztetés egy bázis a végtagok, illetve pótlások egy alap pri

7 scorenew = SÚLYOZOTT PONTSZÁM(pnew , α , repset)

8 ha scorenew > scorebest

9 pbest = pnew

10 scorebest = scorenew

11 pcurr = pbest

12 vissza pcurr

State-of-the-art primer párok, mint a kezdeti megoldások

Azért választottuk az online adatbázis probeBase, mint a forrás a jelölt primer-set-párban kell használni, mint a kezdeti megoldások által mopo16S., Az adatbázis tartalmaz, több, mint 500 pár (esetleg degenerált) alapozók, s jelenti, hogy minden egyes alapozó a sorrend, a két álláspont, amely megegyezik a referencia 16 Escherichia coli gén, a cél domain, amelyre tervezték (vagy Baktérium, archaea képes boldogulni, vagy Univerzális).,

Adott egy kívánt tartományt a cél amplicon hosszú, mint bemeneti mopo16S, hogy a kiválasztott összes primer párok a probeBase adatbázis lehetőség az alábbi tulajdonságok:

Amplicon hossza a kívánt tartomány;
Hossza mindkét alapozók nagyobb vagy egyenlő, mint 17 nt kisebb, mint vagy egyenlő 21 nt;
Baktériumok vagy Egyetemes cél domain, mind a primerek.,

Mivel az a megközelítés, hogy a munka a készlet nem-degenerált primereket, abban az esetben, degeneracies, sem az előre, vagy a reverz primer, mi helyettesítheti a degenerált alapozó, a megfelelő sor nem-degenerált primereket, melyet hozzárendelése az összes lehetséges kombinációt az értékek a degenerált nukleotid alapozó. Erre az eljárásra példa az 1. táblázat.

kiszámítottuk a három pontszámot az egyes alapozó-halmazpárokra, és ezek között azonosítottuk a kezdeti Pareto frontot alkotó alapozó-halmazpárokat.

optimalizálása PCR primerek célzó bakteriális 16S riboszomális RNS gén