Optimizarea primeri PCR vizează bacteriene 16S ARN ribosomal gene

Problema constrângeri

după Cum se menționează în paragraful anterior, un optim primer-set-pereche în același timp, pentru a maximiza eficiența și gradul de acoperire și pentru a minimiza potrivire-bias. În cele ce urmează, vom descrie modul în care am codificat cantitativ aceste constrângeri.

eficiență

perechile perfecte de primer-set ar trebui să satisfacă mai multe constrângeri, menite să îmbunătățească eficiența și specificitatea PCR ., Cu toate acestea, satisfacerea simultană a tuturor constrângerilor este adesea nepractică și majoritatea primerilor de ultimă generație încalcă una sau mai multe constrângeri . Astfel, am decis să introducem eficiența ca scor de optimizare, codificând multe dintre constrângeri ca funcții de scor fuzzy. Mai exact, am definit scorul nostru de eficiență ca suma a zece Termeni de scor: șapte termeni de scor fuzzy legați de constrângerile de eficiență cu un singur primer, medii pentru toți primerii din primer-set-pairs, plus trei termeni de scor legați de eficiența primer-set-pairs ca un întreg., Deoarece toți termenii sunt meniți să varieze între 0 și 1, scorul de optimizare variază de la 0 (eficiență minimă) la 10 (eficiență maximă).

în linii mari, scorul nostru fuzzy contează 1 pentru fiecare constrângere care este perfect satisfăcută sau, alternativ, o valoare între 0 și 1 în funcție de cât de aproape este primerul de limita constrângerii. De exemplu, luați în considerare temperatura de topire a grundului, Tm. Tm ar trebui să fie mai mare sau egală cu 52 de grade într-un grund perfect , dar 51 este încă tolerabil, deși nu este ideal., În acest caz, funcția noastră de notare fuzzy atribuie 1 la temperaturi de 52 de grade sau mai mari, 0 la temperaturi de 50 de grade sau mai puțin și consideră o funcție de creștere liniară între 50 și 52 de grade. Fiecare termen este descris cu precizie în ceea ce urmează.

cei 7 Termeni de scor pentru un singur primer sunt:

  1. temperatura de topire: temperatura de topire TM a unui primer este calculată cu formula cea mai apropiată . Scorul termen este 1 dacă Tm ≥ 52, 0 dacă Tm ≤ 50 și (Tm – 50)/2 dacă 50 < Tm < 52.,conținutul GC: conținutul GC este fracțiunea fGC a perechilor de baze din secvența de primer egală fie cu G (guanină), fie cu C (citozină). Scorul termen este 1 dacă 0.5 ≤ fGC ≤ 0.7, 0, dacă fGC > 0,7 sau fGC < 0,4 și (0.5 – fGC)/0,1 dacă 0.4 ≤ fGC < 0.5.

  2. 3 ‘- end stability-score term 1: doi termeni de scor sunt definiți în ceea ce privește 3’-end stability. Primul termen este 0 dacă ultimele trei baze ale grundului constau în întregime din As (adenine) și Ts, (timine) și 1 altfel.,

  3. 3 ‘ – end stability-score term 2: al doilea termen de scor este 0 dacă ultimele 5 baze conțin mai mult de 3 Cs sau Gs și 1 altfel.Homopolimeri: un homopolimer este o secvență de nucleotide identice. Termenul de scor este 1 dacă nu există homopolimeri mai lungi de 4 nt, 0,5 dacă nu există homopolimeri mai lungi de 5 nt și 0 dacă există cel puțin un homopolimer mai lung de 5 nt în secvență.auto-dimerii: prezența regiunilor auto-complementare între cuplurile de primeri identici poate duce la generarea de auto-dimeri., Având în vedere numărul maxim de meciuri într-un decalaj-gratuit aliniere între un grund cu inversa completa, maxM, scorul termen este 1 dacă maxM ≤ 8, 0 dacă maxM ≥ 11 (11 – maxM)/3 dacă 8 < maxM < 11.Hairpins: un ac de păr poate fi format în prezența auto-complementarității în cadrul secvenței de grund, în special la capătul său 3’., Scorul termen este 0, dacă pentru cel puțin un decalaj-gratuit aliniere între grund și invers completare a acestuia 3′-end, ambele ultima nucleotidelor și 3 sau mai multe de 4 precedente nucleotide meci, și 1 în caz contrar.

3 primer-set-pairs Termeni de scor sunt definite după cum urmează:

  1. intervalul de temperatură de topire: intervalul de temperatură de topire ΔTm unui primer-set-pereche este calculat ca maxim minus minimul temperaturilor de topire ale tuturor primerilor din perechea setată., Scorul termen este 1 dacă ΔTm ≤ 3, 0 dacă ΔTm ≥ 5 și (5 – ΔTm)/2 dacă 3 < ΔTm < 5.dimeri: considerăm numărul maxim de potriviri maxM în toate aliniamentele posibile între toate combinațiile posibile de primeri înainte și invers dintr-o pereche de primeri-set. Scorul termen este 1 dacă maxM ≤ 8, 0 dacă maxM ≥ 11 (11 – maxM)/3 dacă 8 < maxM < 11.,intervalul de lungime Amplicon: datorită reducerii cunoscute a eficienței PCR cu creșterea lungimii amplicon , dorim ca lungimile ampliconilor generați să se afle într-un interval îngust. Dorim în special să evităm ampliconii mult mai scurți decât lungimea țintă, deoarece ar fi supra-amplificați în raport cu ceilalți. Cu toate acestea, dorim să putem tolera o mică parte din valorile aberante, pentru a evita penalizarea perechilor de primeri potențial valoroase datorită doar câtorva secvențe rare., Dat fiind un set reprezentativ de bacteriană 16 secvențe, numit „set de referință” de acum, vom lua în considerare diferența Δamplen între mediană și primul percentila de amplicon lungimi peste tot posibil ampliconilor, format de potrivire toate combinațiile de înainte și înapoi primeri din setul pereche cu set de referință. Scorul termen este 1 dacă Δamplen ≤ 50 nucleotide, 0 dacă Δamplen ≥ 100 și (100 – Δamplen)/50 50 < Δamplen < 100.,

alegerea criteriilor de notare și a pragului implicit se bazează pe literatura anterioară . Cu toate acestea, atât pragurile, cât și intervalele de toleranță fuzzy pot fi setate de utilizator diferit de implicit și în funcție de nevoile sale experimentale, specificând valorile dorite ca parametri de intrare la apelarea instrumentului de linie de comandă.

acoperire

scorul de acoperire este definit ca numărul de secvențe 16S potrivite cu cel puțin un primer., Având în vedere secvențele unui primer și ale unui 16S bacterian, definim sămânța ultimelor 5 nucleotide la capătul 3’al unui primer și considerăm o secvență 16S potrivită de primer dacă există o regiune a secvenței 16S care se potrivește exact cu i) sămânța primerului; și ii) restul primerului cu cel mult 2 nepotriviri . O secvență 16S dintr-un set de referință este considerată acoperită de un primer-set-pair dacă cel puțin un primer înainte și unul invers în primer-set-pair se potrivesc cu secvența., Deoarece PCR eficiența scade cu amplicon lungime, ne impune o nouă constrângere: a dat un grund-set-pereche și un set de referință de 16 secvențe, estimăm țintă amplicon lungime ca mediana de lungimi de toate ampliconii rezultați de potrivire toate combinațiile de înainte și înapoi grunduri de grund-set-pereche cu set de referință. Apoi considerăm că nu sunt acoperite toate secvențele de referință 16S a căror lungime amplicon diferă mai mult de 100 de nucleotide (fie mai lungi, fie mai scurte) de lungimea țintă.,având în vedere un set de referință de secvențe 16S și un primer-set-pair, al treilea scor de optimizare măsoară variabilitatea numărului de combinații de primeri înainte și înapoi care se potrivesc fiecărei secvențe de referință 16S. Variabilitatea acoperirii datorată părtinirii de potrivire ar trebui să fie minimizată sau cel puțin contabilizată atunci când studiul este menit să cuantifice abundența relativă a diferitelor specii bacteriene, din cauza prejudecății de amplificare față de speciile acoperite de mai multe combinații de primeri înainte și invers., Ca o măsură de potrivire-prejudecată, vom exploata coeficientul de variație a acoperirii peste secvențele țintă, calculat ca deviația standard peste media numărului de combinații care se potrivesc fiecare secvență.

de Referință set de 16 secvențe, pregătirea și adnotare

Pentru a optimiza trei scoruri de mai sus, ne bazăm pe un set reprezentativ de bacteriană 16 secvențe extrase din public 16 secvență de baze de date, GreenGenes ., Baza de date a secvențelor GreenGenes 16S este organizată în unități taxonomice operaționale (Otu), care sunt clustere imbricate de secvențe în baza de date, organizate la diferite niveluri de similitudine inter-cluster. Pentru fiecare nivel de similitudine, o secvență de referință este asociată fiecărui cluster, maxim similară cu toate celelalte secvențe din același cluster . Setul de secvențe de referință poate fi astfel considerat un subset reprezentativ al întregii baze de date de secvențe, devenind din ce în ce mai precis pentru creșterea nivelurilor de similitudine inter-cluster (și, astfel, numărul de secvențe de referință)., Am ales un nivel de similitudine inter-cluster de 85% ca un bun compromis între reprezentativitate și complexitate, corespunzător unui set de 5088 de secvențe reprezentative pentru a fi utilizate pentru evaluarea criteriilor de optimizare.deși foarte sensibil în adnotarea domeniilor bacteriilor și arhaea, taxonomia GreenGenes nu este concepută pentru a distinge secvențele aparținând eucariotelor sau virușilor., Din acest motiv, am decis să re-adnotăm secvențele bacteriene 16S folosind taxonomia NCBI originală pentru a identifica cu exactitate, dintre secvențele reprezentative, numai cele aparținând domeniului bacteriilor. Deoarece informațiile de domeniu lipsesc din adnotarea NCBI pentru aproximativ 20% din secvențe, am proiectat o procedură ad hoc pentru a identifica secvențele bacteriene dintre acestea. Procedura este descrisă în detaliu în materialele suplimentare (a se vedea fișierul suplimentar 1)., Am ales în mod conservator să considerăm doar secvențele adnotate ca bacterii atât în adnotarea noastră curată, bazată pe NCBI, cât și în adnotarea originală a Greengenelor. Acest lucru a dus la un set de 4573 secvențe 16S reprezentative aparținând domeniului bacteriilor.,deoarece problema alegerii primerilor optimi necesită optimizarea simultană a diferitelor scoruri concurente, acesta poate fi aruncat ca o problemă de optimizare multi-obiectivă, unde spațiul de căutare este setul tuturor perechilor de primeri posibile și o funcție de notare sau un criteriu de optimizare poate fi definită astfel încât să maximizeze eficiența și acoperirea și să minimizeze părtinirea de potrivire., Atunci când mai multe criterii trebuie optimizate simultan, dar obiectivele care trebuie optimizate sunt contradictorii, de obicei nu este interesat de o singură soluție, ci mai degrabă de setul de soluții Pareto optime, adică de setul de soluții pentru care niciunul dintre obiective nu poate fi îmbunătățit fără a sacrifica cel puțin un alt obiectiv ., Rezultatul optimizării multi-obiective nu mai este o pereche unică optimă de primer-set-pair, ca în optimizarea cu un singur obiectiv, ci mai degrabă o colecție de perechi de primer-set care nu sunt mai rele decât orice altă pereche de primer-set și strict mai bune în conformitate cu cel puțin unul dintre criterii. Mai precis, pentru problema de optimizare tri-obiectiv de maximizare a scorurilor de optimizare a eficienței (E) și a acoperirii (C) și de minimizare a scorului de potrivire-bias (M), așa cum este definit în secțiunea anterioară, perechile de primer-set-candidat sunt evaluate în funcție de un vector de funcție obiectivă f = (f E ; f C ; fM)., Dat două primer-set-perechi p și p’, vom spune că p domină p’ (p ≺ p’) dacă și numai dacă f (p) ≠ f (p’), fE (p) ≥ fE (p’), fC (p) ≥ fC (p’) și fM (p) ≤ fM (p’). Dacă nu există p ‘astfel încât p’ ≺ p, primer-set-pereche p se numește Pareto-optim. În acest context, scopul alegerii primerilor optimi este de a determina (sau aproxima) setul tuturor perechilor de primeri Pareto-optimi, a căror imagine în spațiul tri-obiectiv se numește Frontul Pareto .pentru a căuta Frontul Pareto optim, ne bazăm pe abordarea de căutare locală cu cea mai bună îmbunătățire în două faze, propusă de Dubois-Lacoste et al., și exploatate în mod eficient în Sambo și colab. și Borrotti și colab. pentru proiectarea optimă multi-obiectiv de experimente.căutarea locală pornește de la o soluție inițială și o rafinează iterativ, aplicând mici modificări locale și evaluând de fiecare dată efectul lor asupra calității soluției; se oprește atunci când nicio altă modificare locală nu poate îmbunătăți soluția. Procesul este iterat din mai multe puncte de plecare diferite și cea mai bună soluție găsită vreodată este returnată, ca o aproximare a optimului necunoscut ., O comună extensia de căutare locală multi-obiectiv caz este de a porni de la un set inițial de soluții Pareto, proba într-o soluție de față, pentru a optimiza cu căutare locală o întâmplare scalarizare de problemă, adică o combinație liniară de optimizare scoruri cu greutăți cuprinse în eșantion uniform la întâmplare din unitatea simplex, actualizare frontul Pareto și repeta până când o condiție de terminare este cunoscut .,

procedurii MULTI-OBIECTIV-de CĂUTARE, a cărui pseudo-cod este prezentat în cele ce urmează, primește ca intrări intervalul dorit de amplicon lungimi (rangeamplen), un set reprezentativ de 16 secvențe (repset), un set inițial de (eventual degenerat) grund perechi (init) și numărul de reporniri (nres). Procedura începe prin selectarea din init toate posibilele perechi de amorse cu dorit amplicon lungime, grund lungime (între 17 și 21 de nucleotide) și domeniul țintă (Bacterii sau Universal).,perechile de grunduri Degenerate sunt convertite în perechi de grunduri nedegenerate și adăugate într-o arhivă. Procedura atunci reiterează nrest ori, de fiecare dată eșantionare aleatoare primer-set-pereche pstart din frontul Pareto și un vector aleator α relative greutăți pentru optimizarea scoruri, cu greutăți cuprinse în eșantion uniform de la unitatea simplex; procedura, apoi, rezolvă o funct multi-obiectiv-problemă, adică un singur obiectiv-problemă în care o combinație liniară a celor trei obiective, cu greutatea relativă α este maximizată, și adaugă rezultatul la arhiva., În acest scop, scorurile de eficiență, acoperire și părtinire de potrivire sunt normalizate la maxim, astfel încât fiecare scor normalizat variază între 0 și 1, iar părtinirea de potrivire este redefinită ca 1-părtinire de potrivire, astfel încât să poată fi maximizată ca celelalte scoruri., amplicon lungime în rangeamplen

2 Adăugați la arhiva corespunzătoare non-degenerat primer-set-perechi

3 pentru r = 1 la nrest

4 pf = PARETO-FAȚĂ(arhiva)

5 Mostră pstart de la pf

6 Mostră α de la 3, cu Σi ai = 1

7 p = LOCALĂ-CĂUTARE(pstart , α , repset)

8 Adauga p la arhiva

9 a reveni arhiva

un Singur obiectiv de optimizare este obținut folosind cele mai Bune Îmbunătățirea algoritm de Căutare Locală : pornind de la o primă primer-set-pereche, LOCALE-algoritm de CĂUTARE cicluri prin grunduri de set-pereche și, pentru fiecare primer, scanează împrejurimile sale, nu.,e. setul tuturor perturbațiilor locale posibile ale grundului. Perturbațiile locale constau în toate posibilele răsturnări ale unei nucleotide (evaluarea celorlalte trei baze posibile) și toate adăugările și eliminările posibile ale unei nucleotide la extremități., Căutare în spațiul soluție este realizată cu cele mai bune îmbunătățirea căutare locală abordare: după generarea întregul cartier, cum am explicat mai sus, algoritmul selectează cel mai bun vecin perturbare, pornește de la ea pentru a genera următorul vecinătate, și reiterează până când se ajunge la o soluție pentru care nici un vecin mai bun perturbare poate fi găsit. Procedura se încheie atunci când nu se mai pot aplica îmbunătățiri locale niciunui primer din primer-set-pair., Funcția de scor ponderat calculează cele trei scoruri de optimizare dintr-o pereche de primer-set și setul reprezentativ, înmulțește scorurile cu greutățile relative α și returnează suma rezultatelor.

Am dezvoltat un instrument software de punere în aplicare abordarea noastră și-a lansat sub GNU General Public Licence ca mopo16S instrument software (Multi-Obiectiv Grund de Optimizare pentru 16 experimente) la http://sysbiobig.dei.unipd.it/?q=Software#mopo16S., mopo16S este implementat ca un multithreading C++ instrument de linie de comandă; instrumentul software se bazează pe eficiența algoritmi și structuri de date din SeqAn bibliotecă și utilizează biblioteca openMP pentru multithreading.,>

4 pentru i = 1 a |pcurr|

5 pri = i-lea grund de pcurr

6 pentru pnew = pcurr cu toate completările și absorbțiile de o bază de la extremități și înlocuiri de o bază de pri

7 scorenew = PONDERAT-SCOR(pnew , α , repset)

8 dacă scorenew > scorebest

9 pbest = pnew

10 scorebest = scorenew

11 pcurr = pbest

12 reveni pcurr

de Stat-of-the-art grund perechi ca soluții inițiale

Am selectat baza de date online probeBase ca o sursă de candidat primer-set-perechi pentru a fi folosite ca soluții inițiale de mopo16S., Baza de date conține mai mult de 500 de perechi (eventual degenerat) grunduri și rapoarte pentru fiecare primer secvență, strand și poziția în care acesta se potrivește de referință 16 Escherichia coli gene, și domeniul țintă pentru care este conceput (fiind fie de Bacterii, Protozoare sau Universal).,

Având în vedere intervalul dorit pentru obiectivul amplicon lungime ca intrare de mopo16S, am selectat toate grund perechi de probeBase baza de date satisface următoarele proprietăți:

  • Amplicon lungime în limitele dorite;

  • Lungime de ambele grunduri mai mare sau egal cu 17 nt și mai mică sau egală cu 21 nt;

  • Bacterii sau Universal domeniu țintă atât de primeri.,

Deoarece abordarea noastră este de a lucra cu seturi de non-degenerat grunduri, în caz de degeneracies fie înainte sau primer invers, vom înlocui degenerat grund cu un set corespunzător de non-degenerat grunduri, obținute prin atribuirea de toate combinațiile posibile de valori de la degenerat nucleotide în grund. Un exemplu al acestei proceduri este prezentat în tabelul 1.am calculat cele trei scoruri pentru fiecare dintre perechile primer-set și am identificat, printre acestea, perechile primer-set care formează Frontul Pareto inițial.

Leave a Comment