Estimarea penetranței folosind frecvența alelelor populației

luna trecută am fost invitat să vorbesc la întâlnirea centrelor de Genomică Mendeliană (CMG) despre „estimarea bazată pe populație a penetranței în bolile rare”. Aici este versiunea blog post de discuția mea.

ce este penetranța și de ce ne pasă?

Penetranța este probabilitatea de a dezvolta o anumită boală, având în vedere un anumit genotip., Se poate vorbi de penetranță dependentă de vârstă, deci procentul de oameni cu genotipul care dezvoltă boala până la vârsta de 40 de ani, până la vârsta de 50 de ani și așa mai departe; vorbesc de obicei în termeni de risc pe viață, adică probabilitatea de a dezvolta vreodată boala înainte de a muri. Inerent în acest lucru este că, pentru bolile cu debut adult, riscul pe viață nu poate fi niciodată 100%, pentru că ai putea muri întotdeauna de altceva mai întâi.penetrarea este extrem de importantă pentru persoanele supuse testelor genetice predictive — prima întrebare a multor oameni este: „asta înseamnă că voi primi cu siguranță boala?”., Cu toate acestea, este adesea foarte dificil să se ajungă la o estimare fermă a penetranței.într-o lume ideală, modul corect de estimare a penetranței ar fi să se stabilească, de la naștere, o cohortă mare de oameni cu un anumit genotip, să le urmeze până când toți au murit de ceva sau altul și apoi să se întrebe câți au dezvoltat vreodată boala înainte de a muri. De când tehnologia de genotipare a fost inventată cu mai puțin de o viață umană în urmă, acest lucru nu a fost niciodată făcut pentru nicio boală.în schimb, cercetătorii folosesc adesea metode bazate pe familie pentru a estima penetranța., Un studiu tipic ar privi pe toți cei care au fost observați cu genotipul dat și ar întreba câți au diease sau câți au boală până la o anumită vârstă. Metodele bazate pe familie suferă de prejudecăți de constatare omniprezente ., constatat, pe baza unor prezintă cu boală

  • familii în studiu au fost determinate pe baza de a avea mai multe affecteds
  • familiile fost folosit inițial pentru a stabili că varianta cauzele bolii sunt incluse în analiza
  • nu toate afectate persoane din familie au suferit predictive, teste genetice
  • Ca un exemplu de acest ultim punct, într-genetice, bolile prionice, doar 23% de la persoanele cu risc alege predictive, teste genetice , și în pedigree datele la care am avut acces, am știut că genotipurile de numai 22% de la persoanele cu risc .,

    toți factorii enumerați mai sus lucrează în aceeași direcție, având tendința de a umfla estimarea penetranței.cercetătorii au fost conștienți de aceste probleme de mult timp și au propus câteva soluții. Ca un exemplu, metoda kin-cohorta implică constatarea indivizilor sănătoși la întâmplare dintr-o populație, genotiparea acestora, luarea unui istoric familial și compararea curbelor de supraviețuire ale rudelor lor de gradul întâi., Aceasta este o soluție foarte inteligentă, dar se bazează pe posibilitatea de a stabili un număr suficient de mare de persoane cu un genotip care cauzează boala, fără a stabili prezența bolii. Așa că a funcționat pentru variantele BRCA1 și BRCA2 în evreii americani Ashkenazi, dar pentru multe afecțiuni genetice mai rare, este impracticabil, pentru că ar trebui să recrutezi zeci sau sute de mii de oameni pentru a găsi chiar și un individ cu un genotip de interes.,din toate motivele descrise mai sus, este foarte util să avem metode ortogonale, bazate pe populație, pentru a pune întrebări despre penetranță. Prima perspectivă cheie aici este că o variantă genetică complet penetrantă nu ar trebui să fie mai frecventă în populație decât boala pe care o provoacă. Aplicarea acestei logici în practică înseamnă că aveți nevoie de estimări bune ale frecvenței alelelor chiar și pentru variante neobișnuite, iar acest lucru a fost greu de găsit până de curând. ExAC, o bază de date de variație genetică în 60,706 exomi umani, oferă noi oportunități ., Multe persoane din ExAC au fost constatate ca cazuri sau controale pentru diverse boli comune, complexe, dar niciuna nu a fost constatată pentru boala Mendeliană, deci ExAC este o bază de date de referință bună pentru studierea majorității bolilor genetice.prin furnizarea de informații privind frecvența alelelor în populația generală, ExAC, ca și bazele de date de referință anterioare , cum ar fi ESP, a arătat clar că genetica clinică are o mare problemă: multe variante raportate că provoacă boli genetice nu provoacă de fapt boli genetice, sau cel puțin nu de cele mai multe ori.,

    două baze de date — HGMD și ClinVar-colectează afirmații din literatura de specialitate și din laboratoarele clinice care afirmă că o anumită variantă genetică provoacă o anumită boală genetică. La ultima numărătoare, au existat peste 100.000 de variante genetice unice care cauzează boala în aceste baze de date. Persoana medie din ExAC are 54 dintre ele . Evident, persoana medie nu are de fapt 54 de boli genetice., Desigur, o mare parte din acest exces este cauzată de un număr mic de variante salbatic de înaltă frecvență, care, evident, nu provoacă nici o boală genetică, și o mare parte din ea poate fi relatărilor variante recesive găsite într-o stare heterozigotă în ExAC. Dar chiar dacă ne-am uita doar la variantele în boala dominant gene de la o alelă frecvență de <1%, vom vedea încă 0.89 potrivit surselor patogene variante pe persoană , și este clar că nu este cazul ca ~90% din oameni au o dominantă boală genetică., Deci, de-a lungul spectrului de frecvență alelei, există o mulțime de variante patogene care nu sunt atât de patogene. Când Anne O ‘ Donnell și m-am uitat la variantele relatărilor patogene cu cele mai mari frecvențe alele în ExAC, și a întrebat cum au reușit să fie clasificate greșit ca patogene, am constatat că cele mai multe ori problema trasată la o lucrare în literatura de specialitate care a făcut o cerere de patogenitate bazată pe dovezi insuficiente.

    de mai sus: cifrele 3C și 3D de la ., De-a lungul spectrului de frecvență alelei și atât în genele dominante, cât și în cele recesive, există o mulțime de variante patogene care apar în ExAC. De mare (>1%) frecvența relatărilor patogene variante, câteva sunt cu adevărat patogene, unele sunt cu adevărat trasatura asociate dar trăsătură este benigna, iar unele sunt erorile de adnotare în baze de date — dar majoritatea se bazează pe literatura de specialitate cu dovezi insuficiente.,

    informațiile despre frecvența alelelor de la ExAC au permis acum ca peste 200 de variante genetice să fie reclasificate de la patogene la benigne, probabil benigne sau cu semnificație incertă . Aceste tipuri de reclasificări declanșa uneori pushback de original autori care au propus o variantă provoacă o boală genetică, care ar putea argumenta că o variantă ar putea fi încă patogene, dar cu penetranța incompletă. Dar cât de” incompletă ” poate fi penetrarea incompletă?, Trebuie să obținem cantitativ, deoarece dacă riscul pe viață este de cel mult 1%, atunci este încă rezonabil să spunem că o variantă „provoacă” o boală genetică sau este „patogenă”? În timp ce informațiile despre frecvența alelelor nu pot dovedi niciodată că o variantă nu are nicio asociere cu boala, ea poate pune limite asupra posibilei penetranțe și, în multe cazuri, chiar și pentru variante destul de rare, este posibil să se demonstreze că nu există nicio modalitate prin care o variantă să confere un nivel de risc oriunde de la distanță aproape de 100%.,pentru a obține cantitativ, trebuie să extindem observația noastră anterioară — că o variantă genetică complet penetrantă nu ar trebui să fie mai frecventă în populație decât boala pe care o provoacă. Aceasta este matematica simplă și genetica populației, dar prea des nu este aplicată în practică. Iată două moduri în care ne putem gândi la frecvența alelelor atunci când facem deducții despre patogenitate și penetranță.

    frecvența maximă a alelei credibile

    spuneți că studiați exomul unui pacient cu boală mendeliană și încercați să identificați varianta cauzală., Colegul meu James Ware a conceput o strategie pentru filtrarea exomului împotriva informațiilor despre frecvența alelelor din ExAC, profitând de următoarea logică., Maxim frecvența alelei că este plauzibil pentru o variantă de a provoca o boală genetică dominantă este egal cu prevalența bolii ori heterogenitatea alelică (proporția de cazuri pot fi atribuite o singură variantă), împărțit de către penetranta (mai puțin penetrante variante pot fi mai frecvente), împărțit la 2 (pentru că suntem diploid):

    \

    De exemplu, boala provoacă la 1 din 5000 de decese, iar varianta cea mai comună (E200K) se găsește în 5% din cazuri , deci o 100% penetrante variantă nu poate avea, eventual, frecvența alelei mai mult de 0,0005% (1 la 200.000) ., Cardiomiopatie afectează 1 din 500 de persoane, varianta cea mai comună este găsit în <2% din cazuri, deci 50% penetrante varianta nu poate fi o alelă frecvență mai mare decât 0.004% . Formula pentru bolile recesive este o crestătură mai complicată, dar James a elaborat-o și este descrisă în .deci, în timp ce istoric oamenii au filtrat adesea variante cu o frecvență de alelă > 0 , 1% atunci când încercăm să identificăm cauza unei boli dominante, putem fi de fapt mult mai stricți., Avertismentul este că, la numărul scăzut de alele, capacitatea noastră de a estima frecvența alelelor este limitată de varianța de eșantionare. De exemplu, dacă ne uităm la variantele observate la o frecvență de alelă de 1% în rândul europenilor în ESP, aceste variante au, de asemenea, o frecvență de aproximativ 1% în rândul europenilor ExAC. Dar variantele cu o frecvență de 0,1% în ESP tind să fie ușor mai rare în ExAC, iar majoritatea singletonilor (variante văzute exact o dată în ESP) nu reapar a doua oară în ExAC.

    de mai sus: figura 3b din . Cu cât numărul de alele este mai mic, cu atât este mai puțin bună o estimare a frecvenței alelelor pe care o oferă.,prin urmare, cu cât numărul de alele este mai mic, cu atât trebuie să fim mai conservatori. Am conceput un cadru pentru a face acest lucru folosind limita superioară de 95% a distribuției Poisson cu privire la câte alele pot fi observate la o anumită frecvență și au valori pre-calculate pentru toate ExAC (disponibile pe FTP) pe care le puteți utiliza — citiți mai multe despre metodele din . James a creat, de asemenea, această aplicație web la îndemână, care vă permite să explorați care ar trebui să fie „frecvența maximă a alelei credibile” pentru boala dvs. de interes.,

    inerentă acestei abordări este că, cu cât penetrarea unei variante este mai mică, cu atât frecvența mai mare ar putea avea în populația generală. Dar, de asemenea, trebuie să ne dăm seama că dacă penetrarea este destul de scăzută, să zicem, mai mică de 10%, atunci utilitatea clinică a acelei variante este de asemenea scăzută. James și Nicky Whiffin au prezentat date care să arate că aproape toate de utilitate clinică de secvențiere în cardiomiopatie vine de la variante cu o frecvență de <0.001% — mai frecvente variante cumulativ contribuie puțin, dacă este cazul, de risc .,

    estimarea și limitele riscului pe viață

    amintiți-vă că penetrarea este probabilitatea bolii având în vedere un anumit genotip. Sau, dacă luăm în considerare un model alelic, mai degrabă decât genotipic, probabilitatea de boală dat o alelă special. Putem scrie acest lucru ca P (D|a). Odată ce o facem, devine clar că, prin teorema lui Bayes,

    \

    fiecare dintre acești Termeni are un înțeles particular:

    rețineți aici că „controlul populației” înseamnă un grup care nu este selectat pentru prezența, nici pentru absența bolii. Doar o parte din populația generală.

    deci:

    \

    această logică nu este nimic nou., Utilizarea teoremei lui Bayes pentru a estima riscul de boală datează cel puțin la estimarea riscului de cancer la fumători , iar aplicarea sa la genetică a fost luată în considerare de aproape atâta timp . Dar pentru ca această ecuație să funcționeze pentru boli rare, aveți nevoie de estimări destul de bune ale frecvenței alelelor de caz și de control al populației, iar acestea au fost greu de găsit până de curând. Deci, datorită ExAC, există un număr tot mai mare de situații în care această ecuație este relevantă.

    Iată codul R pe care l-am scris (inițial aici) pentru a estima penetranța pe baza acestei formule.,dacă nu doriți să rulați singur codul R, James Ware l-a implementat în fila „penetrance” a acestei aplicații web, astfel încât să puteți conecta numerele dvs. în browser.

    pentru a estima intervalele de încredere 95% pe penetranță, am adoptat abordarea . Introduceți numărul de alele (AC) și numărul de persoane (N) pentru cazuri și controale, iar limita superioară a CI de 95% este calculată pe baza ci superioară de 95% a distribuției binomiale pentru frecvența alelelor case și CI inferioară de 95% pentru controale., În schimb, limita inferioară a penetranței se bazează pe limita inferioară a frecvenței alelelor de caz și pe limita superioară a frecvenței alelelor de control. Ai putea pe bună dreptate quibble că, deoarece această formulă utilizează 95% CIs pe ambele valori ale frecvenței alelei, intervalele de încredere rezultate sunt mai mari decât ar trebui să fie. Ai putea, de asemenea, pe bună dreptate quibble că distribuția binomială nu este un estimator bun la numărul de alele mici, din cauza prejudecată ilustrată în figura 3b prezentată mai sus (și eu cu siguranță nu ar aplica această formulă singletons — variante observate doar o singură dată în ExAC)., Dar, la sfârșitul zilei, din motive pe care le voi discuta mai aproape de sfârșitul acestui post, această formulă este într-adevăr cel mai bine utilizată pentru obținerea unei estimări a penetranței. Dacă căutați o estimare extrem de precisă a penetranței, această abordare nu va funcționa oricum pentru dvs.dacă rearanjați ecuația, un alt mod de a gândi este:

    \

    aceasta înseamnă că riscul crescut în rândul persoanelor cu genotip este proporțional cu raportul dintre caz și frecvența alelelor de control al populației., Deci, o variantă care crește riscul de 200 de ori ar trebui să fie de 200 de ori mai frecventă în rândul cazurilor decât în populația generală. (Rețineți că acest raport al frecvențelor alelelor este ușor diferit de raportul cote, deși cele două măsuri converg pentru variante foarte rare.am parcurs această logică într-un studiu pe care l-am publicat la începutul acestui an, cuantificând penetranța variantelor bolii prionice ., Îmi pasă de boala pentru un motiv personal — soția mea adăpostește o patogene varianta în PRNP — dar se pare că boala este, de asemenea, un mare test pentru folosind logica de mai sus pentru a estima penetranta. Niciunul dintre indivizii din ExAC v1 nu a fost constatat pe boala neurodegenerativă, astfel încât ExAC este într-adevăr un set de date bun de control al populației pentru boala prionică. Și pentru că bolile prionice sunt „notificabile”, centrele naționale de supraveghere au o constatare excepțional de bună a cazurilor și, datorită generozității lor în schimbul de date, am reușit să acumulăm un set de date de 10,460 de cazuri secvențiate.,

    am constatat că >60 variante raportate de a provoca boala prion cumulativ au 52 alele în ExAC. Asta înseamnă că aproape 1 din 1.000 de persoane are una dintre aceste variante și, astfel, aceste variante sunt cumulativ mult mai frecvente decât toate bolile prionice (care provoacă ~1 din fiecare 5.000 de decese), să nu mai vorbim de toate bolile prionice genetice (doar ~15% din cazuri sunt genetice). Acest lucru este suficient pentru a ne spune că nu toate aceste variante pot fi complet penetrante. Pentru a determina care variante au fost vinovații, am comparat cu seria de cazuri., Variantele cu dovezi anterioare excelente de patogenitate (segregare mendeliană și modele de șoarece) au fost frecvente în cazuri și absente din ExAC, în concordanță cu penetranța completă sau aproape completă. Majoritatea numărului excesiv de alele din ExAC a fost contribuit de variante care au fost mai puțin frecvente în cazuri și au avut dovezi slabe anterioare de patogenitate — aceste variante sunt probabil benigne sau contribuie doar la un risc scăzut. Cel puțin trei variante au apărut intermediare, deoarece erau prea frecvente în controale pentru o penetrare completă, dar totuși îmbogățite În cazuri peste controale.,

    de mai sus: o versiune adnotată a figura 2 din .când am estimat penetranța pentru fiecare variantă, folosind formula P (D|A) de mai sus, am constatat că există un întreg spectru de penetranță pentru variantele PRNP.

    de mai sus: figura 3 din .notați scara pe axa x — pentru o boală atât de rară încât probabilitatea anterioară de a o dezvolta este de numai 0,02%, chiar și o creștere de 50 de ori a riscului este de numai 1% risc pe viață., Liniștitor, penetranța estimează că derivăm doar din informațiile despre frecvența alelelor, în acord destul de bine cu proporția cazurilor care prezintă un istoric familial pozitiv.

    această lucrare a dus deja la o schimbare a prognosticului pentru unele persoane care au fost inițial sfătuite că sunt expuse riscului pentru variante de penetrare ridicată-vezi și Erika verifică articolul lui Hayden despre ExAC. Puteți citi călătoria personală a mea și a Soniei cu acest studiu aici.,scleroza multiplă (SM) este o boală complexă cu mulți factori de risc genetici , dar nu se știe că există o formă Mendeliană a bolii. La inceputul acestui an, un studiu a raportat ca o varianta missense intr — un receptor hormonal nuclear — NR1H3 R415Q-provoaca prima forma Mendeliana de SM . Această afirmație sa bazat pe segregarea dominantă cu boala în două familii, dar scorul LOD a fost doar 2.2 — sub pragul pentru semnificația la nivel de genom în studiile de legătură familială, care este mai mult ca 3.0 sau 3.6 . Și varianta în cauză are o frecvență de alelă de 0.,031% în ExAC non-finlandeze europeni. S-ar putea să nu sune ca o frecvență ridicată a alelei, dar se dovedește a fi prea mare pentru ca această variantă să provoace ms Mendelian .luați în considerare faptul că SM are un risc pe viață (în populația generală) de 0, 25% la femei și 0, 14% la bărbați . Dacă 0.06% din persoane în populația generală sunt R415Q heterozygotes, și dacă măcar jumătate le-a mers pe pentru a dezvolta MS, atunci această variantă ar cont de 0,03% din populație în curs de dezvoltare DRA Deci, dacă un total de 0,25% din oameni dezvolta MS, aproximativ 12% dintre ei ar trebui să aibă această variantă., În schimb, varianta a fost găsită doar la 1 individ dintr-o serie de cazuri de pacienți cu SM 2,053 .

    aceasta funcționează la o frecvență de alelă de 0,024% în cazuri sau 0,049% dacă permitem numărarea a 2 cazuri în seria de cazuri. Acest lucru nu este semnificativ mai mare decât frecvența în ExAC. Dar dacă această variantă provoacă SM, ar trebui să fie mai frecventă în cazuri — mult mai frecvente. Amintiți-vă formula noastră rearanjată mai devreme: P(D|A)/P(D) = P(A|D)/P(A). Aceasta înseamnă că, dacă o variantă crește riscul de X-fold, ar trebui să fie de X ori mai frecventă în controalele. Deci, dacă riscul de bază al SM este 0.,25% și această variantă este de 50% penetrant, ar trebui să fie 50/.25 = de 200 de ori mai frecvent în cazuri decât controalele. Dacă ar avea chiar 10% penetranță, ar trebui să fie în continuare 10/.25 = de 40 de ori mai frecvent în cazuri decât în controale. Alternativ, vă puteți gândi în termeni de cote raporturi în loc de probabilități. Riscul pe viață de 0,25% în populația generală înseamnă cote 1:399, iar dacă R415Q ar conferi un risc pe viață de 50%, aceasta ar fi cote 50: 50. (50/50)/(1/399) = 399, deci, raportul de cote pentru R415Q ar trebui să fie 399 pentru ca această variantă să aibă o penetrare de 50%.,

    În schimb, dacă aplicăm formula noastră folosind codul R de la mai devreme, presupunând riscul de bază 0.25% și bazându-ne calculul pe alelele 2 pe cazurile 2,053, față de alelele 21 la indivizii ExAC 33,369, descoperim că limita superioară a CI 95% pe penetranță este 2.2%. Deci, chiar dacă R415Q ar fi asociat cu riscul SM, nu ar putea conferi mai mult de 2,2% riscul pe viață de a dezvolta SM .,

    În răspunsul oficial și în PubMed Commons autorii ridicat o comparație cu LRRK2 G2019S în boala Parkinson, de care toata lumea este de acord este patogene, dar care este, de asemenea, găsite în ExAC și are doar un modest odds ratio, estimat la 9.6 . Pentru această variantă, matematica funcționează. Boala Parkinson este cel puțin un ordin de mărime mai răspândită decât SM, cu risc de viață estimat oriunde de la 3,7% la 6,7% . Acest ordin de mărime mai mare prevalență înseamnă că ~10 ori îmbogățire care a fost observat de — LRRK2 G2019S se găsește în aproximativ 0.,1% din controale și 1% din cazuri — este aproximativ în concordanță cu riscul raportat ~32% pe viață de Parkinson conferit de această variantă . Aceste detalii cantitative contează și sunt diferite pentru fiecare variantă și fiecare boală. De aceea, formulele discutate în acest post sunt utile, chiar dacă oferă doar estimări foarte brute și sunt supuse mai multor avertismente, așa cum se explică mai jos.

    avertismente

    în ambele aplicații descrise mai sus, informațiile despre frecvența alelelor au fost utilizate pentru a obține o estimare aproximativă a penetranței., În boala prionică, am putut arăta că variantele presupuse anterior cu penetrare înaltă au conferit un risc de viață mai mare de ordinul a 0.1%, 1% sau 10%. În NR1H3 poveste, frecvența alelei informațiile au fost suficiente pentru a arăta că, potrivit surselor de cauzalitate varianta putut conferi mai mult de câteva procente viață risc.

    dar încercarea de a utiliza datele de frecvență ale alelelor pentru a obține o estimare mai strictă a penetranței ar fi foarte dificilă. De exemplu, studiile familiale nu au fost de acord cu privire la penetrarea PRNP E200K, cu estimări cuprinse între 60% și 90% risc pe viață ., De când a apărut studiul prion, am avut câțiva oameni din familiile E200K să mă întrebe dacă datele ExAC pot ajuta la restrângerea locului în care riscul se află în acest interval. Răspunsul este, din păcate, nu se poate.

    Aici sunt cele mai importante motive pentru care cred că toate penetranta estimări bazate pe frecvența alelei trebuie să fie luate cu un bob de sare:

    • Dacă o variantă este extrem de penetrante, atunci este greu pentru a obține o serie de caz care să nu conțină legate de persoane. Dacă seria dvs. de cazuri are legături, atunci din punct de vedere tehnic nu aveți o estimare imparțială a P(A|D).,
    • dacă o boală este fatală, atunci este greu să se obțină o serie de control al populației care nu este cel puțin oarecum epuizată de persoane cu variante care provoacă această boală. Deci, atunci nu aveți nici o estimare imparțială a P (A).
    • comparațiile frecvenței alelelor de caz și de control sunt vulnerabile la confuzie prin stratificarea populației. În studiul prion, nu am avut date SNP la nivelul întregului genom asupra cazurilor, deci nu a existat nicio modalitate de a controla perfect acest lucru.,multe variante cauzale pentru boli rare sunt atât de rare încât, chiar și cu ExAC, nu avem încă estimări suficient de precise ale frecvenței alelelor pentru a da un răspuns mai bun decât un răspuns dur.cu toate acestea, estimarea frecvenței alelelor bazată pe populație este încă o modalitate bună de a obține estimări brute de ordin de mărime a penetranței și de a efectua verificări de sănătate dacă o variantă genetică ar putea fi plauzibilă cauzală pentru o boală rară.

    Leave a Comment