Odhad penetrancí pomocí populační frekvenci alel

Minulý měsíc jsem byl pozván, aby promluvil na Centra pro Mendelovské Genetiky (CMG) Analýzy a Metody Vývoj jednání o „Populační odhad penetrancí ve vzácných onemocnění“. Zde je verze blogu mého rozhovoru.

co je penetrance a proč se staráme?

Penetrance je pravděpodobnost vzniku určitého onemocnění vzhledem k určitému genotypu., Dá se mluvit o penetraci závislé na věku, takže procento lidí s genotypem vyvíjejícím onemocnění podle věku 40, podle věku 50, a tak dále; obvykle mluvím z hlediska celoživotního rizika, což znamená pravděpodobnost, že se u vás někdy vyvine nemoc před smrtí. Inherentní v tom je, že u nemocí s nástupem dospělých nemůže být celoživotní riziko nikdy zcela 100%, protože byste mohli nejprve zemřít na něco jiného.

Penetrance je nesmírně důležitá pro jedince podstupující prediktivní genetické testování-první otázka mnoha lidí zní: „znamená to, že určitě dostanu nemoc?”., Přesto je často velmi obtížné přijít pevným odhadem penetrace.

tradiční metody pro odhad penetrancí

V ideálním světě, správný způsob, jak odhadnout penetrancí by bylo zjistit, od narození, velké skupiny lidí s určitým genotypem, sledovat je, dokud všichni zemřeli pro něco, nebo jiné, a pak se zeptat, kolik kdy rozvinuté nemoci před tím, než zemřel. Vzhledem k tomu, že genotypová technologie byla vynalezena před méně než jedním lidským životem, nikdy to nebylo provedeno pro žádnou nemoc.

místo toho vědci často používají metody založené na rodině k odhadu penetrace., Typická studie by se podívala na každého, kdo byl pozorován s daným genotypem, a zeptejte se, kolik má dieázu nebo kolik má onemocnění v určitém věku. Metody založené na rodině trpí všudypřítomnou zjišťovací zaujatostí ., zjištěné na základě výskytu onemocnění

  • rodiny ve studii byly zjištěny na základě toho, že mají více postižení
  • rodiny původně používané k prokázání, že varianta způsobuje onemocnění , jsou zahrnuty do analýzy
  • ne všichni neovlivnění jedinci v rodině podstoupili prediktivní genetické testování
  • jako příklad tohoto posledního bodu, u genetické prionové choroby, pouze 23% rizikových lidí si zvolí prediktivní genetické testování a v rodokmenu, které jsem měl přístup k, znali jsme genotypy pouze 22% ohrožených jedinců .,

    všechny výše uvedené faktory pracují stejným směrem a mají tendenci nafouknout odhad penetrace.

    vědci si již dlouho uvědomují tyto problémy a navrhli některá řešení. Jako jeden příklad, kin-kohortní metoda zahrnuje zjištění zdravých jedinců náhodně z populace, genotypizace, že rodinná historie a srovnání přežití křivky jejich příbuzných prvního stupně., To je velmi chytré řešení, ale spoléhá na to, být schopni zjistit, dostatečně velký počet lidí s nemoc-působit genotyp bez zjištění na přítomnost onemocnění. Takže to fungovalo pro varianty BRCA1 a BRCA2 u amerických Židů Ashkenazi, ale pro mnoho vzácnějších genetických podmínek je to nepraktické, protože byste museli najmout desítky nebo stovky tisíc lidí, abyste našli i jednoho jedince s genotypem zájmu.,

    metody založené na populaci

    ze všech výše popsaných důvodů je velmi užitečné mít ortogonální metody založené na populaci, pro kladení otázek o penetranci. Prvním klíčovým poznatkem je, že zcela penetrační genetická varianta by neměla být v populaci častější než onemocnění, které způsobuje. Použití této logiky v praxi znamená, že potřebujete dobré odhady frekvence alel i pro neobvyklé varianty,a to bylo až donedávna těžké. ExAC, databáze genetických variací v 60 706 lidských exomech, nabízí nové příležitosti ., Mnoho jedinců v ExAC bylo zjištěno jako případy nebo kontroly různých běžných, komplexních onemocnění, ale žádné nebyly zjištěny pro Mendelovu chorobu, takže ExAC je dobrá referenční databáze pro studium většiny genetických onemocnění.

    Tím, že poskytuje alely na informace v obecné populaci, Přesně, jako dřívější referenční databází, jako jsou ESP , dal jasně najevo, že klinická genetika má velký problém: mnoho variant hlášeny způsobit genetické onemocnění, ne ve skutečnosti způsobit genetické onemocnění, nebo alespoň ne většinu času.,

    dvě databáze-HGMD a ClinVar-shromažďují tvrzení z literatury a z klinických laboratoří, které uvádějí, že určitá genetická varianta způsobuje určité genetické onemocnění. Při posledním sčítání bylo v těchto databázích přes 100 000 unikátních genetických variant způsobujících onemocnění. Průměrný člověk v ExAC má 54 z nich . Je zřejmé, že průměrný člověk ve skutečnosti nemá 54 genetických onemocnění., Samozřejmě, velká část tohoto přebytku je způsobena malým počtem divoce vysokofrekvenčních variant, které zjevně nezpůsobují žádné genetické onemocnění, a většina z nich může být údajně recesivní varianty nalezené v heterozygotním stavu v ExAC. Ale i když se podíváme na varianty v genech dominantních onemocnění při frekvenci alely <1%, stále vidíme 0, 89 údajně patogenních variant na osobu a je zřejmé, že ~90% lidí má dominantní genetické onemocnění., Takže napříč frekvenčním spektrem alel existuje mnoho údajně patogenních variant, které nejsou tak patogenní. Když Anne O ‚ donnell a podíval jsem se na údajně patogenní varianty s nejvyšší četnosti alel v Pře, a zeptal se, jak se jim podařilo být nesprávně zařazeny jako patogenní, zjistili jsme, že většinu času problém dohledat na papír v literatuře, že dělal nárok patogenity na základě nedostatečné důkazy.

    výše: obrázky 3C a 3D od ., V celém frekvenčním spektru alely a v genech dominantních i recesivních onemocnění existuje mnoho údajně patogenních variant, které se objevují v ExAC. Vysoké (>1%) frekvenční údajně patogenních variant, některé jsou skutečně patogenní, některé jsou skutečně vlastnost-spojená, ale rys je benigní, a některé jsou chyby anotace v databázích — ale většina jsou založeny na literatuře s nedostatečnými důkazy.,

    informace o frekvenci alely od ExAC nyní umožnily překlasifikovat více než 200 genetických variant z patogenních na benigní, pravděpodobně benigní nebo nejisté. Tyto druhy reklasifikace někdy vyvolat vytlačení z původní autoři, kteří se navrhuje varianta způsobuje genetické onemocnění, kteří mohou tvrdit, že varianta by ještě mohl být patogenní, ale s neúplnou penetrancí. Ale jak „neúplná“ může být neúplná penetrace?, Musíme získat kvantitativní, protože pokud je celoživotní riziko nanejvýš 1%, pak je stále rozumné říci, že varianta „způsobuje“ genetické onemocnění nebo je „patogenní“? Zatímco informace o frekvenci alely nikdy nedokáží, že varianta nemá žádnou souvislost s nemocí, může stanovit hranice toho, jaká by mohla být možná penetrace, a v mnoha případech, dokonce i pro poměrně vzácné varianty, je možné ukázat, že neexistuje způsob, jak varianta poskytuje úroveň rizika kdekoli vzdáleně blízko 100%.,

    získat kvantitativní, potřebujeme rozšířit naše dřívější pozorování, že zcela kapilární genetická varianta by neměla být častější v populaci, než je onemocnění, které to způsobuje. To vše je jednoduchá matematika a populační genetika, ale v praxi se příliš často nepoužívá. Zde jsou dva způsoby, jak můžeme přemýšlet o frekvenci alel při vyvozování závěrů o patogenitě a penetraci.

    maximální věrohodná frekvence alel

    říkají, že studujete exom pacienta s Mendelovou chorobou a snažíte se identifikovat kauzální variantu., Můj kolega James Ware vymyslel strategii pro filtrování, které exome proti informacím o frekvenci alely v ExAC, s využitím následující logiky., Maximální frekvence alely, která je věrohodná pro variantu způsobující dominantní genetické onemocnění, se rovná prevalenci onemocnění krát alelická heterogenita (podíl případů přičitatelných jedné variantě) dělená penetrací (častější mohou být méně penetrační varianty), dělená 2 (protože jsme diploidní):

    \

    například prionová choroba způsobuje 1 z 5 000 úmrtí a nejběžnější varianta (E200K) se nachází v 5% případů , takže 10% penetrační varianta nemůže mít pravděpodobně žádnou příčinu .frekvence alel vyšší než 0,0005% (1 z 200 000)., Kardiomyopatie postihuje 1 500 lidí, nejčastější varianta je nalézt v <2% případů, takže 50% průnik varianta nemůže mít alelu frekvenci větší než 0.004% . Vzorec pro recesivní onemocnění je o jeden zářez komplikovanější, ale James to také vyřešil a je popsán v.

    takže zatímco historicky lidé často odfiltrovali varianty s frekvencí alely >0.1% při pokusu o identifikaci příčiny dominantního onemocnění můžeme být ve skutečnosti mnohem přísnější., Námitka je, že při nízkém počtu alel je naše schopnost odhadnout frekvenci alel omezena rozptylem vzorků. Podíváme-li se například na varianty, které jsou mezi Evropany v ESP vidět na frekvenci 1% alely, mají tyto varianty také asi 1% frekvenci mezi ExAC Evropany. Ale varianty s 0,1% frekvenci v ESP mají tendenci být o něco vzácnější v Pře, a většina nezadaných (varianty viděl přesně jednou v ESP) nechci znovu objeví, podruhé, v Pře.

    výše: obrázek 3B od . Čím nižší je počet alel, tím méně dobrý odhad frekvence alel poskytuje.,

    čím nižší je počet alel, tím konzervativnější musíme být. Vytvořili jsme rámec pro to pomocí 95% horní hranice poissonovy distribuce o tom, kolik alel lze pozorovat na dané frekvenci, a mají předem vypočítané hodnoty pro všechny ExAC (k dispozici na FTP), které můžete použít-přečtěte si více o metodách v. James také vytvořil tuto šikovnou webovou aplikaci, která vám umožní prozkoumat, jaká by měla být „maximální důvěryhodná alela frekvence“ pro vaši nemoc zájmu.,

    inherentní v tomto přístupu je, že čím nižší je penetrace varianty, tím vyšší frekvence může mít v obecné populaci. Ale musíte také zjistit, že pokud je penetrance poměrně nízká, řekněme méně než 10%, pak je klinická užitečnost této varianty také nízká. James a Nicky Whiffin předložili údaje, které ukazují, že téměř veškerá klinická užitečnost sekvenování v kardiomyopatii pochází z variant s frekvencí <0.001% – běžnější varianty kumulativně přispívají jen málo, pokud existují, riziko .,

    odhad a hranice celoživotního rizika

    nezapomeňte, že penetrance je pravděpodobnost onemocnění daného konkrétního genotypu. Nebo, pokud vezmeme v úvahu alelický spíše než genotypový model, pravděpodobnost onemocnění vzhledem k určité alele. Můžeme to napsat jako P (D|A). Jakmile to uděláme, je zřejmé, že, podle Bayesova věta,

    \

    Každý z těchto výrazů má zvláštní význam:

    Všimněte si, že „populační kontroly“ se rozumí skupina není vybrán pro přítomnost, ani pro nepřítomnosti, nemoci. Jen kousek běžné populace.

    takže:

    \

    tato logika není nic nového., Použití Bayesovy věty k odhadu rizika onemocnění se datuje přinejmenším k odhadu rizika rakoviny u kuřáků a jeho aplikace na genetiku byla zvažována téměř tak dlouho . Ale pro tuto rovnici pracovat pro vzácné nemoci, budete potřebovat docela dobré odhady případu a populace kontrolovat frekvenci alely, a ty byly těžké přijít až do nedávné doby. Takže díky ExAC dochází k rostoucímu počtu situací, kdy je tato rovnice relevantní.

    zde je Kód R, který jsem napsal (původně zde), abych odhadl penetranci na základě tohoto vzorce.,

    Pokud nechcete spustit kód R sami, James Ware jej implementoval na kartě „penetrance“ této webové aplikace, takže můžete jednoduše připojit svá čísla do prohlížeče.

    aby bylo možné odhadnout 95% intervaly spolehlivosti na penetrance, jsem přijal přístup . Zadáte počet alel (AC) a počet jednotlivců (N) pro případy a kontroly a horní hranice 95% CI se vypočítá na základě horních 95% CI binomické distribuce pro frekvenci alely a dolní 95% CI pro ovládací prvky., Naopak spodní hranice penetrance je založena na dolní hranici frekvence alely a horní mez frekvence kontrolní alely. Dalo by se správně dohadovat, že protože tento vzorec používá 95% CIs na obou alelových frekvenčních hodnotách, výsledné intervaly spolehlivosti jsou větší, než by měly být. Dalo by se také oprávněně dohadovat, že binomické rozdělení není dobrý odhad na nízké alela se počítá, vzhledem k zaujatosti je znázorněno na Obrázku 3B je uvedeno výše (a určitě by nikdy použít tento vzorec jednočetných — varianty pozorován pouze jednou v Exacerbace)., Ale na konci dne, z důvodů, které budu diskutovat blíže ke konci tohoto příspěvku, tento vzorec je opravdu nejlepší použít pro získání ballpark, řádově odhad penetrance. Pokud hledáte extrémně přesný bodový odhad penetrace, celý tento přístup pro vás pravděpodobně stejně nebude fungovat.

    Pokud vás změna uspořádání rovnici, další způsob, jak o tom přemýšlet je:

    \

    To znamená, že zvýšené riziko u lidí s genotypem je úměrná poměru případě kontroly populace frekvenci alel., Takže varianta, která zvyšuje riziko o 200krát, by měla být 200krát častější u případů než u běžné populace. (Všimněte si, že tento poměr alelových frekvencí se mírně liší od poměru kursů, i když se obě opatření sbíhají pro velmi vzácné varianty.)

    aplikace na prionovou chorobu

    procházeli jsme touto logikou ve studii, kterou jsme zveřejnili začátkem tohoto roku, kvantifikující penetraci variant prionových onemocnění ., Starám se o prionovou chorobu z osobního důvodu – moje žena má v PRNP patogenní variantu-ale ukazuje se, že prionová nemoc je také skvělým testovacím případem pro použití výše uvedené logiky k odhadu penetrace. Žádný z jedinců v Pře v1 byly zjišťovány na neurodegenerativní onemocnění, takže Přesně opravdu je dobrá kontrola populace dataset pro prionová onemocnění. A protože prionové choroby jsou „oznamovatelné“, národní sledovací centra mají mimořádně dobré zjišťování případů a díky jejich štědrosti při sdílení dat jsme byli schopni akumulovat datový soubor 10,460 sekvenovaných případů.,

    Jsme zjistili, že >60 variant hlášeny způsobit prionové onemocnění souhrnně 52 alel v Pře. To znamená, že téměř 1 z 1 000 lidí má jedna z těchto variant, a tak, tyto varianty jsou kumulativně mnohem více společného, než všechny prionové onemocnění (což způsobuje ~1 za každých 5 000 úmrtí), natož všechny genetické prionové onemocnění (pouze ~15% případů jsou genetické). To stačí k tomu, abychom nám řekli, že ne všechny tyto varianty mohou být plně penetrační. Abychom zjistili, které varianty byly viníky, porovnali jsme sérii případů., Varianty s vynikajícím předchozím důkazem patogenity (Mendelova Segregace a myší modely) byly běžné v případech a chyběly v ExAC, v souladu s úplnou nebo téměř úplnou penetrací. Většina přebytečného alela počítat v Pře přispěli varianty, které byly méně časté v případech a měl slabý předchozí důkaz patogenity — tyto varianty jsou pravděpodobně benigní nebo přispívají-li pouze nízké riziko. Objevily se nejméně tři varianty, protože byly příliš běžné v kontrolách pro plnou penetraci, ale stále obohacené v případech nad kontrolami.,

    výše: anotovaná verze obrázku 2 z.

    Když jsme odhadli penetranci pro každou variantu pomocí výše uvedeného vzorce P (D / a), zjistili jsme, že existuje celé spektrum penetrance pro varianty PRNP.

    výše: obrázek 3 z.

    všimněte si stupnice na ose x – u onemocnění tak vzácného, že předchozí pravděpodobnost jeho vývoje je pouze 0,02%, dokonce i 50násobné zvýšení rizika je pouze 1% celoživotní riziko., Přesvědčivě, penetrance odhaduje, že vycházíme pouze z alelových frekvenčních informací, souhlasí docela dobře s podílem případů, které se vyskytují s pozitivní rodinnou anamnézou.

    tato práce již vedla ke změně prognózy u některých jedinců, kterým bylo původně doporučeno, že jsou ohroženi variantami s vysokou penetrací-viz a Erika zkontrolujte Haydenův článek o ExAC. Zde si můžete přečíst osobní cestu mé a Sonie s touto studií.,

    aplikace na NR1H3

    roztroušená skleróza (MS) je komplexní onemocnění s mnoha genetickými rizikovými faktory , ale není známo, že existuje žádná Mendelova forma onemocnění. Začátkem tohoto roku studie uvedla, že varianta missense v receptoru jaderného hormonu-NR1H3 R415Q-způsobuje vůbec první Mendelovu formu ms. Toto tvrzení bylo založeno na dominantní segregaci s onemocněním ve dvou rodinách, ale skóre LOD bylo pouze 2, 2 — pod prahem pro význam celého genomu ve studiích rodinných vazeb, což je více než 3, 0 nebo 3, 6 . A dotyčná varianta má frekvenci alely 0.,031% v ExAC non-finských Evropanů. To nemusí znít jako vysoká alela frekvence ,ale ukázalo se, že je příliš vysoká pro tuto variantu způsobit Mendelian ms.

    domníváme se, že MS má celoživotní riziko (v obecné populaci) 0,25% u žen a 0,14% u mužů . Pokud je 0,06% lidí v obecné populaci heterozygotů r415q, a pokud by i polovina z nich pokračovala v rozvoji MS, pak by tato varianta sama o sobě představovala 0,03% populace, která se vyvíjí MS.takže pokud se u MS vyvine celkem 0,25% lidí, pak by asi 12% z nich mělo mít tuto variantu., Místo toho byla varianta nalezena pouze u 1 jednotlivce z případové série 2 053 MS pacientů .

    To vyjde na alela frekvence 0.024% případů, nebo 0.049%, pokud dovolíme, aby pro 2 případech se počítá v případě série. To není výrazně vyšší než frekvence v ExAC. Pokud však tato varianta způsobuje MS, měla by být častější v případech — mnohem častější. Zapamatujte si náš přeskupený vzorec dříve: P (D / A)|P(D) = P(A/D) / P(a). To znamená, že pokud varianta zvyšuje riziko X-fold, měla by být X krát častější u kontrol. Takže pokud je základní riziko MS 0.,25% a tato varianta je 50% penetrant, měla by být 50/.25 = 200krát častější v případech než kontroly. Pokud by měl dokonce 10% penetraci, měl by být stále 10/.25 = 40krát častější v případech než u kontrol. Alternativně, můžete si myslet, pokud jde o kurzy poměry namísto pravděpodobnosti. 0.25% celoživotní riziko v běžné populaci znamená 1: 399 kurzy, a pokud R415Q udělil 50% celoživotní riziko, to by bylo 50:50 kurzy. (50/50)/(1/399) = 399, poměr kursů pro R415Q by tedy musel být 399, aby tato varianta měla 50% penetranci.,

    místo toho, pokud použijeme náš vzorec pomocí kódu R z dřívějška, za předpokladu 0, 25% základního rizika a založíme výpočet na 2 alelách na 2 053 případech, oproti 21 alelám u 33 369 ExAC jedinců, zjistíme, že horní hranice 95% CI na penetranci je 2, 2%. Takže i kdyby R415Q byly spojeny s MS riziko, to nemohlo udělit více než 2,2% celoživotní riziko vzniku MS .,

    ve své formální odpovědi a v PubMed Commons autoři vznesli srovnání s Lrrk2 G2019S u Parkinsonovy choroby, s níž všichni souhlasí, že je patogenní, ale která se také vyskytuje v ExAC a má pouze mírný poměr šancí, odhadovaný na 9.6 . U této varianty matematika funguje. Parkinsonova nemoc je alespoň řádově častější než MS, s celoživotním rizikem odhadovaným kdekoli od 3, 7% do 6, 7% . Tento řád větší prevalence znamená, že ~ 10-násobné obohacení, které bylo pozorováno-LRRK2 G2019S se nachází zhruba v 0.,1% kontrol a 1% případů-je zhruba v souladu s hlášeným ~ 32% celoživotním rizikem Parkinsonovy choroby, které tato varianta poskytuje . Tyto kvantitativní detaily jsou důležité a liší se pro každou variantu a každou nemoc. Proto jsou vzorce diskutované v tomto příspěvku užitečné, i když poskytují pouze velmi hrubé odhady a podléhají několika námitkám, jak je vysvětleno níže.

    upozornění

    v obou výše popsaných aplikacích byly pro hrubý odhad penetrace použity informace o frekvenci alely., V prionového onemocnění, byli jsme schopni ukázat, že variant dříve, předpokládá vysoce kapilární titul celoživotní riziko více o řádu 0,1%, 1%, nebo 10%. V příběhu NR1H3 byly informace o frekvenci alely dostatečné k tomu, aby ukázaly, že údajně kauzální varianta nemohla poskytnout více než několik procent celoživotního rizika.

    ale snažit se použít alela frekvenční data k získání přísnějšího odhadu penetrace by bylo velmi náročné. Například rodinné studie nesouhlasily s penetrací PRNP E200K, přičemž odhady se pohybovaly od 60% do 90% životního rizika ., Od doby, kdy studie prion vyšla, se mě několik lidí z rodin E200K zeptalo, zda data ExAC mohou pomoci zúžit, kde je riziko v tomto rozsahu. Odpověď je, bohužel, nemůže.

    zde jsou nejdůležitější důvody, proč si myslím, že všechny odhady penetrace založené na frekvenci alely je třeba vzít s zrnkem soli:

    • pokud je varianta vysoce penetrantní, pak je těžké získat případovou řadu, která neobsahuje příbuzné jedince. Pokud má vaše série případů relatedy, technicky nemáte objektivní odhad P (A|D).,
    • pokud je nemoc smrtelná, pak je těžké získat řadu populační kontroly, která není alespoň poněkud vyčerpána u lidí s variantami, které způsobují tuto nemoc. Takže pak nemáte objektivní odhad P (a) buď.
    • srovnání frekvence případových a kontrolních alel je zranitelné vůči zmatení populační stratifikací. Ve studii prion jsme neměli data SNP v celém genomu o případech, takže pro to nebyl žádný způsob, jak to dokonale kontrolovat.,
    • mnoho kauzálních variant vzácných onemocnění je tak vzácných, že ani u ExAC ještě nemáme dostatečně přesné odhady frekvence alel, abychom poskytli lepší než hrubou odpověď.

    se vším, co bylo řečeno, odhad frekvence alely založené na populaci je stále dobrým způsobem, jak získat hrubé odhady penetrace podle řádu a provést kontroly zdravého rozumu, zda by genetická varianta mohla být věrohodně příčinná pro vzácné onemocnění.

    Leave a Comment