Dlaczego badania wykorzystujące skanowanie całego genomu zawodzą?

Sukcesy tzw. genome-wide association studies ^{[ 1 ]} (GWAS) polegające na identyfikacji genetycznych czynników ryzyka powszechnie występujących chorób są obficie komentowane w mediach głównego nurtu (chyba nie tak obficie w polskich mediach – przyp. tłumacza). Nieomal każdego tygodnia jesteśmy informowani o nowych GWAS odkrywających „geny ryzyka” dla cukrzycy, chorób serca czy innych powszechnych dolegliwości zachodniej cywilizacji.

Część tego rozgłosu jest dobrze uzasadniona: po raz pierwszy w historii posiadamy możliwości dokładnego zidentyfikowania międzyludzkich różnic genetycznych, które kształtują zmienność w zakresie podatności na choroby. Mogąc określić wszystkie czynniki, zarówno genetyczne jak i środowiskowe, które prowadzą do powszechnych chorób, bylibyśmy w stanie zaadresować wczesne oddziaływania interwencyjne do osób najbardziej narażonych. Każdy sukces GWAS przybliża nas do, od dawna oczekiwanej, ery medycyny spersonalizowanej.

Tym niemniej, podczas gdy media ochoczo obwieszczają sukcesy GWAS, niewiele uwagi poświęca się ich porażkom. Faktem jest, że pomimo setek milionów dolarów wydanych na badania typu genome-wide association większość genetycznej zmienności ryzyka chorób powszechnych wciąż pozostaje niewyjaśniona. W rzeczy samej, niektóre z powszechnych chorób o udowodnionej silnej dziedziczności, jak np. choroba afektywna dwubiegunowa (bipolar disease, znana niegdyś, jako depresja maniakalna), pozostają całkowicie odporne na wysiłki GWAS.

Gdzie zatem ukrywa się owo dziedziczne ryzyko? Wydaje się, że w wielu rożnych „miejscach”, przy czym procent ryzyka związany z każdym z tych „miejsc” będzie odmienny dla rożnych chorób. Poniższy post przedstawia ogólną listę mrocznych miejsc genomu niedostępnych obecnie dla GWAS, wraz z omówieniem niektórych technik mających szansę umożliwić mapowanie znajdujących się tam wariantów genów niosących ryzyko.

Allele o małym wpływie na zmienność (small effect size)

Problem: Możliwość jednoczesnej analizy setek tysięcy polimorfizmów ^{[ 2 ]} na przestrzeni całego genomu stanowi zarazem o sile i słabości podejścia GWAS. Siła GWAS polega na względnie bezstronnym (bez hipotez apriorycznych) badaniu całego genomu, pod kątem wariantów genetycznych pozostających w asocjacji z chorobą (niosących ryzyko); słabość GWAS z kolei wiąże się z tym, że autentyczny sygnał asocjacji bywa łatwo zagłuszony statystycznym szumem płynącym z wielkiej liczby markerów, które nie są z chorobą związane. Aby odseparować prawdziwy sygnał od hałasu, badacze zmuszeni są przyjmować niesłychanie niskie progi istotności statystycznej ^{[ 3 ]}, które marker musi przekroczyć zanim zostanie uznany za wiarygodnego kandydata na czynnik ryzyka dla danej choroby. Redukuje to, co prawda, problem rezultatów fałszywie pozytywnych, ale oznacza też, że każdy wariant prawdziwie, ale w niewielkim stopniu, wpływający na ryzyko, zaginie w statystycznym hałasie.

Rozwiązanie: Wydaje się, że jest to jeden z tych problemów, których rozwiązanie wiąże się z koniecznością użycia brutalnej siły. Poprzez zwiększanie liczebności grupy badawczej (chorych) oraz grupy kontrolnej — a liczebności te sięgają tysięcy — naukowcy będą stopniowo wyciszać statystyczny hałas produkowany przez niezwiązane z chorobą markery, do momentu, w którym nawet warianty o niewielkim wpływie na podatność na chorobę wybiją się ponad tłum. Ponieważ koszty genotypowania ^{[ 4 ]} (i sekwencjonowania ^{[ 5 ]}) bez przerwy spadają, podejście tego rodzaju jest coraz łatwiej osiągalne. Tym niemniej, wyzwanie natury logistycznej polegające na gromadzeniu wielkiej ilości próbek DNA pacjentów o precyzyjnie określonym statusie chorobowym zawsze zostanie poważnym utrudnieniem.

Rzadkie warianty

Problem: Współczesna technologia skanowania genomu w wielkiej mierze opiera się na założeniu „powszechna choroba – powszechny wariant”, zgodnie z którym genetyczne ryzyko powszechnej choroby można przypisać względnie niedużej liczbie powszechnych wariantów genetycznych. Jest to założenie wynikające częściowo z wygody. Po pierwsze, nasz katalog zmienności genetycznej (stworzony dzięki wysiłkom takim jak projekt HapMap) w większości ogranicza się do powszechnych wariantów, ponieważ warianty rzadkie są dużo trudniejsze do zidentyfikowania. Po drugie, istnieją limity ilości SNPów skanowanych za pomocą jednego chipu ^{[ 6 ]}. Wynika z tego naturalna tendencja do używania SNPów o znacznej częstotliwości występowania, które pozwalają „uchwycić” jak największą cześć zmienności genetycznej. Oprócz tego, istnieją również pewne teoretyczne przesłanki wspierające powyższe założenie, a wynikające z modeli demograficznej historii ludzkości. Te modele jednak, same zasadzają się na licznych założeniach i niekoniecznie muszą mieć jednakowe zastosowanie do wszystkich powszechnych chorób.

Jakby nie było, wszyscy zgadzają się, że pewna istotna część genetycznego ryzyka powszechnych chorób zawiera się w rzadko występujących wariantach. Ostatnie wyniki badań GWAS w zakresie wielu chorób nie zdołały dostarczyć jednoznacznych dowodów na poparcie hipotezy „powszechna choroba – powszechny wariant”. Jakikolwiek byłby udział zmienności genetycznej wyjaśnianej przez rzadkie warianty, obecna technologia GWAS jest wobec nich prawie całkowicie bezsilna.

Rozwiązanie: Zwiększanie rozmiarów próbki (ilości badanych) może nieco pomóc, ale fundamentalny problem polega tutaj na braku możliwości współczesnych chipów na określenie genotypów rzadkich polimorfizmów. Na krótką metę pomocne może okazać się zwiększanie gęstości upakowania SNPów na chipach, co pozwoli na zawarcie rzadszych wariantów rozpoznawanych przez zakrojone na wielką skalę, projekty sekwencjonowania genomu, w rodzaju 1000 Genomes Project. Niemniej jednak, takie podejście może odbić się rykoszetem: chcąc obniżyć próg częstotliwości występowania SNPów obejmowanych przez chipy musimy pamiętać, że tym samym liczba rzadkich SNPów koniecznych dla uchwycenia sensownej części zmienności wzrastać będzie wykładniczo – każdy kolejny rzadki SNP wyjaśniać będzie jedynie niesłychanie mały ułamek zmienności.

Ostatecznie, z pomocą przyjść może „całogenomowe” sekwencjonowanie, które dostarczyłoby kompletnego katalogu wszystkich wariantów w genomach pacjentów i członków grupy kontrolnej. Problemem tutaj jest nie tyle samo sekwencjonowanie – koszty bez przerwy zmniejszają się w związku z pompowaniem wielkich pieniędzy w rozwój szybkich technik sekwencjonowania. Prawdziwym kłopotem może być interpretacja danych. Zupełnie nowe techniki analityczne będą konieczne, aby przekształcić dane z sekwencjonowania w użyteczną informacje.

Różnice między populacjami

Problem: Na przestrzeni ostatnich 50 do 100 tysięcy lat współczesny człowiek z entuzjazmem kolonizował większość lądów. Każda kolejna fala ekspansji niosła ze sobą część zmienności genetycznej populacji założycielskiej wraz z kilkoma nowymi wariantami powstałymi w wyniku mutacji. W każdej napotkanej niszy ekologicznej wpływ selekcji naturalnej prowadził do zwiększenia częstotliwości wariantów korzystnych oraz redukował częstotliwość tych szkodliwych, podczas gdy reszta genomu, w sposób pasywny, zyskiwała lub traciła zmienność. Końcowy produkt tego procesu to zestaw ludzkich populacji, które chociaż skrajnie podobne na poziomie genomu wziętego jako całość, mogą posiadać dość różne zestawy wariantów genetycznych istotnych dla choroby. Ponadto, korelacje pomiędzy markerami znajdującymi się na genomie blisko siebie (tzw. nierównowaga sprzężeń – linkage disequilibrium) mogą również różnić się między populacjami. Prowadzi to do tego, że marker ściśle związany z wariantem kauzalnym (przyczynowym) w jednej populacji, może wykazywać jedynie słabą asocjację z chorobą w innej.

[ 1 ] GWAS (Genome-wide association study) – badanie polegające na skanowaniu bardzo dużej ilości znanych polimorfizmów genetycznych (obecnie dostępne chipy zawierają sondy dla około 1 mln polimorfizmów) w genomach osób należących do grupy badawczej (chorych) i kontrolnej; kolejnym krokiem GWAS jest porównanie uzyskanych genotypów między oboma grupami — wykrycie różnic statystycznie istotnych pozwala na stwierdzenie związku polimorficznego genu z chorobą. Możliwa jest też analiza związku z fenotypami ilościowymi, takimi jak np. zdolności poznawcze albo waga ciała — przyp. tłum.

[ 2 ] Polimorfizm – genetyczna zmienność w populacji. Różnice DNA pomiędzy jednostkami mogą występować w wielu formach; w badaniach GWAS analizie podlegają polimorfizmy pojedynczych par zasad kodu genetycznego, czyli tzw. SNPy, oraz w niewielkim stopniu wariacje dłuższych odcinków DNA zwane CNV. Aby zmiana DNA została uznana za polimorfizm jej częstotliwość występowania w populacji musi przekroczyć pewien próg (obecnie za wartość progową przyjmuje się 1%). Oznacza to, że tylko mutacje, które wystąpiły na tyle wcześnie w historii gatunku, iż zdołały w drodze dziedziczenia rozpowszechnić się ponad ową wartość progową uznane zostaną za polimorfizmy — przyp. tłum.

[ 3 ] Próg istotności w GWAS – każdy skan GWAS to w istocie setki tysięcy, a czasem wręcz miliony, testów statystycznych. Standardowy próg alfa=0.05 oznacza, że w przypadku 5 testów na 100, dane z naszego badania potwierdzą występowanie asocjacji, która faktycznie (w populacji generalnej) nie ma miejsca. Łatwo wyobrazić sobie ilość „fałszywych” asocjacji w badaniu GWAS, gdyby próg istotności utrzymano na poziomie 0.05. W istocie, w GWAS często za istotne uznaje się asocjacje poniżej progu alfa=0.00000001, chociaż zależy to od ilości testowanych SNPów i fenotypów — przyp. tłum.

[ 4 ] Genotypowanie – określenie w badanym DNA jakie warianty nukleotydów występują w danym locus (miejscu w genomie). — przyp. tłum.

[ 5 ] Sekwencjonowanie DNA – proces zmierzający do ustalenia kolejności par nukleotydowych w cząsteczce DNA. Sekwencjonowanie fragmentu DNA jest nieporównanie trudniejsze od genotypowania konkretnego locus. — przyp. tłum.

[ 6 ] Chip (macierz DNA) – zestaw tysięcy oligonukleotydów (bardzo krótkich, ściśle określonych sekwencji DNA) służących jako sondy, które determinują jakie warianty występują w badanej próbce DNA. Każda sonda odpowiada pojedynczemu SNPowi. — przyp. tłum.

Allele o małym wpływie na zmienność (small effect size)

Rzadkie warianty

Różnice między populacjami