Ugrás a tartalomhoz

Genetika és genomika

Falus András, László Valéria, Tóth Sára, Oberfrank Ferenc, Pap Erna, Dr. Szalai Csaba (2014)

Typotex Kiadó

11. fejezet - Populáció- és evolúciógenetika

Szalai, Csaba

Populációgenetika

A populációgenetika az allélfrekvenciák eloszlásának és változásának vizsgálata különböző populációkban. Ez a betegségek genetikai és genomikai hátterének vizsgálatában az egyik legtöbbet használt kutatási. A fejezet első felében az ezekhez a vizsgálatokhoz tartozó fogalmakkal és módszerekkel ismerkedhetünk meg.

Mintagyűjtések típusai

A betegségek pathomechanizmusának, genetikai és környezeti tényezőknek a vizsgálatára két alapvető mintagyűjtési módszert különböztetünk meg. Az egyik a retrospektív mintagyűjtés (retrospective study), ahol a legegyszerűbb esetben két populációt, egy beteget és egy kontrollt gyűjtünk össze. Ezt technikailag viszonylag egyszerű lebonyolítani, akár egyetlen szakorvos is könnyedén elvégezheti, egyszerűen, a hozzá járó betegektől, illetve egy kontrollpopulációtól megfelelő biológiai mintát vesz, és rögzíti (pl. kérdőív kitöltésével) a vizsgálathoz szükséges laboratóriumi, klinikai, kezelési, környezeti, viselkedési stb. adatokat. Itt nagyon fontos, hogy az adatok felvétele gondosan, alaposan és előre megtervezetten történjen, hiszen ezeken az adatokon nagyban múlik az értékelések minősége. A könnyű kivitelezhetőség és a gyors elvégezhetőség miatt a genetikai, genomikai vizsgálatok túlnyomó többségénél ilyen vizsgálat folyik. Angolban case-control study-nak hívják ezt a vizsgálatot. Számos ilyen nagy vizsgálatot ismerünk. Kifejezetten a genetikai háttér kutatását célozta meg a 2005-ben indult WTCCC (Wellcome Trust Case-Control Consortium; http://www.wtccc.org.uk/). Itt 50 kutatócsoport együttműködésével 16 ezer beteg és 3 ezer egészséges ember mintájának segítségével a gyakori variációk (SNP és CNV) és a betegségek összefüggéseinek vizsgálatát tűzték ki maguk elé. A projekt sikeres volt, hiszen 90 új genetikai variációt azonosított, amelyek valamilyen szerepet játszanak gyakori betegségekre való hajlamban. A projekt sikere főleg abban rejlett, hogy a nagyszámú minta és a szigorú statisztikai elemzések következtében a talált új variációk mindegyike nagy valószínűséggel valós asszociációt mutat, szemben a korábbi eredményekkel, ahol az eredmények túlnyomó többségét nem tudták egyértelműen igazolni. Az eredmények másik nagy jelentőségét az adja, hogy mivel nem célzott géneket, variációkat vizsgáltak, hanem hipotézismentes vizsgálatokat folytattak (GWAS), a talált gének nagy része a betegségekkel kapcsolatos új anyagcsereutakat, és pathomechanizmusokat tárt fel, megadva a lehetőségét új típusú kezelések, gyógyszerek kifejlesztéséhez (3).

A WTCCC sikere nyomán 2008 áprilisában létrehozták a nemzetközi WTCCC2-t, amelyben összesen 120 ezer minta mérését és elemzését tűzték ki célul (teljes genomasszociációs vizsgálatok segítségével, ld. később) különböző gyakori betegségekben, de olyan poligénes jellegekben is, mint a matematikai és az olvasási képességek, vagy a statinkezelésre adott válasz. 2009-ben elindították a WTCCC3-t is (ld. http://www.wtccc.org.uk/).

A prospektív mintagyűjtésnél (prospective study) egészséges populációtól gyűjtünk mintát, majd sorsukat (pl. visszahívásokkal) sokszor évtizedekig nyomon követjük, és összefüggéseket keresünk a bennük kialakuló betegségek és a különböző vizsgált, pl., genetikai, laboratóriumi és környezeti tényezők között. Ez jóval nagyobb szervezési munkát, több gyűjtött beteget és hosszabb időt igényel, így drágább, mint a retrospektív, viszont számos előnye van. A retrospektív vizsgálatoknál számos torzítás lehetséges pl. a mintagyűjtésnél. Így a betegségben meghaltak mintái nyilván alulreprezentáltak.

Több híres prospektív vizsgálatot ismerünk. Az egyik a Framingham heart study, amely 1948-ban indult az USA-beli Framingham városában 5209 férfi és nő részvételével, és ma – már a 3. generáció vizsgálatával – azóta is folyik. Mai tudásunk nagy része a kardiovaszkuláris betegségek kockázati faktorairól ebből a vizsgálatból ered (ld. http://www.framinghamheartstudy.org/).

Még nagyobb ilyen vizsgálat az UK biobank projekt, mely 2007-ben kezdődött és 500 ezer, 40–69 éves ember mintáinak és adatainak összegyűjtését célozta meg, mely azóta teljesült is 2010-ben. A vizsgálat fő célja a 21. század betegségeinek kutatása. Részleteket ld. a UK biobank honlapján: http://www.ukbiobank.ac.uk/.

1990-ben több mint 14 500 terhes nőtől kezdtek el információkat gyűjteni az angliai Bristolban és Bath-ban és környékükről az Avon régióban. Ez az Avon Longitudinal Study of Parents and Children (ALSPAC) study, ld. http://www.bristol.ac.uk/alspac/, amelyet a „90-es évek gyermekei”-nek (Children of the 90’s) is szoktak nevezni. A nők több mint 100 oldalas kérdőívet töltöttek ki egészségükről, kapcsolataikról, munkájukról, otthonaikról. Szülésük után a kutatók a gyermekeik sorsát követték nyomon, és vettek tőlük rendszeresen biológiai mintákat. Az akkor született gyermekeknek a születendő gyermekeinél is tervezik, hogy folytatják a minta- és adatgyűjtést és az értékelést. A study weboldalán olvashatunk az eredményekről. A genetikai eredményekre példa, hogy többek között ennek a populációnak a segítségével azonosították először az FTO-génvariációk és az obezitás kapcsolatát. Egy másik, epigenetikai vizsgálat azt mutatta, hogy összefüggést találtak a köldökzsinórban 9 gén metilációs mintázata és a 9 éves kori testmagasság között. Ez is mutatja, hogy az anya terhesség alatti viselkedése meghatározóan befolyásolja gyermekének későbbi sorsát.

Biológiai minta gyűjtése populációgenetikai vizsgálatokhoz

Amikor egy retrospektív genomikai vizsgálathoz populációt gyűjtünk, kétféleképpen járhatunk el.

1. Alkalmazhatunk nagyon szigorú feltételeket. Ilyenkor pl. betegségek esetén az a szempont, hogy a betegcsoportba a betegek fenotípusa között lehetőleg ne legyen különbség. Ez sok esetben szinte megvalósíthatatlan. Gondoljunk bele, hogy az asztmás betegek egy része allergiás is, rhinitise, conjuctivitise, esetleg dermatitise van. Van, aki jól reagál a kezelésre, mások nem reagálnak rá, van, akinek magas az eozinofil- vagy az IgE-szintje másoknak nem stb. Különbözhetnek abban is, hogy mi váltja ki az asztmatikus tüneteket (pl. fertőzés, allergén, hideg levegő, sportolás, aszpirin stb.), és még számos dologban különbözhetnek egymástól. Ideális esetben, egy betegcsoportba csak olyan betegeket gyűjtünk, akik semmilyen tünetben nem különböznek egymástól, hiszen így nagy az esély, hogy genetikailag homogénebb populációt vizsgálunk, és megtaláljuk azokat a variációkat, géneket, amelyek ahhoz a fenotípushoz vezettek. A hátrány nyílvánvalóan az, hogy így egy csoportba kevesebb beteg kerül, ami nagyon megnehezíti, hogy statisztikailag értékelhető eredményeket kapjunk.

2. Alkalmazhatunk lazább feltételeket. Ebben az esetben több a beteg, de heterogénebb a genetikai háttér, az egyes variációk hatása felhígul.

Az egyik lehetséges megoldás erre a problémára, hogy köztes fenotípust (intermediate, vagy endofenotípust) használunk. Itt azt használjuk ki, hogy egy betegségen belül bizonyos tünetek különböznek. Pl. allergiánál, asztmánál vizsgálhatjuk QT-ként az IgE-szintet. Ebben az esetben olyan genetikai variációkat (QTL-eket) fogunk találni, amelyek az IgE-szintet befolyásolják. Mivel a magas IgE-szint fontos szerepet játszhat a betegségekre való hajlamban, a betegségek genetikai hátterének egy részét megfejthetjük. Persze ezzel nem kapunk olyan genetikai variációkat, amely a betegség más tüneteiért, esetleg manifesztációjáért felelősek. De ilyen endofenotípus lehet pl. atherosclerosisban a stabil/nem stabil angina, vagy LDL-C-szint, CRP-szint stb., magas vérnyomásnál az alacsony reninszint (emelkedett ARR)/ normális reninszint, obezitásnál a leptin- vagy az inzulinszint, vagy a kövérség típusa (pl. hasi) stb.

Hardy–Weinberg-eloszlás

Hogy megbízható eredményeket kapjunk, minden populációgenetikai vizsgálatnál el kell végezni a Hardy–Weinberg-egyensúly (HWE) vizsgálatát. A HWE a genotípusok várható eloszlását írja egy random populációban.

Az allélok relatív gyakoriságát két allél esetén két egyenlettel írhatjuk le.

p + q = 1 és p2 + 2pq + q2 = 1

Ahol:

  • p a gyakoribb (major) allél frekvenciája

  • q a rika (minor) allél frekvenciája

  • p2 és q2 a homozigóta egyedek gyakorisága

  • 2pq a heterozigóta egyedek gyakorisága

A genotípus várható eloszlásának számszerű értékeit úgy számolhatjuk ki, hogy a kapott értékeket megszorozzuk a vizsgált populációban levő egyedek számával. Például, ha a ritkább allél gyakorisága 20% (q = 0,2; p = 0,8), akkor a ritka allél homozigóták várható száma egy 100 fős populációban 0,22x100 = 4; a heterozigótáké 2x0,2x0,8 ×100 = 32; a gyakori allél homozigóták száma 0,82 x 100 = 64.

A HWE-től való eltérés ellenőrzését minden populációgenetikai vizsgálatnál el kell végezni, amelyben a vizsgált csoportok genotípus-eloszlását vizsgáljuk valamilyen szempontból. Az összehasonlítást, amelyben az elméletileg várható eloszlást hasonlítjuk össze a kapott eloszlással, χ2 statisztikával lehet elvégezni, és manapság remek online internetes programok állnak rendelkezésre, amelyekkel könnyedén el tudjuk végezni a tesztet. Ilyen weboldal pl. a http://ihg2.helmholtz-muenchen.de/cgi-bin/hw/hwa1.pl, amellyel egyszerre több allélnál is el lehet végezni a vizsgálatot, ráadásul, ha két populációt hasonlítunk össze, az oldal asszociációs teszteket is végez.

A HWE elméletével itt csak annyiban foglalkozunk, hogy mit jelenthet általában ezekben a vizsgálatokban, ha a kapott eloszlás szignifikánsan különbözik a várttól. Az eltérés több okra vezethető vissza:

  • A genotipizálás hibás volt.

  • A mintavétel nem véletlenszerű. Pl.: sok rokon van a populációban.

  • Beltenyészet (inbred) populáció. Mindkét utóbbi esetben a homozigóták aránya megnő.

  • A vizsgált allél egy ismétlődő (repeat), pl. CNV-régióban helyezkedik el. Ebben az esetben általában a heterozigóták arány nő meg.

  • A vizsgált allél valamilyen szerepet játszik a vizsgált populáció fenotípusában. Pl.: a cisztikus fibrózis (CF) monogénes betegség nagy részéért felelős CFTR gén ΔF508-es allélt vizsgálva, CF-esekben a homozigóták túlsúlya mutatható ki.

Ha egy genotípusnál eltérést tapasztalunk a HWE-ben a kontrollpopulációban, akkor az általában kizárja azt az allélt a további vizsgálatokból, hiszen hibás eredményekhez vezethet. A beteg populáció esetében is (case-control vizsgálatoknál) az első négy eset mindegyikében hasonló a helyzet, de itt már ennek megállapítása eseti elemzéseket igényel, pl. másik módszerrel is el kell végezni a genotipizálást, vagy a populációban tapasztalható rokoni kapcsolatokat más módszerekkel is vizsgálni kell. De a genomikai típusú elemzéseknél, amikor egyszerre nem egy, hanem esetleg több 100 ezer, vagy millió genotípust vizsgálunk, ez a többi genotípus elemzésével tisztázható. Tulajdonképpen számunkra a legutolsó eset a legérdekesebb. Ha egy genotípus hajlamosít a vizsgált betegségre, akkor az a vártnál gyakrabban fordulhat elő a beteg populációban, mint az egészségesben. Ha véd a betegség kialakulásával szemben, akkor pedig ritkábban. Mindkét esetben értékes információhoz jutottunk az illető genotípusról, amit persze más módszerekkel még igazolni kell, hiszen, mivel itt egy statisztikai próbát végzünk, nem zárható ki a véletlenszerű tévedés lehetősége. Ritkán ezek ellentéte is előfordulhat, azaz pl. egy másik lókuszon található allél okozza a betegséget, és a gyakrabban, vagy ritkábban előforduló genotípus befolyásolja az egyedek túlélésének esélyét. Természetesen, mivel itt is asszociációról van szó, erre is érvényesek azok a megállapítások, amelyet az asszociáció címszó alatt tárgyalunk.

Kapcsoltság és haplotípus

Ismert, hogy az ivarsejtek fejlődésekor a meiózis során a homológ kromoszómák között crossing over, vagy genetikai rekombináció zajlik le, azaz a két homológ kromoszóma genetikai anyaga részben kicserélődik egymással (11.1. ábra). Például az emberi hímivarsejtek meiózisakor átlag 49 crossing over történik. Ennek szempontunkból az a jelentősége, hogy a korábban egy kromoszómán, két egymás melletti marker elkerülhet egymás mellől. Mivel az asszociációs és kapcsoltsági vizsgálatok esetén genetikai markereket használunk (10. fejezet), ennek, mint látni fogjuk, fontos következményei vannak. Annak jellemzésére, hogy egy populációban két allél milyen eséllyel öröklődik egyszerre, vezették be a linkage disequilibrium (LD, kapcsoltsági kiegyensúlyozatlanság) fogalmát. Ez a fogalom azt takarja, hogyha két allél egymástól függetlenül öröklődik, akkor a populációs eloszlásuk egymáshoz képest random, véletlenszerű (azaz köztük egyensúly van). Ha azonban valami oknál fogva, (általában azért mert egymás közelében vannak így nem egymástól függetlenül öröklődnek) ez a véletlenszerű eloszlás megszűnik, azt mondjuk, hogy kapcsoltan öröklődnek, és valamilyen fokú LD van közöttük. Egy másik definíció: egy kromoszómán lévő két markerpozíció között linkage disequilibrium áll fenn, ha a két pozíción található allélokat tekintve bizonyos allélkombináció gyakorisága eltér az egyes allélok gyakoriságának szorzatától.

Példa: két SNP, mindkettőn 50-50% gyakorisággal A, ill. G nukleotidok fordulhatnak elő. Ha nincs LD a két pozíció között, azaz egymástól függetlenül öröklődnek, akkor az AG kombinációnak 50% x 50% = 25% gyakorisággal kell előfordulnia egy populációban. Ha a várt 25%-os együttes előfordulás helyett 40%-ban fordul elő az AG kombináció egy populációban, azt jelenti, hogy nem egymástól függetlenül öröklődnek.

Az LD-t koefficienssel szokták jellemezni. Leggyakrabban két ilyen koefficienst használnak: a standardizált LD-koefficienst D’-vel, az ún. korrelációs koefficienst pedig r2-tel jelölik. A két koefficienst eltérő módon számolják (lásd: http://en.wikipedia.org/wiki/Linkage_disequilibrium), de az értékük két szélső értéke és azok jelentése megegyezik egymással. Mindkét koefficiens esetében 0 azt jelenti, hogy a két allél egymástól függetlenül öröklődik (azaz egymással egyensúlyban „equilibriumban” van), míg az 1-es érték teljes kapcsoltságot jelent, azaz a két allél abban a populációban mindig együtt fordul elő. Ezt úgy szokták interpretálni, hogy a két allél egymással teljes LD-ben van. Az 1 közeli értékek mindig erős kapcsoltságra utalnak.

Ha két vagy több allél egymás mellett van, és egyszerre fordulnak elő, akkor azt mondjuk, hogy egy haplotípuson vannak. Egy másik definíció szerint: Ha több, egymás melletti allél gyakran fordul elő különböző emberekben egyszerre, azaz együtt öröklődnek (közöttük csak ritkán van crossing over) akkor azt mondjuk, hogy ezek az allélok egy haplotípuson vannak. Hogy egy adott populációban milyen gyakran fordulnak elő egyszerre az allélok, annak jellemzésére a haplotípus-frekvenciát szoktuk használni. A különböző populációkban eltérő haplotípusokat és haplotípus-frekvenciákat lehet találni. Ennek feltérképezésére indult el 2002-ben a HapMap project, a HGP folytatásaként (ld. http://hapmap.ncbi.nlm.nih.gov/ és http://en.wikipedia.org/wiki/International_HapMap_Project), melynek azóta már 3 fázisa is lezajlott (1,2).

11.1. ábra - Rekombináció, vagy crossing over meióziskor. Például az emberi férfi meióziskor sejtenként átlag 49 rekombináció történik. A folyamatban a homológ, két szülői kromoszóma genetikai anyaga kicserélődik. Eredményeképpen, az eredetileg egymás mellett található allélok (pl. A1 és B1) elkerülhetnek egymás mellől.

Rekombináció, vagy crossing over meióziskor. Például az emberi férfi meióziskor sejtenként átlag 49 rekombináció történik. A folyamatban a homológ, két szülői kromoszóma genetikai anyaga kicserélődik. Eredményeképpen, az eredetileg egymás mellett található allélok (pl. A1 és B1) elkerülhetnek egymás mellől.

Genomikai vizsgálatoknál fel szokták rajzolni a vizsgált populációk és SNP-k haplotípus-térképét. A leggyakrabban használt ábrázolási módot a 11.2. ábrán mutatjuk be. A haplotípusok megállapítására és frekvenciájuk kiszámítására szintén online szoftverek állnak rendelkezésre, pl. Haploview 4.1: http://www.broad.mit.edu/mpg/haploview/.

Még térjünk vissza a kapcsoltságra. Genomikai/genetikai vizsgálatoknál a kapcsoltságot két értelemben szoktuk használni. Az első jelentése, ahogy előbb is kifejtettük: kapcsoltság lehet két genetikai lókuszon elhelyezkedő két allél között (azaz együtt öröklődnek). A másik jelentése, hogy kapcsoltság lehet egy allél, vagy egy haplotípus és egy fenotípus között (pl. betegség, hajszín, szemszín, IQ, koleszterinszint stb.). Ilyenkor feltételezni lehet, hogy ez az allél (vagy a vele kapcsoltságban lévő másik allél, vagy egy egész haplotípus) befolyásolja annak a fenotípusnak a manifesztálódását.

11.2. ábra - Az LD- és haplotípusblokkok legelterjedtebb ábrázolása. A háromszög feletti számok egy-egy allélt jelölnek, itt 15-öt. Minden allélhoz két irány tartozik, amelyet az első négyzet felfelé mutató két oldala jelképez. Az egyes négyzetekbe írt számok LD-koefficienst jelentenek, amelyek a négyzet két felső oldala irányában az egyes allélokra vonatkoznak. Például a 11-es és a 8-as allél között az LD-koefficiens értéke 83, ami 0,83-at jelent. A jobb vizualizáció miatt a négyzetek színezve vannak. Minél sötétebb piros egy négyzet, annál nagyobb az LD-érték a két allél között. A fehér négyzetek azt jelentik, hogy a két allél között nincs kapcsoltság, alacsony az LD-koefficiens. Bizonyos allélok, a négyzetekkel együtt, egy ötszögbe vannak rajzolva. Ezek között nagy az LD, és haplotípusblokkokat alkotnak. Ezen az ábrán 3 haplotípusblokkot láthatunk (on line link; 2013. február 13.)

Az LD- és haplotípusblokkok legelterjedtebb ábrázolása. A háromszög feletti számok egy-egy allélt jelölnek, itt 15-öt. Minden allélhoz két irány tartozik, amelyet az első négyzet felfelé mutató két oldala jelképez. Az egyes négyzetekbe írt számok LD-koefficienst jelentenek, amelyek a négyzet két felső oldala irányában az egyes allélokra vonatkoznak. Például a 11-es és a 8-as allél között az LD-koefficiens értéke 83, ami 0,83-at jelent. A jobb vizualizáció miatt a négyzetek színezve vannak. Minél sötétebb piros egy négyzet, annál nagyobb az LD-érték a két allél között. A fehér négyzetek azt jelentik, hogy a két allél között nincs kapcsoltság, alacsony az LD-koefficiens. Bizonyos allélok, a négyzetekkel együtt, egy ötszögbe vannak rajzolva. Ezek között nagy az LD, és haplotípusblokkokat alkotnak. Ezen az ábrán 3 haplotípusblokkot láthatunk (on line link; 2013. február 13.)

Founder populációk

Mivel két lókusz közötti, a meióziskor bekövetkező crossing over valószínűsége megközelítőleg arányos a két lókusz egymástól való távolságával, ezt felhasználták az ún. genetikai távolság becslésére, és bevezették (Thomas Hunt Morgan, Nobel-díjas genetikus tiszteletére) a centiMorgan (cM) mértékegységet. Ennek alapján két lókusz között 1 cM a genetikai távolság, ha annak a valószínűsége, hogy köztük crossing over következik be, 1%. Régebben, a humán genom megszekvenálása előtt ezt a mértékegységet használták két lókusz közötti távolság megadásakor. Mivel a rekombináció mértéke (a két homológ X-kromoszóma miatt) enyhén nagyobb a nőkben, ezért a genetikai távolságok általában kisebbek férfiakban. Manapság alkalmazása kezd kiszorulni, és egyre inkább a bázisokban megadott fizikai távolságot használjuk, bár markerek távolsága esetén, főleg családvizsgálatokban, sokszor praktikus a genetikai távolságot (is) megadni. Körülbelül, 1 cM = 1 Mb (megabázis) fizikai távolságnak felel meg.

A meióziskor bekövetkező crossing over következtében, ha egy mutáció keletkezik egy családban, és az nemzedékeken át továbböröklődik, a közelében található lókuszok egy idő után egy bizonyos eséllyel elkerülnek mellőle. Minél messzebb van egy lókusz, annál nagyobb eséllyel. Ennek kapcsoltsági vizsgálatoknál az a következménye, hogy ha egy betegséget okozó mutációt egy kapcsolt marker segítségével szeretnénk detektálni, annál közelebbi markert kell használni, minél régebben keletkezett a mutáció. Ez teljes genomszűréseknél azt jelenti, hogy nagyon sűrű genetikai markereket kell alkalmaznunk, hogy jó eséllyel használjunk olyan markert, ami a betegséget okozó mutációval kapcsolt. Minél távolabbi rokonságban állnak egy populáció tagjai egymástól, annál sűrűbben elhelyezkedő markereket kell használnunk. Ehhez még azt is hozzá kell tennünk, hogyha történelmi távlatokban gondolkodunk, akkor minden ember rokonságban áll egymással. Például, becslések szerint az UK jelenlegi lakosságából két egymással nem rokon embernek átlagosan 22 generációval ezelőtt volt közös őse, azaz 44 meiózis választja el őket egymástól. Ennek az a következménye, hogy a közös ősben 3 cM-ra levő lókuszok esetén (1-0,03)44=0,26 az esélye, hogy a két nem-rokon emberben is egymás mellett maradjanak. Ez úgy jön ki, hogy 3 cM azt jelöli, hogy 3% az esély a rekombinációra a két lókusz között. Annak az esélye, hogy nincs rekombináció 1-0,03 = 0,97, amit a 44 generáció miatt, ennyiszer kell összeszorozni. 20cM távolságban levő lókuszok esetén, (1-0,2)44=5x10-5 az esély ugyanerre. Mivel a humán genom cM-ben kifejezett mérete 3000 cM, ki lehet számolni, hogy az UK populációban, milyen sűrűn kell a markereket elhelyezni, hogy jó (mondjuk 95%-os) esélyünk legyen arra, hogy minden mutációt megtalálunk.

A humán kapcsoltsági vizsgálatokban itt lehetett felhasználni, az ún. „founder populációkat”. Founder populáció: kisszámú ősre visszavezethető beltenyészet-populáció, azaz olyan populáció, melyet vissza lehet vezetni kis számú családra vagy egyénre. Ezek valamilyen oknál fogva izoláltan élnek pl. földrajzi (pl. kis szigeten élnek), vagy társadalmi, vallási okokból csak egymás között köthetnek házasságot), emiatt a rokoni távolság sokkal kisebb közöttük, mint egy nyitottabb populációban. Emiatt kevesebb meiózis választja el őket, így hosszabb haplotípusblokkokkal rendelkeznek, és nagyobb az esély, hogy egy vizsgált marker kapcsoltságban van a fenotípust okozó variánssal. Ilyen populációt alkotnak, pl. a finnek, a quebec-i francia–kanadai populáció, izlandiak, a hutterite, vagy az amish közösségek.

A modern genomikai módszerek fejlődésével (GWAS, NGS), ahol nagyon sűrűn elhelyezkedő markereket használnak, vagy pl. a teljes genomszekvenálással az összes variációt ki tudják mutatni, a founder populációk kezdik elveszíteni a jelentőségüket.

Asszociációs vizsgálatok

Valamilyen jellemző (pl. betegség) genetikai hátterének tisztázására jelenleg a legnépszerűbb módszer az asszociációs vizsgálat. Ilyenkor pl. egy beteg és egy egészséges populáció marker-genotipizálásával, majd statisztikai módszerekkel azt vizsgáljuk, hogy egy marker milyen eséllyel asszociál a betegséggel.

Az asszociáció egy statisztikai kijelentés. Ha egy marker asszociál egy fenotípussal az azt jelenti, hogy az adott allél (marker) szignifikánsan gyakrabban fordul elő együtt az adott fenotípussal, mint az várható.

A pozitív asszociációnak számos oka lehet:

  • Direkt hatás: a vizsgált allél közvetlenül befolyásolja a fenotípust.

  • Természetes szelekció. Az illető allél megnöveli a túlélés esélyét a tanulmányozott betegséggel szemben

  • Populációs rétegződés (population stratification): egyes népcsoportokban bizonyos allélok gyakrabban fordulnak elő. Pl. evőpálcika-gén (HLA-A1 gyakoribb a kínaiakban)

  • Statisztikai hiba (ún. egyes típusú hiba, azaz hamis pozitivitás)

  • A vizsgált allél LD-ben van a betegségben szerepet játszó alléllal (pl. mutációval).

A fenti okok közül itt kettőt részletezünk (a statisztikai hibákról, ld. pl. a 8. fejezetet). Az egyik a populációs rétegződés, ami az egyik legnehezebben korrigálható problémát okozza. Ez azt jelenti, hogy ilyen típusú populációs vizsgálatoknál fontos szempont, hogy az összehasonlítandó két populáció populációs (pl. etnikai) összetétele megegyezzen egymással. Hogy milyen problémát okozhat, ha ez nem teljesül, a legismertebb elméleti példázat az evőpálcika-gén esete. Ez a példázat röviden azt mondja: tegyük fel, hogy azt akarjuk, kideríteni, hogy van-e annak a képességnek, hogy valaki tud-e evőpálcikával enni, genetikai háttere? Gyűjtünk hozzá két populációt, amelyek közül az egyik tud evőpálcikával enni, a másik nem (kontrollpopuláció). Abban az esetben, ha az első populáció főleg kínaiakból áll, a másik pedig nem, akkor azt fogjuk találni, hogy a kínaiakban gyakori (és európaiakban ritkább) bizonyos HLA-A2-es allél erős asszociációban áll az evőpálcikával evés képességével. Ez nyilvánvalóan hamis asszociáció, amit a két populáció helyes megválasztásával el lehet kerülni. Azonban ez nem mindig ilyen egyértelmű. Főleg a mai, globalizált világban, gyakran élnek együtt különböző etnikai csoportok, részben kevert, sokszor vegyes genetikai háttérrel (pl. USA-ban afroamerikaiak, hispán-amerikaiak, európai eredetű amerikaiak stb., vagy Magyarországon a romák és nem-romák stb.), és az etnikai besorolás, sokszor pl. etikai okok miatt nagyon nehézkes, vagy akár lehetetlen. Amikor két, eredetileg más etnikumhoz tartozó populáció genomszinten keveredik egymással, population admixture-nek nevezzük, és ezt a jelenséget egyes genetikai vizsgálatoknál fel is lehet használni (ld. http://en.wikipedia.org/wiki/Admixture_mapping).

A populációrétegződésből adódó hibáknak az elkerülésére számos módszert dolgoztak ki. Pl. a belső kontrollmódszerek. Ilyen a transmission disequilibriumtest (TDT) alkalmazása. Ez ugyan 50%-kal több munkával jár, hiszen beteg + szülők is kellenek hozzá. Azokat a szülőket választják ki, akik heterozigóták a betegséggel asszociáló M1 markerre, és azt vizsgálják, hogy hány szülő adja át az M1 allélt a beteg gyerekébe vs. hány nem. Ha az M1 marker nem asszociál a betegséggel, annak esélye, hogy a beteg megkapja a szülőtől 50%, ha asszociál, akkor ennél nagyobb. Ld.: http://en.wikipedia.org/wiki/Transmission_disequilibrium_test.

Egy másik módszer a discordant sib pair analízis. Itt olyan testvérpárokat vizsgálnak, melyek közül az egyik beteg, a másik nem.

Manapság a genomikai módszerek fejlődésével egyszerre rengeteg markert tudunk vizsgálni. Ezzel kapcsolatban már kifejlesztettek olyan statisztikai módszereket, amelyek korrigálni képesek az eltérő etnikai háttérrel rendelkező populációk összehasonlításából eredő statisztikai torzításokat.

A másik téma, amit itt még ki kell emelni, hogy a vizsgált allél LD-ben van a felelős alléllal. Ez azért fontos, mert pozitív asszociáció esetén a legnagyobb valószínűséggel ez következik be. Az egyik fontos feladat annak megállapítása, hogy a marker direkt hatása, vagy az LD-ben levő allél felelős a kapott asszociációért. A legjobb módszer, ha laboratóriumi körülmények között, in vitro, vagy in vivo módszerekkel, állatkísérletekkel igazoljuk a funkcionális hatást. Manapság annak is megnőtt az esélye, hogy in silico módszerekkel találunk valamit. Az interneten számos olyan adatbázis (ld. ENCODE projekt), szoftver található, amelyekkel egy allélhez funkcionális hatást lehet kapcsolni. Például, a variáció megváltoztatja egy transzkripciós faktor kötőhelyét, megváltoztatja a kódolt protein szerkezetét, a miRNS-szekvenciát, vagy kötőhelyet befolyásol, szabályozó szekvenciát változtat meg stb. A vizsgált alléllal LD-ben lévő felelős allél azonosítása történhet direkt szekvenálással, vagy a populáció haplotípustérképe alapján keresünk markerünkkel szoros LD-ben lévő másik polimorfizmust. Ez utóbbihoz olyan SNP-adatbázisok állnak rendelkezésre, mint a dbSNP, vagy a haplotípusblokkok feltérképezésére a Haploview szoftver.

Kockázatszámítás

Asszociációs vizsgálatoknál számszerűsíteni szokták a talált összefüggések erősségét. Az egyik ilyen jellemező a p-érték, amely azt mutatja, hogy mekkora a valószínűsége a hamis asszociációnak. A szignifikanciahatár általában p = 0,05. Az ennél kisebb értékeket fogadjuk el szignifikáns, azaz statisztikailag igazolt asszociációnak. Ld. még Bonferroni-korrekció (2. fejezet).

A kockázatszámolásnál használt p-értékkel összefüggésbe hozható fogalom retrospektív vizsgálatoknál az odds ratio vagy OR-érték. OR jelentése: az esély, hogy az illető allél (vagy lókusz) asszociál a betegséggel a betegekben, osztva az eséllyel a kontrollcsoportban. Részletesebben: http://en.wikipedia.org/wiki/Odds_ratio.

Ezzel rokon a prospektív vizsgálatoknál használt relative risk, vagy RR-érték. RR jelentése: az asszociáció valószínűsége a betegcsoportban osztva az asszociáció valószínűségével a kontrollcsoportban. Ld.: http://en.wikipedia.org/wiki/Relative_risk.

Mindkét érték azt mutatja, hogy az adott genetikai variáns hordozása hányszorosára növeli meg az illető kockázatát a betegség kialakulására. Az 1-nél nagyobb érték kockázatnövekedést, a kisebb érték kockázatcsökkenést jelent. Fontos még megadni az érték 95%-os konfidencia- (95%CI) határát is. Ez azokat az értékhatárokat mutatja, amelyeken belül az összefüggés 95%-os valószínűséggel igaz. Az összefüggés akkor fogadható el általában, ha a két szám közötti érték nem lépi át az 1-et. Pl. az OR = 3,2 (2,4-4,8) nem lépi át, így elfogadható az összefüggés, míg pl., OR = 1,8 (0,8-3,6) átlépi, így nem valós az összefüggés. Egy marker vizsgálatánál p = 0,05 az a határ, amely fölött átlépi, alatta nem lépi át az OR 95%CI-je az 1-et. Ez mutatja, hogy a szignifikanciahatár és a kockázatértékek között összefüggés van.