SNP-Score
Die Methode „SNP-Score“ wird vor allem für komplexe Merkmale verwendet (Haarfarbe, Hautfarbe usw.). Denn diese werden von vielen verschiedenen Genen gesteuert.
Wir beobachten hier SNPs („Single Nucleotide Polymorphisms“), das sind die kleinstmöglichen codierenden genetischen Einheiten, die sich immer exakt anhand der vier Nukleinbasen A, T, C, G definieren. Auch größere Genstrukturen haben einen Einfluss, SNPs leisten aber den Hauptbeitrag und sind am einfachsten und eindeutigsten nachverfolgbar.
Unter allen größeren Genen und SNPs gibt es jeweils solche, die stärkeren Einfluss haben und solche, die nur sehr schwach mit dem Merkmal in Zusammenhang stehen. Nach dem Potenzgesetz haben oft die effektstärksten 5-20 SNPs ein stärkeres Gewicht als alle anderen, tausenden effektschwächeren SNPs zusammen, die jeweils nur geringfügig zum Merkmal hinwirken. Im Gegensatz zu PGS werden also hier nicht tausende schwache Signale, sondern gezielt die stärksten bekannten Signale ausgewertet.
Die Vorgehensweise beim SNP-Score war generell folgende:
•Es wurden aktuelle Publikationen nach relevanten genetischen Markern durchsucht und deren Effektstärke ermittelt.
•Es wurde geprüft, inwieweit die AADR-Datengrundlage diese Marker tatsächlich abbildet. Diejenigen die nicht abgebildet waren, wurden dokumentiert, damit wir später die rohen Genome noch einmal danach durchsuchen können und den SNP-Score somit verbessern können.
•Alle Marker des Merkmals, die in der AADR-Datenbasis vorhanden waren wurden die belastbarsten, gut reproduzierten und effektstarken Marker herausgegriffen und je nach Merkmal zu einem Index verrechnet, der die Wahrscheinlichkeit des Merkmals abbildet. Bei der Berechnung wurde auf publitzierte Effektstärken zurückgegriffen, diese möglichst aus übertragbaren Quellen gewählt und solche, die nicht sicher gewichtet werden konnten, wurden ausgeschlossen.
•Nicht beobachtete Loci oder zu schwache und widersprüchliche Aussagen wurden blockiert um die Ergebnisse nicht zu beeindträchtigen.
Im Einzelnen sah die Ermittlung der SNP-Scores wie folgt aus:
Haarfarbe
•Quellen: Verwendet wurden das HIrisPlex/HIrisPlex-S-Haarmarkerfeld, Guenther et al. 2014 zur funktionellen KITLG-Variante rs12821256, Morgan et al. 2018 und CanPath/Lona-Durazo et al. 2021 für quellengewichtete Haarfarben-Effektgrößen, Zorina-Lichtenwalter et al. 2019 und HIrisPlex/Branicki zur MC1R-Rotblondbasis sowie Sulem et al. 2007 und Wilde et al. 2014 für klassische Pigmentierungs- und Ancient-DNA-Kontexte.
•Auswahl: Aktiv gewertet werden 16 Effektzeilen. Blond/Hell: KITLG rs12821256 C, HERC2/OCA2 rs12913832 G, SLC24A4 rs12896399 T, TPCN2 rs3829241 A und rs35264875 T, TYR rs1042602 A und OCA2 rs1800407 T. Rotblond: MC1R rs1805006 A, rs11547464 A, rs1805008 T, rs1805009 C, rs1110400 C und rs1805005 T. Braun/Dunkel: SLC45A2 rs16891982 C, HERC2/OCA2 rs12913832 A und IRF4 rs12203592 T. rs2228479 bleibt als MC1R-Kontext dokumentiert, wird aber nicht aktiv gezählt, weil die verfügbare Quellenzeile in der Masterliste nicht als scoring_allowed freigegeben ist. rs28777 bleibt blockiert, weil es in diesem kleinen Modell nicht unabhängig genug von rs16891982 gezählt werden kann; weitere sichtbare Kontextmarker werden nicht gezählt, wenn Richtung, Unabhängigkeit oder Effektgewicht nicht sicher genug sind.
•Vorhanden: Für Haarfarbe wurden 62 Marker geprüft. Davon sind 28 in der AADR-Datengrundlage direkt sichtbar, 34 sind aktuell nicht sichtbar. Aus der Effektallel-Basis gehen 16 sicher gerichtete und quellengewichtet scorebare Effektzeilen aktiv in den Score ein; rs2228479 und rs28777 sind dokumentiert, aber blockiert. Die übrigen sichtbaren Marker bleiben Dokumentations- oder Kontextmarker, bis Richtung und Gewichtung sicher genug sind.
•Gewichtung: Pro Locusgruppe wird nur der stärkste beobachtete Kandidat verwendet, damit eng gekoppelte Marker nicht doppelt dasselbe Signal zählen. Die Gewichtung stammt aus der Master-SNP-Liste: Morgan-ORs werden als log(OR) geführt, CanPath-Betas als logOR-nahe Effektgrößen; gezählt wird jeweils abs(effect_size_value) für scoring_allowed-Zeilen. Der jeweilige Teilscore ist die quellengewichtete Zahl beobachteter Effektallelkopien geteilt durch die quellengewichtete beobachtbare Maximalbasis; fehlende Marker werden nicht als Gegenbeweis gezählt. Blond wird ausgegeben, wenn mindestens zwei Hell-Locusgruppen positiv sind, der Blondscore mindestens 0,50 erreicht und die Dunkelkonkurrenz höchstens 0,25 beträgt. Rotblond wird ausgegeben, wenn der Rot-Score mindestens 0,50 erreicht und die MC1R-Basis stark genug ist oder nur geringe Dunkelkonkurrenz vorliegt. Braun/Dunkel braucht positive Dunkelmarker und wird nicht aus fehlender Hellbasis abgeleitet. Schwache oder konkurrierende MC1R-Muster sowie fehlende positive Evidenz werden blockiert. Im aktuellen Lauf sind 1.807 Profile blond, 688 rotblond, 3.084 braun/dunkel, 3.517 dunkelblond eher hell, 3.975 dunkelblond eher dunkel und 4.519 unbekannt.
Augenfarbe
•Quellen: Verwendet wird für den SNP-Score ein kleines auditiertes Eye-GWAS-Modell aus Lona-Durazo et al. 2022/CanPath Data S1 und Sulem et al. 2007/GWAS-Catalog. IrisPlex/HIrisPlex-nahe Augenmarker, Chaitanya et al. 2014 und neuere Kontextbefunde aus Abbatangelo, Lona-Durazo, Edwards & Parra 2026 bleiben Review- und Rohsignal-Kontext, wenn Effektallel, Richtung oder Anwendung auf ein unstratifiziertes Scoremodell nicht sauber genug sind.
•Auswahl: Aktiv im SNP-Score sind 5 GWAS-Effektzeilen auf 4 eindeutigen SNPs: HERC2/OCA2 rs12913832 G als zentrale Blauachse und rs12913832 A als zentrale Braun/Dunkel-Gegenachse; IRF4 rs12203592 T, SLC24A4 rs12896399 T und TYR rs1393350 A als zusätzliche Blau-/Hellmarker. rs1129038, rs1800407 und rs16891982 werden für Score und Streng nicht verwendet; rs1800407 erzeugt auch kein direktes Grün/Gemischt-Rohsignal. Grün/Gemischt ist keine eigene Markerachse, sondern entsteht als Rest- beziehungsweise Konfliktkategorie aus konkurrierender Blau- und Braun/Dunkel-Evidenz.
•Vorhanden: Für Augenfarbe wurden 15 Marker geprüft, und alle 15 sind in der AADR-Datengrundlage sichtbar. Aktiv im Score gewertet werden daraus 5 GWAS-Effektzeilen auf 4 eindeutigen SNPs. Weitere sichtbare Effektzeilen bleiben dokumentiert, werden aber wegen Proxy-Charakter, Haplotyp-Kontext, stratifiziertem Kontext, richtungsunsicherer Kandidatur oder fehlender sauberer GWAS-Scorebasis nicht direkt in den Score aufgenommen.
•Gewichtung: Beta-Zeilen werden mit abs(beta) mal Safety-Factor 0,7 gewichtet; OR-Zeilen werden mit abs(log(OR)) mal Safety-Factor 0,7 gewichtet. Dadurch zählen rs12913832 G und A jeweils mit 0,885115, rs1393350 A mit 0,29309723, rs12203592 T mit 0,115157 und rs12896399 T mit 0,0844564. Pro Locusgruppe wird nur der stärkste beobachtete Beitrag verwendet. Blau wird ausgegeben, wenn rs12913832 G/G bei Braunwert unter 0,45 vorliegt oder die Blauachse mit Zusatzloci einen Blauwert ab 0,55 erreicht. Braun/Dunkel wird ausgegeben, wenn rs12913832 A/A ohne starke Blau- oder Konfliktkonkurrenz vorliegt oder die Braunachse mindestens 0,50 erreicht. Grün/Gemischt wird ausgegeben, wenn konkurrierende oder zu schmale GWAS-Hinweise keine robuste Blau- oder Braun/Dunkelentscheidung tragen; der Green/Mixed-Wert ist dabei ein abgeleiteter Konfliktwert ohne direkte Marker-Evidence. Fehlt eine ausreichende positive Augenfarbenbasis, wird blockiert. Im aktuellen Lauf sind 4.324 Profile blau, 6.438 braun/dunkel, 880 grün/gemischt und 5.948 unbekannt.
Hautfarbe
•Quellen: Verwendet wurden vor Liu et al. 2015 zu direkter europäischer Hautfarbvariation und Jacobs et al. 2013 zu quantitativen Hautfarbachsen.
•Auswahl: Aktiv sind 6 Marker: HERC2/OCA2 rs12913832 A als dunkler Ankermarker mit R2 5,376 und Gewicht 1,0; IRF4 rs12203592 T als heller Ankermarker mit R2 3,627 und Gewicht 0,82138; TYR rs1393350 A als heller Liu-Marker mit R2 0,573 und Gewicht 0,326473; OCA2 rs7495174 G als dunkler Jacobs-SD-Marker mit partiellem R2 0,48 und Gewicht 0,298807; ASIP rs4911442 G als heller Jacobs-Sättigungsmarker mit partiellem R2 0,35 und Gewicht 0,255155; SLC24A4 rs17128291 G als heller Liu-Marker mit R2 0,241 und Gewicht 0,211728. Nicht aktiv sind unter anderem rs1805007, rs1805008, rs376397, rs16891982, rs10756819, rs1540771, rs4911414, rs17426596, rs1800407, rs6742078, rs12896399, rs12821256, rs1408799, rs35264875, rs1426654, rs2675345, rs2470102, rs11637235, rs8028919 und rs6602666, weil sie fehlen, auf einer anderen Achse liegen, nicht auf die aktuelle R2-Skala übertragen sind, nicht ausreichend harmonisiert sind oder in dieser Runde nur Review-Kontext bleiben.
•Vorhanden: In der geprüften Hautmarkerbasis sind 30 Registry-Zeilen dokumentiert. 6 Marker sind aktiv sichtbar und werden direkt verwendet. 4 gewünschte direkte Marker fehlen im AADR-1240K-Panel (rs183671, rs4268748, rs6059655 und rs2924567). 20 weitere Hautzeilen sind sichtbar oder dokumentiert, aber derzeit nicht aktiv scorebar, weil sie nicht für diesen Score freigegeben sind oder ihre Achse, Richtung beziehungsweise Effektgrößenskala nicht sicher genug passt.
•Gewichtung: Die Gewichtung folgt dem erklärten Anteil am Pigmentierungsunterschied: R2- und partielle-R2-Werte werden über die Quadratwurzel skaliert und auf rs12913832 als Gewicht 1,0 normiert. Hellere Richtung wird auf der Skala negativ, dunklere Richtung positiv abgebildet. Alte AADR-0/2-Aufrufe werden als Einzelallel-Halbdosierung behandelt; fehlende Marker werden aus Zähler und Nenner ausgelassen. Für ein berechnetes Ergebnis braucht ein Individuum mindestens 3 beobachtete Marker, mindestens einen Ankermarker und mindestens 45 Prozent der aktiven Gewichtsbasis. Für ein limitiertes Ergebnis reichen mindestens 2 Marker, ein Ankermarker und 25 Prozent Gewichtsbasis. Darunter wird blockiert. Werte bis -0,55 gelten als deutlich blasser, bis -0,2 als blasser, unter 0,25 als mittelhell, unter 0,6 als gebräunter und darüber als deutlich gebräunter. Diese Angaben sind Pigmentierungsindikatoren, keine Fitzpatrick-Klassen und keine Ethnie- oder Race-Labels. Im aktuellen Lauf sind 10.203 Profile berechnet, 1.059 limitiert und 6.328 nicht auswertbar.
Körpergröße
•Quellen: Verwendet wurden große Körpergrößen-GWAS, insbesondere Yengo et al. 2022 aus der GIANT-Linie, Marouli et al. 2017 zu seltenen und niedrigfrequenten Höhenvarianten sowie ein zusätzlicher aktuell geprüfter Hawkes-2026-Höhenmarker. Aus diesen Quellen wurde eine kuratierte Top-500-Auswahl besonders effektstarker und direkt prüfbarer Marker gebildet.
•Auswahl: Aktiv sichtbar sind 102 Marker: rs16942341, rs28929474, rs3791675, rs3791679, rs6457821, rs8024016, rs2780226, rs12082656, rs78247455, rs56088284, rs16895917, rs1776897, rs11205735, rs9462076, rs9470004, rs143384, rs1812175, rs724016, rs16874062, rs7206999, rs1150781, rs8018258, rs7689420, rs17195446, rs7209435, rs724743, rs1344672, rs6440003, rs6764769, rs6763931, rs6449353, rs36112366, rs9469821, rs12902421, rs473902, rs9846396, rs224333, rs514375, rs7172362, rs3751599, rs6915007, rs13102976, rs2517490, rs13144223, rs4308051, rs4239436, rs2575580, rs11111147, rs12426944, rs2292303, rs4369779, rs2639583, rs11740580, rs10218771, rs6830062, rs13273123, rs7571816, rs7684221, rs16896068, rs16896261, rs16896210, rs1173721, rs6940863, rs13376429, rs2311767, rs1173745, rs6060402, rs6060373, rs6088791, rs6060369, rs7833986, rs41274586, rs6088813, rs4911494, rs6087705, rs6785073, rs35397, rs78110303, rs7235010, rs6767899, rs1406948, rs7460090, rs1265083, rs4800452, rs9650315, rs3757334, rs7672919, rs6817306, rs4800148, rs6728302, rs749052, rs16895895, rs1173731, rs2517509, rs7742369, rs3116162, rs1759645, rs16895877, rs16859517, rs8179, rs7678436 und rs6854334. Die Auswahl begründet sich jeweils durch publizierte standardisierte Effektgröße, direkte AADR-Sichtbarkeit, passende Allelsets und keine LD-Proxy-Verwendung. Ausgeschlossen wurden Marker, die im AADR-Panel fehlen oder wegen fehlender Positionsbasis nicht sicher abgeglichen werden können.
•Vorhanden: Von 500 angefragten Körpergrößenmarkern sind 102 aktiv sichtbar und harmonisiert. Davon stammen 74 aus Yengo 2022, 27 aus Marouli 2017 und 1 aus Hawkes 2026. 101 Marker wurden per rsID, 1 per Koordinate/Allelset gematcht. 396 angefragte Marker fehlen in der AADR-Datengrundlage, 2 weitere scheitern an fehlender Positionsbasis für einen sicheren Abgleich. Es werden keine aktiven Proxys verwendet.
•Gewichtung: Gewichtet wird mit den publizierten standardisierten Effektgrößen pro Effektallel. Der Rohscore ist die beobachtete Effektlast geteilt durch die beobachtete absolute Effektkapazität; fehlende Marker werden nicht als Null gezählt, sondern aus Zähler und Nenner herausgelassen. Ein positiver Wert bedeutet relativ mehr höhenerhöhende Effektlast innerhalb der beobachteten Markerbasis, ein negativer Wert relativ mehr höhenmindernde Effektlast. Für ein berechnetes Ergebnis braucht ein Individuum mindestens 5 beobachtete Marker und 42 Prozent beobachtete Gewichtsbasis. Für ein limitiertes Ergebnis braucht es mindestens 3 Marker und 25 Prozent Gewichtsbasis. Darunter oder bei nicht endlichem Index wird blockiert. Im aktuellen Lauf sind 10.424 Profile berechnet, 1.656 limitiert und 5.510 nicht auswertbar. Der Wert ist ein relativer genetischer Höhenindex, keine Zentimeterprognose.
Intelligenz
•Quellen: Verwendet wurden die großen GWAS zu allgemeiner kognitiver Funktion und Intelligenz von Davies et al. 2018 und Savage et al. 2018. Der Score ist ausdrücklich kein IQ-Modell, kein Educational-Attainment-Proxy und kein PGS, sondern ein relativer Index aus direkt beobachtbaren GWAS-Lead-SNPs.
•Auswahl: Aktiv verwendet werden 80 Marker: rs1343775, rs6668048, rs516902, rs11804556, rs1144593, rs7365380, rs199928, rs527825, rs10779271, rs12470949, rs12713315, rs889956, rs58593843, rs10189857, rs7599488, rs7583067, rs2558096, rs10192369, rs2268894, rs2284871, rs3749034, rs13096357, rs2352974, rs1540293, rs4485754, rs11720523, rs2295499, rs13107325, rs2726491, rs2726513, rs36033, rs34316, rs1145123, rs4463213, rs179994, rs6456379, rs6903716, rs6928545, rs1906252, rs3823036, rs9384679, rs287879, rs11972637, rs4731365, rs1043595, rs13253386, rs1473634, rs13278931, rs7814022, rs2721173, rs1699462, rs28620532, rs913264, rs2393967, rs10996430, rs1891273, rs3896224, rs3817334, rs7941785, rs1054442, rs10875914, rs6539284, rs1727307, rs4294650, rs2239647, rs17106817, rs1007934, rs2071407, rs3850610, rs276626, rs4781499, rs12918191, rs12446238, rs7196032, rs4925114, rs17698176, rs11662271, rs6019535, rs909674 und rs4821995. Aktiv wurden nur Lead-SNPs mit publiziertem Z-Score, nicht-palindromischen Basen, exaktem AADR-Allelset und direkter AADR-v66-1240K-Sichtbarkeit. Ausgeschlossen wurden fehlende Marker sowie palindromische oder strandambige Allele, weil diese in Ancient-DNA-Daten nicht sicher genug harmonisiert werden können.
•Vorhanden: Geprüft wurden 366 Registry-Kandidatenzeilen. 81 eindeutige Marker sind im AADR-Kontext sichtbar, aktiv verwendet werden 80. Von den aktiven Markern stammen 23 aus Davies 2018 und 57 aus Savage 2018; alle 80 wurden per rsID gematcht. 237 Kandidaten fehlen in AADR, 49 sind wegen palindromischer oder strandambiger Allele blockiert.
•Gewichtung: Die publizierten Z-Scores werden innerhalb der jeweiligen Quellfamilie normalisiert: Gewicht = Vorzeichen des Z-Scores mal |Z| geteilt durch den Median-|Z| der Quelle, begrenzt auf maximal 2,0. Die 20 gewichtsstärksten Marker bilden zusätzlich die High-Weight-Basis. Alte AADR-0/2-Aufrufe werden als Einzelallel-Halbdosierung behandelt; fehlende Marker werden nicht als Null gezählt. Für ein berechnetes Ergebnis braucht ein Individuum mindestens 25 beobachtete Marker, 25 Prozent Gewichtsbasis, 20 Prozent High-Weight-Basis, mindestens 5 Davies- und 12 Savage-Marker. Für ein limitiertes Ergebnis braucht es mindestens 15 Marker, 15 Prozent Gewichtsbasis, 15 Prozent High-Weight-Basis, mindestens 3 Davies- und 8 Savage-Marker. Darunter, bei fehlender Quellenbalance oder zu wenig High-Weight-Basis, wird blockiert. Im aktuellen Lauf sind 10.635 Profile berechnet, 1.122 limitiert und 5.833 nicht auswertbar. Der Wert ist keine IQ-Schätzung, keine Fähigkeitsdiagnose und keine Aussage über reale individuelle Intelligenz.
PGS
“Genome Wide Association Studies” (GWAS) und „Polygenic Scores“ (PGS) lassen sich nicht trennen. GWAS untersuchen bei tausenden von modernen Probanden die Genome und gleichen sie mit den tatsächlich beobachtbaren Merkmalen ab. GWAS ist also die Studie, mit der genetische Marker gefunden und gewichtet werden. PGS ist das Rechenmodell, mit dem auf Basis von GWAS für einzelne Individuen dann Wahrscheinlichkeiten für das Merkmal errechnet werden.
Auf dieselbe Weise entstehen auch die Effektstärken unserer Methoden „SNP-Score“ und „Streng“. Der Unterschied zu diesen Methoden besteht lediglich darin, dass im PGS-Modus eine höhere Quellenstrenge hergestellt wird. Alle SNPs, die hier verrechnet werden, stammen aus derselben, großen Studie und haben einen gemeinsam kalibrierten Effektwert. Damit ist eine stärkere Konsistenz hergestellt. Der Nachteil ist aber, dass PGS viele sehr schwache Marker nutzen, die zwar für die Gegenwart des 21. Jahrhunderts zutreffen, vor vielen Jahrtausenden aber nicht notwendigerweise denselben Effekt gehabt haben müssen. Aus Gründen von Gendrift und Epistase sind PGS stark auf moderne Populationen feinkalibriert, aber verrauschen oder verzerren oft vergangene Zustände. Während unsere SNP-Scores nur die starken, klar ersichtlichen Marker verwenden, die über Zeit normalerweise nicht ihre Aussagekraft einbüßen, bewegen sich PGS auf einem breiteren aber schwammigeren Untergrund.
Eine Ausnahme ist der „minimale PGS“ der Augenfarbe. Mangels aktueller guter Studien ist hier kein wirklicher PGS zustande gekommen, sondern nur die GWAS-ausgerichtete Auswahl einer Handvoll Marker. Dasselbe gilt für den minimalen PGS der Haarfarbe, der als Vergleichsmodell neben dem großen Tanigawa-PGS beibehalten wurde.
Im Einzelnen sah die Ermittlung der SNP-Scores wie folgt aus:
Haarfarbe (Tanigawa)
Verwendet wird die Haarfarben-PGS-Familie von Tanigawa et al. 2022. Sie enthält getrennte Modelle für schwarze, blonde, braune, dunkelbraune, hellbraune und rote Haarfarbe.
Der Tanigawa-PGS enthält in der aktuellen Laufzeitfassung 6.896 eindeutige aktive Marker und 8.896 aktive Score-Einträge. Nach Kategorien sind aktiv: 691 für schwarz, 2.759 für blond, 1.642 für braun, 2.271 für dunkelbraun, 866 für hellbraun und 667 für rot.
Von den ursprünglich möglichen Kandidaten ist nur der Teil nutzbar, der in der AADR-Datengrundlage direkt beobachtbar und sicher harmonisierbar ist. Besonders viele Kandidaten entfallen, weil sie nicht im AADR-Panel sichtbar sind oder nicht sicher genug gegen die dortigen Allele abgeglichen werden können.
Die Kartenausgabe übernimmt die vorhandenen PGS-Zwischenkategorien nach festen Builder-Schwellen: Rot wird nur klar ausgegeben, wenn Rot-Z mindestens 1,10 erreicht und mindestens 0,35 über Blond-Z und Dunkel-Z liegt. Blond oder Dunkel werden nur klar ausgegeben, wenn der jeweilige Z-Wert mindestens 0,75 erreicht und mindestens 0,30 über den beiden konkurrierenden Achsen liegt. Dunkelblond erscheint, wenn Blond-Z oder Dunkel-Z mindestens -0,15 erreicht, aber keine klare Kategorie dominiert. Die hellere Dunkelblondseite gilt, wenn Blond-Z minus Dunkel-Z plus 0,35 mal max(Hellbraun-Z, -1,0) mindestens 0 ergibt; sonst wird Dunkelblond eher dunkler angezeigt.
Für ein berechnetes Ergebnis braucht ein Individuum mindestens 300 beobachtete Marker, mindestens 3,5 Prozent beobachtete Gewichtsbasis und mindestens 2 Prozent High-Weight-Basis. Für ein limitiertes Ergebnis reichen mindestens 40 Marker, 0,4 Prozent Gewichtsbasis und 0,2 Prozent High-Weight-Basis. Im aktuellen Lauf sind 14.770 Profile berechnet, 1.512 limitiert und 1.308 nicht auswertbar.
Der Tanigawa-PGS ist breit und intern konsistent, aber er ist kein forensisches Haarfarbenurteil für Ancient DNA. Er ist besonders als Vergleichsmodell nützlich. Über sehr lange Zeiträume muss er vorsichtig interpretiert werden, weil viele schwache moderne Effekte in antiken Populationen anders verrauschen oder gewichtet sein können.
Haarfarbe (Morgan)
Verwendet wird Morgan et al. 2018 zur Haarfarbe in der UK Biobank. Dieser Modus ist kein vollwertiger großer PGS, sondern ein kleiner GWAS-ausgerichteter Vergleichsmodus aus direkt beobachteten Markern.
Die Zahl der aktiv nutzbaren Marker ist deutlich kleiner als beim Tanigawa-PGS. Mehrere Marker werden bewusst nicht verwendet, wenn sie nicht unabhängig genug sind, eine unklare Richtung haben oder im kleinen Modell zu schwach beziehungsweise widersprüchlich wirken.
Die Abbildung in AADR ist entsprechend begrenzt: Der Modus nutzt nur die direkt beobachtbaren Marker aus diesem kleinen GWAS-Modell. Im aktuellen Lauf sind 10.886 Profile berechnet, 1.604 limitiert und 5.100 nicht auswertbar.
Gewichtet wird nach der Stärke der GWAS-Assoziation, vorsichtig abgeschwächt, damit einzelne moderne Assoziationen nicht zu hart auf Ancient DNA übertragen werden. Ausgegeben wird Support für blond, dunkel und rot beziehungsweise ein Mischstatus, wenn keine klare Kategorie dominiert.
Die Belastbarkeit ist niedriger als bei einem großen PGS und auch niedriger als bei robusten Einzelmarkern. Der Morgan-Modus ist sinnvoll als unabhängiger Vergleichshinweis, aber nicht als primäre Haarfarbenmethode.
Augenfarbe
Für Augenfarbe gibt es derzeit keinen großen aktiven PGS. Verwendet wird ein kleiner GWAS-Hinweismodus aus Lona-Durazo et al. 2022, Sulem et al. 2007 und einer neueren stratifizierten Kontextquelle, die derzeit nur geprüft und noch nicht vollständig als Score aktiviert ist.
Die aktive Markerzahl ist klein und auf direkt beobachtbare, zeilenklar gerichtete GWAS-Marker begrenzt. Der Modus ist deshalb eher ein minimaler PGS beziehungsweise GWAS-Hinweis als ein echter großer Polygenic Score.
Die AADR-Abbildung reicht für einen Teil der Individuen aus, bleibt aber schmal. Im aktuellen Lauf sind 10.592 Profile berechnet, 1.050 limitiert und 5.947 nicht auswertbar.
Gewichtet wird nach der berichteten GWAS-Wirkung. Ausgegeben wird Blau oder Braun/Dunkel, wenn der Support eindeutig genug ist; ansonsten bleibt das Profil unbekannt oder limitiert.
Die Belastbarkeit ist begrenzt. Augenfarbe wird bereits stark durch wenige Hauptmarker geprägt, vor allem die HERC2/OCA2-Achse. Deshalb ist der SNP-Score hier meist verständlicher und belastbarer als ein kleiner GWAS- oder Minimal-PGS-Modus.
Hautfarbe
Verwendet wird ein moderner Hautfarben-PGS aus der PGS-Catalog/UK-Biobank-Linie, der auf der Selbstauskunft beziehungsweise modernen Hautfarbklassifikation des UK-Biobank-Feldes für Hautfarbe beruht.
Der aktive Haut-PGS enthält 9.330 nutzbare Marker aus 9.342 Kandidaten. Damit ist er sehr breit, aber auch stark modern kalibriert.
Die AADR-Abbildung ist für viele Individuen breit genug, aber nicht für alle. Im aktuellen Lauf sind 11.255 Profile berechnet und 6.335 nicht auswertbar.
Für ein Ergebnis braucht ein Individuum mindestens 2.500 beobachtete Marker, mindestens 25 Prozent beobachtete Gewichtsbasis und mindestens 20 Prozent High-Weight-Basis. Fehlende Marker werden nicht als Null gezählt.
Die Belastbarkeit über längere Zeiträume ist begrenzt, weil das Modell auf moderner Hautfarbklassifikation beruht. Es ist kein Fitzpatrick-Wert, kein Ethnie- oder Race-Label und keine sichere individuelle Hautfarbdiagnose, sondern nur ein ergänzender PGS-Kontext.
Körpergröße
Verwendet wird der europäische Körpergrößen-PGS aus der GIANT/Yengo-2022-Linie.
Aus 564.777 harmonisierbaren Kandidaten werden die 10.000 Marker mit der höchsten absoluten Gewichtung verwendet. Die vollständige Markerbasis ist also sehr groß, die öffentliche Auswertung arbeitet aber mit einem begrenzten, besonders gewichtsstarken Ausschnitt.
Die AADR-Abbildung ist für viele Individuen breit genug, aber nicht für alle. Im aktuellen Lauf sind 11.555 Profile berechnet und 6.035 nicht auswertbar.
Für ein Ergebnis braucht ein Individuum mindestens 2.500 beobachtete Marker, mindestens 25 Prozent beobachtete Gewichtsbasis und mindestens 20 Prozent High-Weight-Basis. Der Wert ist ein relativer genetischer Höhenindex und keine Zentimeterprognose.
Die Belastbarkeit ist für grobe Gruppen- und Vergleichsfragen höher als bei sehr kleinen Scores, aber Körpergröße ist stark polygen und stark von Umwelt, Ernährung, Krankheit und Lebensbedingungen beeinflusst. Über lange Zeiträume darf der PGS deshalb nicht als reale Körpergröße einzelner Individuen gelesen werden.
Intelligenz
Verwendet wird ein moderner PGS für Fluid Intelligence aus der UK-Biobank/PGS-Catalog-Linie.
Aus 505.274 harmonisierbaren Kandidaten werden die 10.000 Marker mit höchster absoluter Gewichtung verwendet. Der Score ist damit deutlich breiter als der direkte Davies/Savage-SNP-Score, aber auch stärker modern kalibriert.
Die AADR-Abbildung ist für viele Individuen breit genug, aber nicht für alle. Im aktuellen Lauf sind 11.465 Profile berechnet und 6.125 nicht auswertbar.
Für ein Ergebnis braucht ein Individuum mindestens 2.500 beobachtete Marker, mindestens 25 Prozent beobachtete Gewichtsbasis und mindestens 20 Prozent High-Weight-Basis. Fehlende Marker werden nicht als Null gezählt.
Die Belastbarkeit ist besonders vorsichtig zu bewerten. Der PGS ist kein IQ-Wert, keine Fähigkeitsdiagnose, keine Bildungsjahres-Schätzung und keine Aussage über reale individuelle Intelligenz. Er kann höchstens als relativer genetischer Vergleichsindex dienen, der über lange Zeiträume und bei Ancient-DNA-Missingness stark eingeschränkt ist.
HIrisPlex-S
HIrisPlex-S ist ein Vorhersagemodell, das aus der Forensik stammt und meist rund 40 SNPs für Pigmentierung moderner Populationen nutzt. Seine Schwächen bestehen vor allem darin, dass er nicht auf europäische Genvarianten zugeschnitten, sondern explizit für globale, breite Anwendbarkeit justiert wurde, sowie seine starke Kalibrierung auf die Gegenwart. In vergangenen Zeitstufen erzeugt HIrisPlex-S daher oft unsinnige oder verrauschte Ergebnisse.
Quellenmäßig beruht die hier genutzte Hautfarbenansicht auf der Walsh-Linie der globalen Hautfarbvorhersage und dem daraus entwickelten HIrisPlex-S-System, das von der Erasmus-MC-Gruppe um Susan Walsh, Manfred Kayser und Kolleginnen und Kollegen forensisch validiert wurde. GeoGens verwendet daraus nicht die volle moderne forensische Wahrscheinlichkeitskalibrierung, sondern einen direkten Markerindex: Es werden nur tatsächlich beobachtete, eindeutig harmonisierte SNPs gezählt, und fehlende Marker werden nicht ersetzt.
Aktiv verwendet wird die Hautfarbenkomponente des HIrisPlex-S/Walsh-Modells mit fünf Zielrichtungen: deutlich blasser, blasser, mittelhell, gebräunter und deutlich gebräunter. Das Ergebnis ist ein Pigmentierungsindex, keine forensische Individualdiagnose und keine moderne Wahrscheinlichkeitsausgabe.
Das Modell umfasst 36 angefragte Hautpigmentierungsmarker. Davon sind 29 in der aktuellen AADR-Datengrundlage sichtbar und aktiv harmonisiert; 7 weitere gewünschte Modellmarker sind in dieser Grundlage derzeit nicht direkt beobachtbar. Zu den Kernmarkern gehören unter anderem SLC24A5 rs1426654, SLC45A2 rs16891982, IRF4 rs12203592, OCA2 rs1800414 und rs1800407, HERC2/OCA2 rs12913832, HERC2 rs1129038 und rs1667394, ASIP rs6119471 sowie MC1R rs1805008.
Die übrigen aktiven Marker ergänzen diese Achsen über weitere MC1R-, TYR-, SLC24A4-, OCA2-, HERC2-, KITLG-, ASIP/PIGU-, RALY-, DEF8-, TYRP1-, ANKRD11- und BNC2-Signale. Im aktuellen Lauf sind 9.261 Profile berechnet, 2.659 limitiert und 5.670 nicht auswertbar. Von den berechneten oder limitierten Profilen erreichen 8.752 eine moderate Sicherheit; 8.838 bleiben niedrig sicher und werden nicht als robuste Kartenfarbe behandelt.
Die Gewichtung folgt den ordinalen Koeffizienten des Walsh/HIrisPlex-S-Hautmodells. Für normale Marker zählt die zentrierte Dosierung: eine Kopie des Effektallels liegt in der Mitte, zwei Kopien verschieben den Index in Richtung des Koeffizienten, null Kopien in die Gegenrichtung. Bei seltenen MC1R-Varianten wird anders verfahren: Nur direkt beobachtete Effektallelkopien werden gezählt, damit das Fehlen einer seltenen Variante nicht künstlich als Dunkelhinweis wirkt.
Der Rohwert wird auf einen Index von -1 bis +1 begrenzt. Negative Werte zeigen in Richtung blasserer Pigmentierung, positive Werte in Richtung gebräunterer Pigmentierung. Für ein berechnetes Ergebnis braucht ein Individuum mindestens 12 aktive Marker, mindestens 4 Kernmarker, mindestens 45 Prozent Markerabdeckung und mindestens 45 Prozent beobachtete Modellgewichtung. Für ein limitiertes Ergebnis reichen 8 Marker, 2 Kernmarker, 25 Prozent Markerabdeckung und 25 Prozent Gewichtsbasis. Unterhalb dieser Schwellen wird blockiert. Moderate Sicherheit braucht zusätzlich mindestens 18 Marker, 4 Kernmarker, 50 Prozent Markerabdeckung, 50 Prozent Gewichtsbasis und eine Gewinnerkategorie mit mindestens 0,5 Unterstützung.
Über längere Zeitverläufe ist HIrisPlex-S nur begrenzt belastbar. Das Modell wurde für moderne forensische Anwendung entwickelt, nicht für 10.000 Jahre alte Genome mit starker Missingness, anderer Populationsstruktur und möglicher Verschiebung schwacher Effektzusammenhänge. Besonders bei europäischen Altproben kann es deshalb Signale liefern, die als grober Pigmentierungshinweis nützlich sind, aber nicht als sichere Hautfarbdiagnose gelesen werden dürfen.
In GeoGens ist HIrisPlex-S deshalb ausdrücklich ein ergänzender Direktmarkerindex. Die robustere Hautfarbenlogik wird durch den kuratierten SNP-Score und den Streng-Modus abgedeckt. HIrisPlex-S bleibt sichtbar, weil er eine bekannte forensische Referenz darstellt, aber seine Kategorien sind hier nur vorsichtige Pigmentierungsindikatoren.
Stoffwechsel
„Stoffwechsel“ ist ein eher explorativer Modus, der zwei verschiedene SNPs untersucht, die beide in vergangenen Studien mit dem Unterschied zwischen einer eher „jägerischen“ tierkostbasierten Ernährung und einer eher „ackerbäuerlichen“, pflanzenkostbasierten Ernährung in Verbindung gebracht wurden.
Es werden also lediglich diese beiden Gene beobachtet und geprüft, ob beide Pflanzen-Varianten, beide Tier-Varianten oder jeweils eine, also ein Mischtyp vorliegt. Diese Bezeichnungen sind natürlich sehr populärwissenschaftlich, denn tatsächlich geht es um konkrete metabolische Schaltstellen:
Das erste Gen CLTCL1/CHC22 bestimmt, ob der Körper auf hohen Kohlenhydratkonsum eingestellt ist und diese schnell verwerten kann oder ob er den Zucker länger in den Zellen speichert, um auch über Fastenzeiten hinweg den Blutzuckerspiegel aufrechtzuerhalten. Eine schnelle Verfügbarmachung großer Kohlehydratmengen ist bei bäuerlichen Bevölkerungen mutmaßlich adaptiver, während die längere Speicherung eher auf die kohlehydratarbe Ernährung von Jäger- oder Hirtenvölkern zutrifft.
Das zweite Gen FADS1/FADS2 bestimmt, wie intensiv der Körper pflanzliche Fettsäuren in hochwertigere umwandelt, was bei fleisch- und fischreicher Ernährung weniger notwendig ist, wohl aber bei stark pflanzlicher Ernährung.
Im Detail wirken die Gene wie folgt
CLTCL1 codiert CHC22, eine Clathrin-Schwerkettenvariante, die an der Steuerung von GLUT4-haltigen Vesikeln beteiligt ist. GLUT4 ist der zentrale insulinabhängige Glukosetransporter in Muskel- und Fettgewebe. Die hier beobachtete Variante rs1061325 markiert M1316V: T/T entspricht dem ancestral M1316-Profil, C/C dem V1316-Profil. Funktionell wird dieser Bereich mit Unterschieden darin verbunden, wie schnell Glukose nach Insulinsignal aus dem Blut in Zellen aufgenommen beziehungsweise in zellulären Speichern zurückgehalten wird.
Allgemeinverständlich gesagt: Die C-Variante wird hier als stärker pflanzenkost- oder ackerbäuerlich gerichteter Hinweis gelesen, weil sie in der Literatur häufiger mit Populationen verbunden wurde, die dauerhaft mehr Stärke und Kohlenhydrate nutzten. Die T-Variante wird als stärker tierkost- oder jägerisch gerichteter Hinweis gelesen. Das ist keine Ernährungsdiagnose eines Individuums, sondern ein vorsichtiger populationsgeschichtlicher Marker.
FADS1/FADS2 steuern die Desaturase-Schritte, mit denen der Körper aus pflanzlichen Vorstufen längerkettige mehrfach ungesättigte Fettsäuren herstellen kann. Solche Umwandlungen sind besonders wichtig, wenn hochwertige tierische oder marine Fettsäuren in der Nahrung seltener sind und stärker aus pflanzlichen Vorstufen gebildet werden müssen.
Aktiv wird die FADS-Komponente derzeit durch rs174546 und rs174570 abgebildet. Beide verwenden C als Pflanzenkost-/Farmer-Richtung und T als Tierkost-/Jäger-Richtung und gehen gleichgewichtet in die FADS-Komponente ein. Ein weiterer FADS-Kontextmarker ist dokumentiert, wird aber aktuell nicht gewertet, weil er in der verwendeten Grundlage nicht direkt beobachtbar ist.
In der aktuellen Umsetzung gibt es zwei gleich gewichtete Komponenten: CLTCL1/CHC22 und FADS1/FADS2. CLTCL1 wird über rs1061325 berechnet. FADS wird aus den beobachteten aktiven FADS-Markern rs174546 und rs174570 gebildet; beide Marker gehen mit 0,5 in die FADS-Komponente ein. Jede beobachtete Markerrichtung wird auf eine Skala von -1 bis +1 gebracht: -1 bedeutet Tierkost-Richtung, +1 Pflanzenkost-Richtung, 0 Mischlage.
Wenn beide Komponenten beobachtet sind, wird ihr Mittelwert ausgegeben; wenn nur eine Komponente beobachtet ist, wird ein limitierter Wert aus dieser einen Basis verwendet. Ab +0,35 erscheint Pflanzenkost-Stoffwechsel, bis -0,35 Tierkost-Stoffwechsel, dazwischen Mischtyp. Fehlt jede auswertbare Komponente, bleibt das Individuum unbekannt. Im aktuellen Lauf sind 4.940 Profile Pflanzenkost-Stoffwechsel, 4.315 Tierkost-Stoffwechsel, 3.820 Mischtyp und 4.515 unbekannt. CLTCL1 ist bei 10.105 Profilen beobachtet, FADS bei 12.161 Profilen.