GeoGens

Über

MethodenAusklappen

SNP-Score

Die Methode „SNP-Score“ wird vor allem für komplexe Merkmale verwendet (Haarfarbe, Hautfarbe usw.). Denn diese werden von vielen verschiedenen Genen gesteuert.

Wir beobachten hier SNPs („Single Nucleotide Polymorphisms“), das sind die kleinstmöglichen codierenden genetischen Einheiten, die sich immer exakt anhand der vier Nukleinbasen A, T, C, G definieren. Auch größere Genstrukturen haben einen Einfluss, SNPs leisten aber den Hauptbeitrag und sind am einfachsten und eindeutigsten nachverfolgbar.

Unter allen größeren Genen und SNPs gibt es jeweils solche, die stärkeren Einfluss haben und solche, die nur sehr schwach mit dem Merkmal in Zusammenhang stehen. Nach dem Potenzgesetz haben oft die effektstärksten 5-20 SNPs ein stärkeres Gewicht als alle anderen, tausenden effektschwächeren SNPs zusammen, die jeweils nur geringfügig zum Merkmal hinwirken. Im Gegensatz zu PGS werden also hier nicht tausende schwache Signale, sondern gezielt die stärksten bekannten Signale ausgewertet.

Die Vorgehensweise beim SNP-Score war generell folgende:

Es wurden aktuelle Publikationen nach relevanten genetischen Markern durchsucht und deren Effektstärke ermittelt.

Es wurde geprüft, inwieweit die AADR-Datengrundlage diese Marker tatsächlich abbildet. Diejenigen die nicht abgebildet waren, wurden dokumentiert, damit wir später die rohen Genome noch einmal danach durchsuchen können und den SNP-Score somit verbessern können.

Alle Marker des Merkmals, die in der AADR-Datenbasis vorhanden waren wurden die belastbarsten, gut reproduzierten und effektstarken Marker herausgegriffen und je nach Merkmal zu einem Index verrechnet, der die Wahrscheinlichkeit des Merkmals abbildet. Bei der Berechnung wurde auf publitzierte Effektstärken zurückgegriffen, diese möglichst aus übertragbaren Quellen gewählt und solche, die nicht sicher gewichtet werden konnten, wurden ausgeschlossen.

Nicht beobachtete Loci oder zu schwache und widersprüchliche Aussagen wurden blockiert um die Ergebnisse nicht zu beeindträchtigen.

Im Einzelnen sah die Ermittlung der SNP-Scores wie folgt aus:

Haarfarbe

Quellen: Verwendet wurden das HIrisPlex/HIrisPlex-S-Haarmarkerfeld, Guenther et al. 2014 zur funktionellen KITLG-Variante rs12821256, Morgan et al. 2018 und CanPath/Lona-Durazo et al. 2021 für quellengewichtete Haarfarben-Effektgrößen, Zorina-Lichtenwalter et al. 2019 und HIrisPlex/Branicki zur MC1R-Rotblondbasis sowie Sulem et al. 2007 und Wilde et al. 2014 für klassische Pigmentierungs- und Ancient-DNA-Kontexte.

Auswahl: Aktiv gewertet werden 16 Effektzeilen. Blond/Hell: KITLG rs12821256 C, HERC2/OCA2 rs12913832 G, SLC24A4 rs12896399 T, TPCN2 rs3829241 A und rs35264875 T, TYR rs1042602 A und OCA2 rs1800407 T. Rotblond: MC1R rs1805006 A, rs11547464 A, rs1805008 T, rs1805009 C, rs1110400 C und rs1805005 T. Braun/Dunkel: SLC45A2 rs16891982 C, HERC2/OCA2 rs12913832 A und IRF4 rs12203592 T. rs2228479 bleibt als MC1R-Kontext dokumentiert, wird aber nicht aktiv gezählt, weil die verfügbare Quellenzeile in der Masterliste nicht als scoring_allowed freigegeben ist. rs28777 bleibt blockiert, weil es in diesem kleinen Modell nicht unabhängig genug von rs16891982 gezählt werden kann; weitere sichtbare Kontextmarker werden nicht gezählt, wenn Richtung, Unabhängigkeit oder Effektgewicht nicht sicher genug sind.

Vorhanden: Für Haarfarbe wurden 62 Marker geprüft. Davon sind 28 in der AADR-Datengrundlage direkt sichtbar, 34 sind aktuell nicht sichtbar. Aus der Effektallel-Basis gehen 16 sicher gerichtete und quellengewichtet scorebare Effektzeilen aktiv in den Score ein; rs2228479 und rs28777 sind dokumentiert, aber blockiert. Die übrigen sichtbaren Marker bleiben Dokumentations- oder Kontextmarker, bis Richtung und Gewichtung sicher genug sind.

Gewichtung: Pro Locusgruppe wird nur der stärkste beobachtete Kandidat verwendet, damit eng gekoppelte Marker nicht doppelt dasselbe Signal zählen. Die Gewichtung stammt aus der Master-SNP-Liste: Morgan-ORs werden als log(OR) geführt, CanPath-Betas als logOR-nahe Effektgrößen; gezählt wird jeweils abs(effect_size_value) für scoring_allowed-Zeilen. Der jeweilige Teilscore ist die quellengewichtete Zahl beobachteter Effektallelkopien geteilt durch die quellengewichtete beobachtbare Maximalbasis; fehlende Marker werden nicht als Gegenbeweis gezählt. Blond wird ausgegeben, wenn mindestens zwei Hell-Locusgruppen positiv sind, der Blondscore mindestens 0,50 erreicht und die Dunkelkonkurrenz höchstens 0,25 beträgt. Rotblond wird ausgegeben, wenn der Rot-Score mindestens 0,50 erreicht und die MC1R-Basis stark genug ist oder nur geringe Dunkelkonkurrenz vorliegt. Braun/Dunkel braucht positive Dunkelmarker und wird nicht aus fehlender Hellbasis abgeleitet. Schwache oder konkurrierende MC1R-Muster sowie fehlende positive Evidenz werden blockiert. Im aktuellen Lauf sind 1.807 Profile blond, 688 rotblond, 3.084 braun/dunkel, 3.517 dunkelblond eher hell, 3.975 dunkelblond eher dunkel und 4.519 unbekannt.

Augenfarbe

Quellen: Verwendet wird für den SNP-Score ein kleines auditiertes Eye-GWAS-Modell aus Lona-Durazo et al. 2022/CanPath Data S1 und Sulem et al. 2007/GWAS-Catalog. IrisPlex/HIrisPlex-nahe Augenmarker, Chaitanya et al. 2014 und neuere Kontextbefunde aus Abbatangelo, Lona-Durazo, Edwards & Parra 2026 bleiben Review- und Rohsignal-Kontext, wenn Effektallel, Richtung oder Anwendung auf ein unstratifiziertes Scoremodell nicht sauber genug sind.

Auswahl: Aktiv im SNP-Score sind 5 GWAS-Effektzeilen auf 4 eindeutigen SNPs: HERC2/OCA2 rs12913832 G als zentrale Blauachse und rs12913832 A als zentrale Braun/Dunkel-Gegenachse; IRF4 rs12203592 T, SLC24A4 rs12896399 T und TYR rs1393350 A als zusätzliche Blau-/Hellmarker. rs1129038, rs1800407 und rs16891982 werden für Score und Streng nicht verwendet; rs1800407 erzeugt auch kein direktes Grün/Gemischt-Rohsignal. Grün/Gemischt ist keine eigene Markerachse, sondern entsteht als Rest- beziehungsweise Konfliktkategorie aus konkurrierender Blau- und Braun/Dunkel-Evidenz.

Vorhanden: Für Augenfarbe wurden 15 Marker geprüft, und alle 15 sind in der AADR-Datengrundlage sichtbar. Aktiv im Score gewertet werden daraus 5 GWAS-Effektzeilen auf 4 eindeutigen SNPs. Weitere sichtbare Effektzeilen bleiben dokumentiert, werden aber wegen Proxy-Charakter, Haplotyp-Kontext, stratifiziertem Kontext, richtungsunsicherer Kandidatur oder fehlender sauberer GWAS-Scorebasis nicht direkt in den Score aufgenommen.

Gewichtung: Beta-Zeilen werden mit abs(beta) mal Safety-Factor 0,7 gewichtet; OR-Zeilen werden mit abs(log(OR)) mal Safety-Factor 0,7 gewichtet. Dadurch zählen rs12913832 G und A jeweils mit 0,885115, rs1393350 A mit 0,29309723, rs12203592 T mit 0,115157 und rs12896399 T mit 0,0844564. Pro Locusgruppe wird nur der stärkste beobachtete Beitrag verwendet. Blau wird ausgegeben, wenn rs12913832 G/G bei Braunwert unter 0,45 vorliegt oder die Blauachse mit Zusatzloci einen Blauwert ab 0,55 erreicht. Braun/Dunkel wird ausgegeben, wenn rs12913832 A/A ohne starke Blau- oder Konfliktkonkurrenz vorliegt oder die Braunachse mindestens 0,50 erreicht. Grün/Gemischt wird ausgegeben, wenn konkurrierende oder zu schmale GWAS-Hinweise keine robuste Blau- oder Braun/Dunkelentscheidung tragen; der Green/Mixed-Wert ist dabei ein abgeleiteter Konfliktwert ohne direkte Marker-Evidence. Fehlt eine ausreichende positive Augenfarbenbasis, wird blockiert. Im aktuellen Lauf sind 4.324 Profile blau, 6.438 braun/dunkel, 880 grün/gemischt und 5.948 unbekannt.

Hautfarbe

Quellen: Verwendet wurden vor Liu et al. 2015 zu direkter europäischer Hautfarbvariation und Jacobs et al. 2013 zu quantitativen Hautfarbachsen.

Auswahl: Aktiv sind 6 Marker: HERC2/OCA2 rs12913832 A als dunkler Ankermarker mit R2 5,376 und Gewicht 1,0; IRF4 rs12203592 T als heller Ankermarker mit R2 3,627 und Gewicht 0,82138; TYR rs1393350 A als heller Liu-Marker mit R2 0,573 und Gewicht 0,326473; OCA2 rs7495174 G als dunkler Jacobs-SD-Marker mit partiellem R2 0,48 und Gewicht 0,298807; ASIP rs4911442 G als heller Jacobs-Sättigungsmarker mit partiellem R2 0,35 und Gewicht 0,255155; SLC24A4 rs17128291 G als heller Liu-Marker mit R2 0,241 und Gewicht 0,211728. Nicht aktiv sind unter anderem rs1805007, rs1805008, rs376397, rs16891982, rs10756819, rs1540771, rs4911414, rs17426596, rs1800407, rs6742078, rs12896399, rs12821256, rs1408799, rs35264875, rs1426654, rs2675345, rs2470102, rs11637235, rs8028919 und rs6602666, weil sie fehlen, auf einer anderen Achse liegen, nicht auf die aktuelle R2-Skala übertragen sind, nicht ausreichend harmonisiert sind oder in dieser Runde nur Review-Kontext bleiben.

Vorhanden: In der geprüften Hautmarkerbasis sind 30 Registry-Zeilen dokumentiert. 6 Marker sind aktiv sichtbar und werden direkt verwendet. 4 gewünschte direkte Marker fehlen im AADR-1240K-Panel (rs183671, rs4268748, rs6059655 und rs2924567). 20 weitere Hautzeilen sind sichtbar oder dokumentiert, aber derzeit nicht aktiv scorebar, weil sie nicht für diesen Score freigegeben sind oder ihre Achse, Richtung beziehungsweise Effektgrößenskala nicht sicher genug passt.

Gewichtung: Die Gewichtung folgt dem erklärten Anteil am Pigmentierungsunterschied: R2- und partielle-R2-Werte werden über die Quadratwurzel skaliert und auf rs12913832 als Gewicht 1,0 normiert. Hellere Richtung wird auf der Skala negativ, dunklere Richtung positiv abgebildet. Alte AADR-0/2-Aufrufe werden als Einzelallel-Halbdosierung behandelt; fehlende Marker werden aus Zähler und Nenner ausgelassen. Für ein berechnetes Ergebnis braucht ein Individuum mindestens 3 beobachtete Marker, mindestens einen Ankermarker und mindestens 45 Prozent der aktiven Gewichtsbasis. Für ein limitiertes Ergebnis reichen mindestens 2 Marker, ein Ankermarker und 25 Prozent Gewichtsbasis. Darunter wird blockiert. Werte bis -0,55 gelten als deutlich blasser, bis -0,2 als blasser, unter 0,25 als mittelhell, unter 0,6 als gebräunter und darüber als deutlich gebräunter. Diese Angaben sind Pigmentierungsindikatoren, keine Fitzpatrick-Klassen und keine Ethnie- oder Race-Labels. Im aktuellen Lauf sind 10.203 Profile berechnet, 1.059 limitiert und 6.328 nicht auswertbar.

Körpergröße

Quellen: Verwendet wurden große Körpergrößen-GWAS, insbesondere Yengo et al. 2022 aus der GIANT-Linie, Marouli et al. 2017 zu seltenen und niedrigfrequenten Höhenvarianten sowie ein zusätzlicher aktuell geprüfter Hawkes-2026-Höhenmarker. Aus diesen Quellen wurde eine kuratierte Top-500-Auswahl besonders effektstarker und direkt prüfbarer Marker gebildet.

Auswahl: Aktiv sichtbar sind 102 Marker: rs16942341, rs28929474, rs3791675, rs3791679, rs6457821, rs8024016, rs2780226, rs12082656, rs78247455, rs56088284, rs16895917, rs1776897, rs11205735, rs9462076, rs9470004, rs143384, rs1812175, rs724016, rs16874062, rs7206999, rs1150781, rs8018258, rs7689420, rs17195446, rs7209435, rs724743, rs1344672, rs6440003, rs6764769, rs6763931, rs6449353, rs36112366, rs9469821, rs12902421, rs473902, rs9846396, rs224333, rs514375, rs7172362, rs3751599, rs6915007, rs13102976, rs2517490, rs13144223, rs4308051, rs4239436, rs2575580, rs11111147, rs12426944, rs2292303, rs4369779, rs2639583, rs11740580, rs10218771, rs6830062, rs13273123, rs7571816, rs7684221, rs16896068, rs16896261, rs16896210, rs1173721, rs6940863, rs13376429, rs2311767, rs1173745, rs6060402, rs6060373, rs6088791, rs6060369, rs7833986, rs41274586, rs6088813, rs4911494, rs6087705, rs6785073, rs35397, rs78110303, rs7235010, rs6767899, rs1406948, rs7460090, rs1265083, rs4800452, rs9650315, rs3757334, rs7672919, rs6817306, rs4800148, rs6728302, rs749052, rs16895895, rs1173731, rs2517509, rs7742369, rs3116162, rs1759645, rs16895877, rs16859517, rs8179, rs7678436 und rs6854334. Die Auswahl begründet sich jeweils durch publizierte standardisierte Effektgröße, direkte AADR-Sichtbarkeit, passende Allelsets und keine LD-Proxy-Verwendung. Ausgeschlossen wurden Marker, die im AADR-Panel fehlen oder wegen fehlender Positionsbasis nicht sicher abgeglichen werden können.

Vorhanden: Von 500 angefragten Körpergrößenmarkern sind 102 aktiv sichtbar und harmonisiert. Davon stammen 74 aus Yengo 2022, 27 aus Marouli 2017 und 1 aus Hawkes 2026. 101 Marker wurden per rsID, 1 per Koordinate/Allelset gematcht. 396 angefragte Marker fehlen in der AADR-Datengrundlage, 2 weitere scheitern an fehlender Positionsbasis für einen sicheren Abgleich. Es werden keine aktiven Proxys verwendet.

Gewichtung: Gewichtet wird mit den publizierten standardisierten Effektgrößen pro Effektallel. Der Rohscore ist die beobachtete Effektlast geteilt durch die beobachtete absolute Effektkapazität; fehlende Marker werden nicht als Null gezählt, sondern aus Zähler und Nenner herausgelassen. Ein positiver Wert bedeutet relativ mehr höhenerhöhende Effektlast innerhalb der beobachteten Markerbasis, ein negativer Wert relativ mehr höhenmindernde Effektlast. Für ein berechnetes Ergebnis braucht ein Individuum mindestens 5 beobachtete Marker und 42 Prozent beobachtete Gewichtsbasis. Für ein limitiertes Ergebnis braucht es mindestens 3 Marker und 25 Prozent Gewichtsbasis. Darunter oder bei nicht endlichem Index wird blockiert. Im aktuellen Lauf sind 10.424 Profile berechnet, 1.656 limitiert und 5.510 nicht auswertbar. Der Wert ist ein relativer genetischer Höhenindex, keine Zentimeterprognose.

Intelligenz

Quellen: Verwendet wurden die großen GWAS zu allgemeiner kognitiver Funktion und Intelligenz von Davies et al. 2018 und Savage et al. 2018. Der Score ist ausdrücklich kein IQ-Modell, kein Educational-Attainment-Proxy und kein PGS, sondern ein relativer Index aus direkt beobachtbaren GWAS-Lead-SNPs.

Auswahl: Aktiv verwendet werden 80 Marker: rs1343775, rs6668048, rs516902, rs11804556, rs1144593, rs7365380, rs199928, rs527825, rs10779271, rs12470949, rs12713315, rs889956, rs58593843, rs10189857, rs7599488, rs7583067, rs2558096, rs10192369, rs2268894, rs2284871, rs3749034, rs13096357, rs2352974, rs1540293, rs4485754, rs11720523, rs2295499, rs13107325, rs2726491, rs2726513, rs36033, rs34316, rs1145123, rs4463213, rs179994, rs6456379, rs6903716, rs6928545, rs1906252, rs3823036, rs9384679, rs287879, rs11972637, rs4731365, rs1043595, rs13253386, rs1473634, rs13278931, rs7814022, rs2721173, rs1699462, rs28620532, rs913264, rs2393967, rs10996430, rs1891273, rs3896224, rs3817334, rs7941785, rs1054442, rs10875914, rs6539284, rs1727307, rs4294650, rs2239647, rs17106817, rs1007934, rs2071407, rs3850610, rs276626, rs4781499, rs12918191, rs12446238, rs7196032, rs4925114, rs17698176, rs11662271, rs6019535, rs909674 und rs4821995. Aktiv wurden nur Lead-SNPs mit publiziertem Z-Score, nicht-palindromischen Basen, exaktem AADR-Allelset und direkter AADR-v66-1240K-Sichtbarkeit. Ausgeschlossen wurden fehlende Marker sowie palindromische oder strandambige Allele, weil diese in Ancient-DNA-Daten nicht sicher genug harmonisiert werden können.

Vorhanden: Geprüft wurden 366 Registry-Kandidatenzeilen. 81 eindeutige Marker sind im AADR-Kontext sichtbar, aktiv verwendet werden 80. Von den aktiven Markern stammen 23 aus Davies 2018 und 57 aus Savage 2018; alle 80 wurden per rsID gematcht. 237 Kandidaten fehlen in AADR, 49 sind wegen palindromischer oder strandambiger Allele blockiert.

Gewichtung: Die publizierten Z-Scores werden innerhalb der jeweiligen Quellfamilie normalisiert: Gewicht = Vorzeichen des Z-Scores mal |Z| geteilt durch den Median-|Z| der Quelle, begrenzt auf maximal 2,0. Die 20 gewichtsstärksten Marker bilden zusätzlich die High-Weight-Basis. Alte AADR-0/2-Aufrufe werden als Einzelallel-Halbdosierung behandelt; fehlende Marker werden nicht als Null gezählt. Für ein berechnetes Ergebnis braucht ein Individuum mindestens 25 beobachtete Marker, 25 Prozent Gewichtsbasis, 20 Prozent High-Weight-Basis, mindestens 5 Davies- und 12 Savage-Marker. Für ein limitiertes Ergebnis braucht es mindestens 15 Marker, 15 Prozent Gewichtsbasis, 15 Prozent High-Weight-Basis, mindestens 3 Davies- und 8 Savage-Marker. Darunter, bei fehlender Quellenbalance oder zu wenig High-Weight-Basis, wird blockiert. Im aktuellen Lauf sind 10.635 Profile berechnet, 1.122 limitiert und 5.833 nicht auswertbar. Der Wert ist keine IQ-Schätzung, keine Fähigkeitsdiagnose und keine Aussage über reale individuelle Intelligenz.

Streng

Während die Methode „SNP-Score“ eher explorativ ist, und versucht einen Kompromiss zwischen Eindeutigkeit und Verwertbarkeit zu finden, ist der „Streng“-Modus der eigentlich belastbare. Er funktioniert im Wesentlichen wie der SNP-Score und baut direkt auf ihm auf, verschärft aber erheblich die Schwellen für Vorhersagen und erfordert gut beobachtbare Loci. Außerdem wird im Falle von Pigmentation bei positiver Evidenz für dunkle Pigmentation und gleichzeitig fehlender Evidenz für helle Pigmentation eher zugunsten der dunklen entschieden.

Die Vorgehensweise beim SNP-Score war also im Wesentlichen folgende:

Es wurde der jeweiligen SNP-Score als Datengrundlage verwendet.

Es wurde eine starke Verschärfung aller Abdeckungsminima und Ergebnishürden eingeführt, um nur sehr verlässliche Signale auszugeben.

Im Einzelnen sah die Ermittlung der SNP-Scores wie folgt aus:

Haarfarbe

Beim Haar-Streng-Modus bleibt die quellengewichtete Markerbasis dieselbe wie beim Haar-SNP-Score, aber die Ergebnisfreigabe wird enger. Robust blond bleibt nur möglich, wenn mindestens zwei Hell-Locusgruppen positiv sind, der Blondscore mindestens 0,50 erreicht und die Dunkelkonkurrenz höchstens 0,25 beträgt. Robust rotblond braucht einen Rot-Score von mindestens 0,50 und eine ausreichend starke MC1R-Basis. Braun/Dunkel braucht positive Dunkelmarker mit mindestens 0,50; bei konkurrierender Hellbasis muss Dunkel mindestens 0,25 über dem Blondscore liegen. Positive Dunkelmarker werden außerdem blockiert, wenn zu wenige Hell-Locusgruppen beobachtbar sind, weil dann nicht sicher genug ausgeschlossen werden kann, dass die Helligkeitsbasis nur fehlt. Im aktuellen Lauf sind 1.807 Profile blond, 688 rotblond, 4.478 braun/dunkel, 1.957 dunkelblond eher dunkel, 2.982 dunkelblond eher hell und 5.678 unbekannt.

Augenfarbe

Beim Augen-Streng-Modus bleibt die GWAS-basierte Markerbasis dieselbe wie beim Augen-SNP-Score, aber proxyhafte und widersprüchliche Profile werden stärker blockiert. Blau braucht rs12913832 G/G, mindestens zwei positive Blau-Loci, einen Blauwert von mindestens 0,50 und Braun-Konkurrenz unter 0,35. Braun/Dunkel braucht rs12913832 A/A, einen Braun/Dunkel-Wert von mindestens 0,50 und sowohl Blau- als auch Konfliktkonkurrenz unter 0,35. Grün/Gemischt wird nur freigegeben, wenn Blau und Braun/Dunkel klar konkurrieren; direkte Intermediate-Marker tragen keinen eigenen Mixedwert. Im aktuellen Lauf sind 1.696 Profile blau, 6.155 braun/dunkel, 372 grün/gemischt und 9.367 unbekannt.

Hautfarbe

Beim Haut-Streng-Modus bleibt die Markerbasis dieselbe wie beim Haut-SNP-Score. Zusätzlich werden alle niedrigen Konfidenzen, gemischten Dosierungsmodi, fehlende Qualitätsangaben und zu niedrige Abdeckung blockiert. Die normale Mindestbasis bleibt weiterhin nötig: mindestens 2 Marker, ein Ankermarker und 25 Prozent Gewichtsbasis für ein limitiertes Ergebnis; mindestens 3 Marker, ein Ankermarker und 45 Prozent Gewichtsbasis für ein berechnetes Ergebnis. Streng gibt Werte aber nur frei, wenn diese Basis auch qualitativ sauber genug ist. Im aktuellen Lauf sind 4.972 Profile berechnet und 12.618 blockiert.

Körpergröße

Beim Körpergrößen-Streng-Modus wird ausschließlich der direkte Körpergrößen-SNP-Score verwendet. Freigegeben wird nur ein bereits berechneter SNP-Score mit moderater Konfidenz, mindestens 50 Prozent Markerabdeckung, mindestens 70 Prozent beobachteter Gewichtsbasis und ohne gemischte oder fehlende Dosierungsmodi. Es wird kein PGS hinzugezogen und es gibt weiterhin keine Zentimeterprognose. Im aktuellen Lauf sind 5.340 Profile berechnet und 12.250 blockiert.

Intelligenz

Beim Intelligenz-Streng-Modus wird ausschließlich der Davies/Savage-Lead-SNP-Score verwendet. Freigegeben wird nur ein bereits berechneter SNP-Score mit moderater Konfidenz, mindestens 40 Prozent Markerabdeckung, mindestens 40 Prozent beobachteter Gewichtsbasis, mindestens 35 Prozent High-Weight-Basis, mindestens 5 Davies- und 12 Savage-Markern sowie ohne gemischte oder fehlende Dosierung. PGS-Werte, Educational-Attainment-Proxies und Imputation werden nicht verwendet. Im aktuellen Lauf sind 9.169 Profile berechnet und 8.421 blockiert.

PGS

“Genome Wide Association Studies” (GWAS) und „Polygenic Scores“ (PGS) lassen sich nicht trennen. GWAS untersuchen bei tausenden von modernen Probanden die Genome und gleichen sie mit den tatsächlich beobachtbaren Merkmalen ab. GWAS ist also die Studie, mit der genetische Marker gefunden und gewichtet werden. PGS ist das Rechenmodell, mit dem auf Basis von GWAS für einzelne Individuen dann Wahrscheinlichkeiten für das Merkmal errechnet werden.

Auf dieselbe Weise entstehen auch die Effektstärken unserer Methoden „SNP-Score“ und „Streng“. Der Unterschied zu diesen Methoden besteht lediglich darin, dass im PGS-Modus eine höhere Quellenstrenge hergestellt wird. Alle SNPs, die hier verrechnet werden, stammen aus derselben, großen Studie und haben einen gemeinsam kalibrierten Effektwert. Damit ist eine stärkere Konsistenz hergestellt. Der Nachteil ist aber, dass PGS viele sehr schwache Marker nutzen, die zwar für die Gegenwart des 21. Jahrhunderts zutreffen, vor vielen Jahrtausenden aber nicht notwendigerweise denselben Effekt gehabt haben müssen. Aus Gründen von Gendrift und Epistase sind PGS stark auf moderne Populationen feinkalibriert, aber verrauschen oder verzerren oft vergangene Zustände. Während unsere SNP-Scores nur die starken, klar ersichtlichen Marker verwenden, die über Zeit normalerweise nicht ihre Aussagekraft einbüßen, bewegen sich PGS auf einem breiteren aber schwammigeren Untergrund.

Eine Ausnahme ist der „minimale PGS“ der Augenfarbe. Mangels aktueller guter Studien ist hier kein wirklicher PGS zustande gekommen, sondern nur die GWAS-ausgerichtete Auswahl einer Handvoll Marker. Dasselbe gilt für den minimalen PGS der Haarfarbe, der als Vergleichsmodell neben dem großen Tanigawa-PGS beibehalten wurde.

Im Einzelnen sah die Ermittlung der SNP-Scores wie folgt aus:

Haarfarbe (Tanigawa)

Verwendet wird die Haarfarben-PGS-Familie von Tanigawa et al. 2022. Sie enthält getrennte Modelle für schwarze, blonde, braune, dunkelbraune, hellbraune und rote Haarfarbe.

Der Tanigawa-PGS enthält in der aktuellen Laufzeitfassung 6.896 eindeutige aktive Marker und 8.896 aktive Score-Einträge. Nach Kategorien sind aktiv: 691 für schwarz, 2.759 für blond, 1.642 für braun, 2.271 für dunkelbraun, 866 für hellbraun und 667 für rot.

Von den ursprünglich möglichen Kandidaten ist nur der Teil nutzbar, der in der AADR-Datengrundlage direkt beobachtbar und sicher harmonisierbar ist. Besonders viele Kandidaten entfallen, weil sie nicht im AADR-Panel sichtbar sind oder nicht sicher genug gegen die dortigen Allele abgeglichen werden können.

Die Kartenausgabe übernimmt die vorhandenen PGS-Zwischenkategorien nach festen Builder-Schwellen: Rot wird nur klar ausgegeben, wenn Rot-Z mindestens 1,10 erreicht und mindestens 0,35 über Blond-Z und Dunkel-Z liegt. Blond oder Dunkel werden nur klar ausgegeben, wenn der jeweilige Z-Wert mindestens 0,75 erreicht und mindestens 0,30 über den beiden konkurrierenden Achsen liegt. Dunkelblond erscheint, wenn Blond-Z oder Dunkel-Z mindestens -0,15 erreicht, aber keine klare Kategorie dominiert. Die hellere Dunkelblondseite gilt, wenn Blond-Z minus Dunkel-Z plus 0,35 mal max(Hellbraun-Z, -1,0) mindestens 0 ergibt; sonst wird Dunkelblond eher dunkler angezeigt.

Für ein berechnetes Ergebnis braucht ein Individuum mindestens 300 beobachtete Marker, mindestens 3,5 Prozent beobachtete Gewichtsbasis und mindestens 2 Prozent High-Weight-Basis. Für ein limitiertes Ergebnis reichen mindestens 40 Marker, 0,4 Prozent Gewichtsbasis und 0,2 Prozent High-Weight-Basis. Im aktuellen Lauf sind 14.770 Profile berechnet, 1.512 limitiert und 1.308 nicht auswertbar.

Der Tanigawa-PGS ist breit und intern konsistent, aber er ist kein forensisches Haarfarbenurteil für Ancient DNA. Er ist besonders als Vergleichsmodell nützlich. Über sehr lange Zeiträume muss er vorsichtig interpretiert werden, weil viele schwache moderne Effekte in antiken Populationen anders verrauschen oder gewichtet sein können.

Haarfarbe (Morgan)

Verwendet wird Morgan et al. 2018 zur Haarfarbe in der UK Biobank. Dieser Modus ist kein vollwertiger großer PGS, sondern ein kleiner GWAS-ausgerichteter Vergleichsmodus aus direkt beobachteten Markern.

Die Zahl der aktiv nutzbaren Marker ist deutlich kleiner als beim Tanigawa-PGS. Mehrere Marker werden bewusst nicht verwendet, wenn sie nicht unabhängig genug sind, eine unklare Richtung haben oder im kleinen Modell zu schwach beziehungsweise widersprüchlich wirken.

Die Abbildung in AADR ist entsprechend begrenzt: Der Modus nutzt nur die direkt beobachtbaren Marker aus diesem kleinen GWAS-Modell. Im aktuellen Lauf sind 10.886 Profile berechnet, 1.604 limitiert und 5.100 nicht auswertbar.

Gewichtet wird nach der Stärke der GWAS-Assoziation, vorsichtig abgeschwächt, damit einzelne moderne Assoziationen nicht zu hart auf Ancient DNA übertragen werden. Ausgegeben wird Support für blond, dunkel und rot beziehungsweise ein Mischstatus, wenn keine klare Kategorie dominiert.

Die Belastbarkeit ist niedriger als bei einem großen PGS und auch niedriger als bei robusten Einzelmarkern. Der Morgan-Modus ist sinnvoll als unabhängiger Vergleichshinweis, aber nicht als primäre Haarfarbenmethode.

Augenfarbe

Für Augenfarbe gibt es derzeit keinen großen aktiven PGS. Verwendet wird ein kleiner GWAS-Hinweismodus aus Lona-Durazo et al. 2022, Sulem et al. 2007 und einer neueren stratifizierten Kontextquelle, die derzeit nur geprüft und noch nicht vollständig als Score aktiviert ist.

Die aktive Markerzahl ist klein und auf direkt beobachtbare, zeilenklar gerichtete GWAS-Marker begrenzt. Der Modus ist deshalb eher ein minimaler PGS beziehungsweise GWAS-Hinweis als ein echter großer Polygenic Score.

Die AADR-Abbildung reicht für einen Teil der Individuen aus, bleibt aber schmal. Im aktuellen Lauf sind 10.592 Profile berechnet, 1.050 limitiert und 5.947 nicht auswertbar.

Gewichtet wird nach der berichteten GWAS-Wirkung. Ausgegeben wird Blau oder Braun/Dunkel, wenn der Support eindeutig genug ist; ansonsten bleibt das Profil unbekannt oder limitiert.

Die Belastbarkeit ist begrenzt. Augenfarbe wird bereits stark durch wenige Hauptmarker geprägt, vor allem die HERC2/OCA2-Achse. Deshalb ist der SNP-Score hier meist verständlicher und belastbarer als ein kleiner GWAS- oder Minimal-PGS-Modus.

Hautfarbe

Verwendet wird ein moderner Hautfarben-PGS aus der PGS-Catalog/UK-Biobank-Linie, der auf der Selbstauskunft beziehungsweise modernen Hautfarbklassifikation des UK-Biobank-Feldes für Hautfarbe beruht.

Der aktive Haut-PGS enthält 9.330 nutzbare Marker aus 9.342 Kandidaten. Damit ist er sehr breit, aber auch stark modern kalibriert.

Die AADR-Abbildung ist für viele Individuen breit genug, aber nicht für alle. Im aktuellen Lauf sind 11.255 Profile berechnet und 6.335 nicht auswertbar.

Für ein Ergebnis braucht ein Individuum mindestens 2.500 beobachtete Marker, mindestens 25 Prozent beobachtete Gewichtsbasis und mindestens 20 Prozent High-Weight-Basis. Fehlende Marker werden nicht als Null gezählt.

Die Belastbarkeit über längere Zeiträume ist begrenzt, weil das Modell auf moderner Hautfarbklassifikation beruht. Es ist kein Fitzpatrick-Wert, kein Ethnie- oder Race-Label und keine sichere individuelle Hautfarbdiagnose, sondern nur ein ergänzender PGS-Kontext.

Körpergröße

Verwendet wird der europäische Körpergrößen-PGS aus der GIANT/Yengo-2022-Linie.

Aus 564.777 harmonisierbaren Kandidaten werden die 10.000 Marker mit der höchsten absoluten Gewichtung verwendet. Die vollständige Markerbasis ist also sehr groß, die öffentliche Auswertung arbeitet aber mit einem begrenzten, besonders gewichtsstarken Ausschnitt.

Die AADR-Abbildung ist für viele Individuen breit genug, aber nicht für alle. Im aktuellen Lauf sind 11.555 Profile berechnet und 6.035 nicht auswertbar.

Die Belastbarkeit ist für grobe Gruppen- und Vergleichsfragen höher als bei sehr kleinen Scores, aber Körpergröße ist stark polygen und stark von Umwelt, Ernährung, Krankheit und Lebensbedingungen beeinflusst. Über lange Zeiträume darf der PGS deshalb nicht als reale Körpergröße einzelner Individuen gelesen werden.

Intelligenz

Verwendet wird ein moderner PGS für Fluid Intelligence aus der UK-Biobank/PGS-Catalog-Linie.

Aus 505.274 harmonisierbaren Kandidaten werden die 10.000 Marker mit höchster absoluter Gewichtung verwendet. Der Score ist damit deutlich breiter als der direkte Davies/Savage-SNP-Score, aber auch stärker modern kalibriert.

Die AADR-Abbildung ist für viele Individuen breit genug, aber nicht für alle. Im aktuellen Lauf sind 11.465 Profile berechnet und 6.125 nicht auswertbar.

Die Belastbarkeit ist besonders vorsichtig zu bewerten. Der PGS ist kein IQ-Wert, keine Fähigkeitsdiagnose, keine Bildungsjahres-Schätzung und keine Aussage über reale individuelle Intelligenz. Er kann höchstens als relativer genetischer Vergleichsindex dienen, der über lange Zeiträume und bei Ancient-DNA-Missingness stark eingeschränkt ist.

HIrisPlex-S

HIrisPlex-S ist ein Vorhersagemodell, das aus der Forensik stammt und meist rund 40 SNPs für Pigmentierung moderner Populationen nutzt. Seine Schwächen bestehen vor allem darin, dass er nicht auf europäische Genvarianten zugeschnitten, sondern explizit für globale, breite Anwendbarkeit justiert wurde, sowie seine starke Kalibrierung auf die Gegenwart. In vergangenen Zeitstufen erzeugt HIrisPlex-S daher oft unsinnige oder verrauschte Ergebnisse.

Quellenmäßig beruht die hier genutzte Hautfarbenansicht auf der Walsh-Linie der globalen Hautfarbvorhersage und dem daraus entwickelten HIrisPlex-S-System, das von der Erasmus-MC-Gruppe um Susan Walsh, Manfred Kayser und Kolleginnen und Kollegen forensisch validiert wurde. GeoGens verwendet daraus nicht die volle moderne forensische Wahrscheinlichkeitskalibrierung, sondern einen direkten Markerindex: Es werden nur tatsächlich beobachtete, eindeutig harmonisierte SNPs gezählt, und fehlende Marker werden nicht ersetzt.

Aktiv verwendet wird die Hautfarbenkomponente des HIrisPlex-S/Walsh-Modells mit fünf Zielrichtungen: deutlich blasser, blasser, mittelhell, gebräunter und deutlich gebräunter. Das Ergebnis ist ein Pigmentierungsindex, keine forensische Individualdiagnose und keine moderne Wahrscheinlichkeitsausgabe.

Das Modell umfasst 36 angefragte Hautpigmentierungsmarker. Davon sind 29 in der aktuellen AADR-Datengrundlage sichtbar und aktiv harmonisiert; 7 weitere gewünschte Modellmarker sind in dieser Grundlage derzeit nicht direkt beobachtbar. Zu den Kernmarkern gehören unter anderem SLC24A5 rs1426654, SLC45A2 rs16891982, IRF4 rs12203592, OCA2 rs1800414 und rs1800407, HERC2/OCA2 rs12913832, HERC2 rs1129038 und rs1667394, ASIP rs6119471 sowie MC1R rs1805008.

Die übrigen aktiven Marker ergänzen diese Achsen über weitere MC1R-, TYR-, SLC24A4-, OCA2-, HERC2-, KITLG-, ASIP/PIGU-, RALY-, DEF8-, TYRP1-, ANKRD11- und BNC2-Signale. Im aktuellen Lauf sind 9.261 Profile berechnet, 2.659 limitiert und 5.670 nicht auswertbar. Von den berechneten oder limitierten Profilen erreichen 8.752 eine moderate Sicherheit; 8.838 bleiben niedrig sicher und werden nicht als robuste Kartenfarbe behandelt.

Die Gewichtung folgt den ordinalen Koeffizienten des Walsh/HIrisPlex-S-Hautmodells. Für normale Marker zählt die zentrierte Dosierung: eine Kopie des Effektallels liegt in der Mitte, zwei Kopien verschieben den Index in Richtung des Koeffizienten, null Kopien in die Gegenrichtung. Bei seltenen MC1R-Varianten wird anders verfahren: Nur direkt beobachtete Effektallelkopien werden gezählt, damit das Fehlen einer seltenen Variante nicht künstlich als Dunkelhinweis wirkt.

Der Rohwert wird auf einen Index von -1 bis +1 begrenzt. Negative Werte zeigen in Richtung blasserer Pigmentierung, positive Werte in Richtung gebräunterer Pigmentierung. Für ein berechnetes Ergebnis braucht ein Individuum mindestens 12 aktive Marker, mindestens 4 Kernmarker, mindestens 45 Prozent Markerabdeckung und mindestens 45 Prozent beobachtete Modellgewichtung. Für ein limitiertes Ergebnis reichen 8 Marker, 2 Kernmarker, 25 Prozent Markerabdeckung und 25 Prozent Gewichtsbasis. Unterhalb dieser Schwellen wird blockiert. Moderate Sicherheit braucht zusätzlich mindestens 18 Marker, 4 Kernmarker, 50 Prozent Markerabdeckung, 50 Prozent Gewichtsbasis und eine Gewinnerkategorie mit mindestens 0,5 Unterstützung.

Über längere Zeitverläufe ist HIrisPlex-S nur begrenzt belastbar. Das Modell wurde für moderne forensische Anwendung entwickelt, nicht für 10.000 Jahre alte Genome mit starker Missingness, anderer Populationsstruktur und möglicher Verschiebung schwacher Effektzusammenhänge. Besonders bei europäischen Altproben kann es deshalb Signale liefern, die als grober Pigmentierungshinweis nützlich sind, aber nicht als sichere Hautfarbdiagnose gelesen werden dürfen.

In GeoGens ist HIrisPlex-S deshalb ausdrücklich ein ergänzender Direktmarkerindex. Die robustere Hautfarbenlogik wird durch den kuratierten SNP-Score und den Streng-Modus abgedeckt. HIrisPlex-S bleibt sichtbar, weil er eine bekannte forensische Referenz darstellt, aber seine Kategorien sind hier nur vorsichtige Pigmentierungsindikatoren.

Helle Komplexion

Der Modus „Helle Komplexion“ beruht auf der interessanten Beobachtung, dass helle Haare und helle Augen in der Gegenwart sehr stark miteinander korreliert sind. Die offensichtliche Frage, ob das bei vergangenen Völkern ebenso der Fall gewesen ist, konnte natürlich hier sehr leicht getestet werden. Sie hat sich erstaunlich fest bejaht. Die Korrelation zwischen blonden Haaren und blauen Augen ist nicht nur durchweg hoch und konstant, sie wird sogar geringfügig größer, je weiter man in der Zeit zurückblicken kann.

Der Kartenmodus erlaubt also die Beobachtung dieses Zusammenhangs, der als „helle Komplexion“ der Anthropologie schon lange bekannt war. Möglicherweise ist damit eine Rückverfolgung des typischen „nordischen Phänotyps“ möglich. Es zeigte sich, dass auch blasse Hautfarbe erheblich mit der hellen Komplexion korreliert ist, weswegen in einem weiteren Schritt die Auswahlmöglichkeit auf eine Dreifachkonstellation erweitert wurde. Helle Komplexion im weiteren Sinne kann also bedeuten:

blonde Haare x blaue Augen

blonde Haare x blasse Haut

blaue Augen x blasse Haut

blonde Haare x blaue Augen x blasse Haut

Alle Kombinationen ähneln sich, was erneut bedeutet, dass wir es hier mit einem alten, signifikanten populationsgenetischen Zusammenhang zu tun haben.

Die Berechnung der hellen Komplexion ist dabei denkbar einfach. Es werden die „Streng“-Modi von Haarfarbe, Augenfarbe und Hautfarbe herangezogen und gleichmäßig miteinander verrechnet.

Aktiv gibt es vier Komponentenmodi: Haare x Augen, Haare x Haut, Augen x Haut und Alle 3 Merkmale. Für Haare wird der Blondwert aus dem Haar-Strengprofil verwendet, für Augen der Blauwert aus dem Augen-Strengprofil und für Haut der blassere Wert aus dem Haut-Strengprofil. Jeder dieser Einzelwerte liegt zwischen 0 und 1. Fehlende Komponenten werden nicht als dunkel oder niedrig gezählt, sondern blockieren die jeweilige Kombination.

Sind alle benötigten Komponenten vorhanden, wird ihr Durchschnitt gebildet. Dieser Durchschnitt von 0 bis 1 wird anschließend auf die Kartenachse -1 bis +1 übertragen: 0 wird zu -1, 0,5 wird zu 0, 1 wird zu +1. Dadurch bedeutet ein hoher positiver Wert eine starke helle Komplexion, ein Wert um 0 eine mittlere oder teilweise helle Komplexion und ein negativer Wert eine niedrige helle Komplexion. Im Stufenmodus gilt: ab +0,5 sehr hell, ab 0 hell, ab -0,5 dunkler und darunter dunkel. Die Farben folgen derselben Logik: Grün steht für niedrige helle Komplexion, Gelb für teilweise helle Komplexion, Orange für stärkere helle Komplexion, Rot für hohe helle Komplexion und Grau für fehlende Komponentenbasis.

Milchverträglichkeit

Lebenslange Milchzuckerverträglichkeit ist heute in der Welt selten und beinahe nur auf (Nord-)Europäer beschränkt. In der Vergangenheit war diese Eigenschaft noch viel seltener und in der Altsteinzeit quasi nicht vorhanden. Sie wurde im Laufe der Zeit erworben und die Durchsetzung dieser vorteilhaften Mutation lässt sich sehr gut beobachten, denn sie ist bei Europäern auf einen einzigen SNP-Marker beschränkt: rs4988235. Liegt hier monozygot A/A vor, besteht Laktosetoleranz, liegt G/G vor, nicht. Die Aufgabe bestand also lediglich darin, den Marker bei allen Individuen zu prüfen, nicht beobachtbare auszublenden und eine gleichmäßige Karteneinfärbung zu gewährleisten.

Stoffwechsel

„Stoffwechsel“ ist ein eher explorativer Modus, der zwei verschiedene SNPs untersucht, die beide in vergangenen Studien mit dem Unterschied zwischen einer eher „jägerischen“ tierkostbasierten Ernährung und einer eher „ackerbäuerlichen“, pflanzenkostbasierten Ernährung in Verbindung gebracht wurden.

Es werden also lediglich diese beiden Gene beobachtet und geprüft, ob beide Pflanzen-Varianten, beide Tier-Varianten oder jeweils eine, also ein Mischtyp vorliegt. Diese Bezeichnungen sind natürlich sehr populärwissenschaftlich, denn tatsächlich geht es um konkrete metabolische Schaltstellen:

Das erste Gen CLTCL1/CHC22 bestimmt, ob der Körper auf hohen Kohlenhydratkonsum eingestellt ist und diese schnell verwerten kann oder ob er den Zucker länger in den Zellen speichert, um auch über Fastenzeiten hinweg den Blutzuckerspiegel aufrechtzuerhalten. Eine schnelle Verfügbarmachung großer Kohlehydratmengen ist bei bäuerlichen Bevölkerungen mutmaßlich adaptiver, während die längere Speicherung eher auf die kohlehydratarbe Ernährung von Jäger- oder Hirtenvölkern zutrifft.

Das zweite Gen FADS1/FADS2 bestimmt, wie intensiv der Körper pflanzliche Fettsäuren in hochwertigere umwandelt, was bei fleisch- und fischreicher Ernährung weniger notwendig ist, wohl aber bei stark pflanzlicher Ernährung.

Im Detail wirken die Gene wie folgt

CLTCL1 codiert CHC22, eine Clathrin-Schwerkettenvariante, die an der Steuerung von GLUT4-haltigen Vesikeln beteiligt ist. GLUT4 ist der zentrale insulinabhängige Glukosetransporter in Muskel- und Fettgewebe. Die hier beobachtete Variante rs1061325 markiert M1316V: T/T entspricht dem ancestral M1316-Profil, C/C dem V1316-Profil. Funktionell wird dieser Bereich mit Unterschieden darin verbunden, wie schnell Glukose nach Insulinsignal aus dem Blut in Zellen aufgenommen beziehungsweise in zellulären Speichern zurückgehalten wird.

Allgemeinverständlich gesagt: Die C-Variante wird hier als stärker pflanzenkost- oder ackerbäuerlich gerichteter Hinweis gelesen, weil sie in der Literatur häufiger mit Populationen verbunden wurde, die dauerhaft mehr Stärke und Kohlenhydrate nutzten. Die T-Variante wird als stärker tierkost- oder jägerisch gerichteter Hinweis gelesen. Das ist keine Ernährungsdiagnose eines Individuums, sondern ein vorsichtiger populationsgeschichtlicher Marker.

FADS1/FADS2 steuern die Desaturase-Schritte, mit denen der Körper aus pflanzlichen Vorstufen längerkettige mehrfach ungesättigte Fettsäuren herstellen kann. Solche Umwandlungen sind besonders wichtig, wenn hochwertige tierische oder marine Fettsäuren in der Nahrung seltener sind und stärker aus pflanzlichen Vorstufen gebildet werden müssen.

Aktiv wird die FADS-Komponente derzeit durch rs174546 und rs174570 abgebildet. Beide verwenden C als Pflanzenkost-/Farmer-Richtung und T als Tierkost-/Jäger-Richtung und gehen gleichgewichtet in die FADS-Komponente ein. Ein weiterer FADS-Kontextmarker ist dokumentiert, wird aber aktuell nicht gewertet, weil er in der verwendeten Grundlage nicht direkt beobachtbar ist.

In der aktuellen Umsetzung gibt es zwei gleich gewichtete Komponenten: CLTCL1/CHC22 und FADS1/FADS2. CLTCL1 wird über rs1061325 berechnet. FADS wird aus den beobachteten aktiven FADS-Markern rs174546 und rs174570 gebildet; beide Marker gehen mit 0,5 in die FADS-Komponente ein. Jede beobachtete Markerrichtung wird auf eine Skala von -1 bis +1 gebracht: -1 bedeutet Tierkost-Richtung, +1 Pflanzenkost-Richtung, 0 Mischlage.

Wenn beide Komponenten beobachtet sind, wird ihr Mittelwert ausgegeben; wenn nur eine Komponente beobachtet ist, wird ein limitierter Wert aus dieser einen Basis verwendet. Ab +0,35 erscheint Pflanzenkost-Stoffwechsel, bis -0,35 Tierkost-Stoffwechsel, dazwischen Mischtyp. Fehlt jede auswertbare Komponente, bleibt das Individuum unbekannt. Im aktuellen Lauf sind 4.940 Profile Pflanzenkost-Stoffwechsel, 4.315 Tierkost-Stoffwechsel, 3.820 Mischtyp und 4.515 unbekannt. CLTCL1 ist bei 10.105 Profilen beobachtet, FADS bei 12.161 Profilen.

Muskeltyp

„Muskeltyp“ ist ein eher explorativer Modus, der einen einzelnen SNP untersucht, nämlich rs1815739. Das Gen beeinflusst die Struktur der Muskelfasern.

rs1815739 ist die bekannte ACTN3-R577X-Variante. Das C-Allel entspricht der R-Variante und erhält funktionelles Alpha-Actinin-3 in schnellen, kraftorientierten Muskelfasern. C/C wird deshalb als Kraft-Typ angezeigt. Dieser Typ ist im Durchschnitt eher mit Sprint, Explosivkraft, schnellen Richtungswechseln, Heben, Werfen und kurzer hoher Belastung vereinbar. Der Nachteil ist nicht Schwäche in Ausdauer, sondern eher eine geringere Spezialisierung auf sehr effiziente, lange aerobe Belastung.

Das T-Allel entspricht der X-Variante. T/T führt dazu, dass kein funktionelles Alpha-Actinin-3 gebildet wird; die Muskulatur verschiebt sich eher in Richtung oxidativer, ausdauernder Eigenschaften. T/T wird deshalb als Ausdauer-Typ angezeigt. Das kann bei langen, gleichmäßigen Belastungen, Marsch, Lauf, wiederholter Arbeit und Energieeffizienz vorteilhaft sein, ist aber kein Beweis für reale sportliche Leistung. C/T wird als Mischtyp angezeigt. Im aktuellen Lauf sind 5.267 Profile Kraft-Typ, 4.410 Ausdauer-Typ, 594 Mischtyp und 7.319 unbekannt.

Typ I wurde damit „Ausdauer-Typ“ genannt, Typ II „Kraft-Typ“. Da der Kraft-Typ im Laufe der Zeit ein klein wenig, aber erkennbar seltener wird, scheint auch hier eine tatsächliche Anpassung an veränderte Lebensumstände beobachtet werden zu können.

COMT

Das COMT-Gen wurde berühmt als „Warrior/Worrier“-Variante, aber diese Bezeichnung ist etwas irreführend. Tatsächlich handelt es sich hier um ein einzelnes SNP, das vor allem die Dopaminkonzentration im frontalen Kortex beeinflusst.

rs4680 ist die COMT-Val158Met-Variante. Das G-Allel entspricht Val und führt zu höherer COMT-Enzymaktivität. Dadurch wird Dopamin im präfrontalen Kortex schneller abgebaut. G/G wird in GeoGens als Macher-Typ angezeigt: eher schnelle Reaktion, robuste Handlungsbereitschaft unter Belastung und geringere Neigung, kognitive Kontrolle zu lange aufzuschieben. Der mögliche Nachteil ist, dass sehr feine Planung, Arbeitsgedächtnis und ruhige Abwägung unter niedriger Belastung weniger begünstigt sein können.

Das A-Allel entspricht Met und führt zu niedrigerer COMT-Aktivität. Dadurch bleibt Dopamin im präfrontalen Kortex länger verfügbar. A/A wird als Planer-Typ angezeigt: eher begünstigt für Arbeitsgedächtnis, Vorausdenken, Abwägung und stabile kognitive Kontrolle. Der mögliche Nachteil ist eine stärkere Stress- oder Überlastungsempfindlichkeit, wenn zu viel Dopamin oder Druck im System ist. A/G wird als Mischtyp angezeigt. Im aktuellen Lauf sind 4.868 Profile Macher-Typ, 4.644 Planer-Typ, 530 Mischtyp und 7.548 unbekannt.

Damit haben wir die Met/Met-Variante „Planer“ und die Val/Val-Variante „Macher“ genannt, weil diese Begriffe die allgemeine Wirkung des Gens besser treffen. Die Planer scheinen ein wenig mit Jäger-Kulturen zusammenzuhängen, mehr noch aber mit nördlicher Herkunft. Auch heute haben Nordwesteuropäer hier Spitzenwerte. Generell weisen aber fast alle Bevölkerungen ein relativ ausgeglichenes Verhältnis zwischen Planern und Machern auf, was schon ein Hinweis darauf ist, dass die reale populationsgenetische Anpassungrelevanz des Gens nicht überschätzt werden darf.

Haplogruppen

Y-DNA beschreibt die väterliche Linie und ist deshalb grundsätzlich nur bei männlichen Individuen erwartbar; mtDNA beschreibt die mütterliche Linie und kann bei beiden Geschlechtern vorliegen. Y-Haplogruppen und mt-Haplogruppen werden daher prinzipiell getrennt beobachtet.

Die aktuelle Haplogruppenkarte beruht auf dem zusammengeführten GeoGens-Sampleuniversum: 16.696 AADR-v66-Profile bilden den Kernbestand, 894 Non-AADR-/Poseidon-Profile können zusätzlich geladen werden; zusammen sind das 17.590 Fund- und Analysepunkte. Für Y-DNA werden die AADR-/Poseidon-Felder yHaplogroupTerminal, yHaplogroupIsogg, yHaplogroupDisplay und manuelle Korrekturen gegeneinander priorisiert. Für mtDNA wird das mtHaplogroup-Label verwendet.

Die Baumauflösung erfolgt nicht nur durch Stringvergleich. Y-DNA wird gegen den YFull/YTree-Export 14.02.0 geprüft (42.429 Knoten, 1.284.075 Aliasformen, CC BY 4.0); mtDNA wird gegen HaploGrep/PhyloTree RSRS 17.1 geprüft (5.435 Knoten, 102 Aliasformen). Ein Label gilt als verwendbar, wenn es als exakter Knoten oder Alias aufgelöst werden kann; bei mtDNA sind zusätzlich nicht bloß wurzelhafte Präfixknoten zulässig. Sehr breite Oberknoten wie R, R1, I, J, CT, F oder H bei Y-DNA und H, U, J, T, K, L, M, N, R, V, W, X oder I bei mtDNA werden bewusst als broad_root markiert. Sie können für eine grobe Flächenfarbe sichtbar sein, werden aber nicht wie terminale Linien behandelt.

Die Zählung ist deshalb strenger als eine reine Labelzählung. Im Gesamtbestand gibt es 8.928 Y-DNA-Calls nach Berechnungspriorität; davon sind 7.510 verwendbar aufgelöst, 1.410 nur breite Wurzelknoten, 6 ungültig und 2 nicht im geprüften Baum auflösbar. 8.662 Profile haben keinen verwendbaren Y-Call. Bei mtDNA liegen 12.895 Calls vor; 12.213 sind verwendbar aufgelöst, 664 nur breite Wurzelknoten, 18 ungültig und 4.695 fehlen. Fehlend bedeutet hier nur: für diese Achse liegt kein auswertbarer Haplogruppen-Call vor. Es ist kein negativer Befund und schon gar kein populationsgenetischer Nullwert.

Die Kartenfläche für Haplogruppen ist kategorisch. Für Y-DNA werden nur hinreichend tiefe Kladen als Flächenkategorie zugelassen, typischerweise etwa I1 oder R1b statt bloß I oder R; für mtDNA werden entsprechend Unterkladen wie H1 oder U5, nicht bloß H oder U, gruppiert. Jeder auswertbare Punkt trägt seine Gruppenfarbe mit konstantem Gewicht bei, im aktuellen Zeitfenster und nach den aktiven Filtern. Überschneiden sich mehrere Linien räumlich, entsteht die gewichtete Durchschnittsfarbe der konkurrierenden Gruppen. Die Punktfarbe kann zusätzlich durch ausgewählte Präfixe überschrieben werden, damit gezielt Unterlinien wie I2a, R1b oder U5 verfolgt werden können.

Haplogruppen Linienmodus

Bei Klick auf einen Datenpunkt wechselt Die Haplogruppenanzeige in den Linienmodus. Dabei wird grafisch dargestellt: Zu welchen anderen Individuen im Zeitfenster könnte theoretisch im geprüften Baum einer mögliche väterliche bzw. mütterliche Linienbeziehung bestehen? Es ist eine begründete Hypothese.

Bei Y-DNA und mtDNA werden zuerst Auswahl und Kandidat gegen den jeweiligen geprüften Baumindex aufgelöst. Ein Kandidat wird als möglicher Y-Vorfahr bzw. mtDNA-Vorläufer markiert, wenn sein Knoten im Baum oberhalb des ausgewählten Knotens liegt und seine Datierung nach derselben Regel vorher liegt. Auch gleiche aufgelöste Knoten, zum Beispiel I2a1 zu I2a1, können bei klar älterer Datierung als möglicher Vorfahr oder bei klar jüngerer Datierung als möglicher Nachkomme angezeigt werden; ohne klare Datierungsrichtung bleiben sie als gleiche Linie ohne Richtung sichtbar. Als möglicher Y-Nachkomme bzw. mtDNA-Unterlinie gilt er, wenn sein Knoten unterhalb des ausgewählten Knotens liegt und chronologisch jünger ist. Breite Oberknoten und ungültige oder fehlende Auflösungen sind für solche gerichteten Pfeile gesperrt, weil aus ihnen keine belastbare direkte Linie folgt. Sie werden aber dennoch farblich markiert! Die Pfeile zeigen also nicht alle Verbindungen an, die in Frage kommen, sondern nur die naheliegendsten.

Die Datierungsprüfung läuft standardmäßig streng und richtet sich immer nach dem aktiven Datierungsanker. Frühest nutzt das ältere Ende, Mitte den Mittelwert, Spätest das jüngere Ende; bei Gesamt gilt für Linienrichtung, Pfeile und Sortierung der Mittelpunkt, während die Sichtbarkeit im Zeitfenster weiterhin die ganze Spanne nutzt. Streng bedeutet: Für einen möglichen Vorfahren muss der Kandidatenanker wirklich älter sein als der Auswahlanker; für einen möglichen Nachkommen muss er wirklich jünger sein. Wird die strenge Prüfung abgeschaltet, darf bei unterschiedlichen Baumknoten auch Gleichstand am selben Anker noch als Richtung zählen.

Agnatische Y-Seitenlinien werden anders berechnet als direkte Vorfahren. Dafür muss es einen gemeinsamen Y-Knoten geben, der weder der Kandidatenknoten noch der ausgewählte Knoten selbst ist. Aus dem Baum wird dessen TMRCA in years before present übernommen. Die ältere der beiden Proben wird in years before present umgerechnet: olderSampleYbp = 1950 + dateBce. Danach gilt: agnateDistance = tmrcaYbp - olderSampleYbp. Ist dieser Wert negativ, wäre der gemeinsame Linienknoten jünger als die ältere Probe; die Beziehung wird dann nicht als Agnat gewertet. Ist der Wert nicht negativ und höchstens so groß wie die gewählte Schwelle, erscheint die Beziehung als enge Y-Seitenlinie. Die Schwelle ist wählbar zwischen 1.000, 2.000, 3.000, 5.000 und 10.000 Jahren; Standard sind 5.000 Jahre.

Im konservativen Modus müssen beide Y-Werte als exakt, Alias oder Präfix auflösbar sein und der gemeinsame Knoten darf kein sehr breiter Oberknoten sein. Im explorativen Modus werden zusätzlich schwächere Signale sichtbar gemacht: Y-Seitenlinien bis 10.000 Jahre Abstand über der engen Schwelle erscheinen als distante Y-Seitenlinien; sehr grobe gleiche Hauptlinien können als breite gleiche Y-Hauptlinie angezeigt werden. Solche Treffer sind ausdrücklich niedriger belastbar und sollen eher Suchhinweise als Ergebnis sein. Für mtDNA gibt es keine analoge Agnatenrechnung, weil die verwendete mtDNA-Baumdatei hier keine vergleichbaren TMRCA-Abstände für Seitenlinien liefert; angezeigt werden dort direkte mtDNA-Vorläuferlinien, mtDNA-Unterlinien, gleiche mtDNA-Linie und gleiche, aber nicht genauer aufgelöste mtDNA-Hauptklade.

Pfeildarstellung: Die Anzeige der Pfeile folgt bestimmten Regeln, damit die Karte bei vielen möglichen Beziehungen nicht unlesbar wird. Standardmäßig werden nur die 5 geografisch naheliegendsten Vorfahren und Nachfahren mit einem Pfeil versehen. Das kann über den Haken 'Nur nächste Vorfahren/Nachkommen mit Pfeil anzeigen' reguliert werden oder auch die Anzahl abgeändert werden. Das kleine Label entlang des Pfeils zeigt grob die zwischen den Datierungspunkten liegenden Generationen. Dafür wird mit 25 Jahren pro Generation gerechnet und im Zweifel aufgerundet. Gestrichelte Pfeile bedeuten niedrige oder fehlende Linienkonfidenz.

Konkurrierende Ahnen werden nur im Einzelmodus angezeigt und zwar als grün. Für jeden sichtbaren Nachkommen werden andere potenzielle Ahnen gesucht und nach geografischer Nähe gesucht, wobei die drei geografisch naheliegendsten angezeigt werden. Voraussetzung ist, dass sie nicht weiter als doppelt so weit vom Nachkommen entfernt sind wie der ausgewählte Punkt. Salopp gesagt, wird mit diesen grünen Pfeilen davor gewarnt, die Nachkommenschaft zu vermuten, weil es konkurrierende Ahnen gibt. ist ein solcher konkurrierender Ahn zu weit entfernt, enthält er keinen Pfeil mehr.

Im Kulturmodus wählt ein Klick zunächst die Untergruppe des Samples, sofern vorhanden. Bei erneutem Klick in dieselbe Kultur wird auf die ganze Kulturgruppe erweitert. Anschließend wird das Zeitfenster auf diese Auswahl angepasst und auf mindestens 3.000 Jahre verbreitert, damit möglichst alle Punkte sichtbar werden. Im kumulativen Modus werden einzelne Samples per Klick hinzugefügt oder entfernt. Der zuletzt gewählte Punkt bleibt der primäre Anker, auch hier mit mindestens 3.000 Jahren Fensterbreite. Beide Modi berechnen die Linienbeziehungen separat für jeden ausgewählten Anker.

Für die Frage, welche Farbe ein Punkt bei der Mehrfachauswahl erhalten soll gilt: Auswahl > Vorfahren/Nachkommen > engere Y-Seitenlinien > distante Y-Seitenlinien > breite Y-Hauptlinien > gleiche nicht aufgelöste Wurzel. Die Legendenzahlen in Mehrfachmodi zählen dagegen die Relationen über die Einzelkontexte.

Kulturgruppen-Einteilung

Warum haben die AADR keine archäologischen Kulturzuweisungen? Das ist kurios, denn die Archäologie lebt geradezu von ihren Kulturbegriffen und Fundkontexualisierung. Man hat sich seit über zehn Jahren bemüht, archäogenetische Daten zu sammeln aber gleichzeitig fast keine Anstrengung unternommen, diese mit tatsächlichen materiellen Kulturen abzugleichen. Ein paar der AADR-Labels enthalten zwar ein grobes „CordedWare“ oder „BellBeaker“ aber die allermeisten Individuen sind nur lakonisch als „Spain EBA“ (Spanische frühe Bronzezeit) oder „UkraineN“ (Ukrainisches Neolithikum) bezeichnet. Weil Menschen aus demselben heutigen Staatsgebiet aber vor tausenden Jahren durchaus in krass gegensätzlichen Umständen und materiell gekennzeichneten Kulturgruppen lebten und diese Kulturgruppen vermutlich oft soetwas wie Stämme oder Völker darstellten, ist es von großer Bedeutung, welches Individuum hierbei eine klare Zuordnung erlaubt und welches nicht.

Als Archäologe weiß ich, dass die Frühgeschichtsforschung ohne Kulturgruppen beinahe nichts aussaggen kann und fast ihren gesamten Gegenstand verliert. Meine einzige Erklärung, warum die Archäogenetik diese – durchaus machbare – Leistung noch nicht vollbracht hat, besteht darin, dass viele ihrer federführenden Köpfe sich gemäß eigener Aussage zum Ziel gemacht haben, Nationen und Völker der Gegenwart abzuschaffen und zu „überwinden“, was mutmaßlich damit einhergeht, diese auch in der Vergangenheit immer weniger sehen und umreißen zu wollen. Man greift also lieber auf einen abstrakten Brei an Genomen zurück.

Generell muss man die Kulturgruppeneinteilung natürlich mit Vorsicht genießen. Wir wissen bei weitem nicht immer sicher, ob eine archäologische Kultur tatsächlich einem Brauchtums-, Sprach- und Austauschraum entspricht. Oft tut sie es, das kann man anhand völkerwanderungszeitlicher Kulturhorizonte sehr gut belegen. Aber weil heutige Archäologie in verschiedenen Ländern oft separat durchgeführt wird, ist die Kulturgruppeneinteilung selten gleichmäßig. Ein und dieselbe Gruppe kann mit verschiedenen Namen belegt sein. Sehr verschiedene Kulturen, die nur lose zusammenhängen sind manchmal unter einem Begriff zusammengefasst. Auch zeitlich sind die Verläufe nicht klar. Ein und dasslebe Formenkontinuum wird manchmal scharf unterteilt und mit verschiedenen Namen belegt, manchmal werden Proto- oder Post-Kulturen erfunden, die nur wenig substanzielles mit der besagten Kultur zu tun haben. Kurz: Die Nomenklatur ist uneinheitlich und manchmal irreführend. Die Beobachtung archäogenetischer Daten sollte nicht allein von der Kulturgruppe als „Volk“ ausgehen oder sich überhaupt vom Kulturbegriff abhängig machen. Genauso wahnsinnig wäre es aber, materielle Fundumstände zu ignorieren und alle Jäger Europas zwischen 20.000 und 7.000 v. Chr. unter den Stempel „WHG“ zu packen, obwohl sich viele materielle Unterschiede und auch anthropologische Cluster darunter befinden. Zuletzt lassen sich auch die Fragen der Indogermanisierung und Neolithisierung Europas nur im Kontext der Kulturgruppen lösen.

Darum habe ich in mühsamer Kleinstarbeit diese Aufgabe auf mich genommen, Epoche für Epoche und Region für Region die Fundumstände zu recherchieren und „Kulturgruppen“ und „Kulturuntergruppen“ zu finden. Für die Recherche habe ich gelegentlich natürlich KI-gestützte Quellensuche verwendet, sonst wäre diese Aufgabe von vorneherein undenkbar gewesen, handelt es sich doch um über 17.000 Datensätze. Da ich aber KI-Recherchen streng und wiederholt kontrolliert habe, war das immer noch ein entsprechender Aufwand.

Nun zum technischen:

Nicht alle Kulturguppen haben Kulturuntergruppen. Wenn sie aber Untergruppen haben, müssen alle ihre Individuen eine solche zugewiesen bekommen.

In jeder Zeitstufe sind Individuen, deren Zuordnung unklar ist und die folglich keine Kulturgruppe haben. Bei diesen brauche ich noch Unterstützung. Manchmal ist eine Zuordnung aber aufgrund der Fundumstände generell nicht möglich (Moorleichen, Strandfunde, beigabenlose Skelette usw.). Es heißt dann nur z.B. „(Unsichere Zuordnung - Neolithikum)“

Dann gab es Fundkontexte die mit einigermaßener Sicherheit einer bestimmten Kultur zugewiesen werden konnten, aber als „Unsichere Zuordnung“ markiet wurden. Ist das der Fall, erscheint im Echtzeitfenster ein Fragezeichen hinter der Kulturzuordnung. Beim rechten Anteilsanzeigefenster lässt sich sodann per Haken einstellen, ob diese unsicheren Zuordnungen berücksichtigt werden sollen oder nicht.

Hinweis: Ich bin mit der Kulturgruppenzuweisung noch nicht ganz zufrieden. Sie ist an manchen Stellen grob und insbesondere in Zentralasien und dem nahen Osten sind viele Funde unkuratiert, die man mit entsprechender Quellenkenntnis garantiert zuweisen könnte. Es sind sicherlich auch noch einzelne Falschzuweisungen vorhanden. Ich bitte um Mithilfe und Hinweise auf Korrekturen und Ergänzungen!

OberflächeAusklappen

Färbung der Karte

Die Einfärbung der Karte versucht natürlich nicht, Territorien oder exakte Zustandsbeschreibungen zu maskieren. Sie ist eine Veranschaulichungshilfe, um aus dem ansonsten unübersichtlichen Meer an Datenpunkten annäherungsweise Tendenzen abzulesen. Jeder Punkt (der aktiv zum Merkmal beiträgt, also nicht grau/blockiert/unbekannt ist) trägt an seiner geografischen Verortung zur Einfärbung der Karte bei. Sind viele Punkte an einem Ort, werden sie gegeneinander aufgewogen, um letztendlich die mehrheitlich dominierende Farbe durchzusetzen.

Dieses Anschauungsmittel hat natürlich einige Schwächen. Die offensichtlichste ist, dass fundreiche Regionen zuverlässigere Einfärbungen erzeugen als fundarme. Wo ein einzelner, einsamer Datenpunkt in der Weite Russlands liegt, setzt er ungebremst seine Farbe durch. Wo viele Punkte im Karpatenbecken konkurrieren, trifft die Farbe schon eher den gemittelten Zustand. Dünne Regionen neigen daher zu extremeren Farben als dichtere Regionen.

Eine weitere Schwäche besteht darin, die Merkmalswerte tatsächlich in Farben zu übersetzen und das Spektrum der Merkmalsvarianz einheitlich zum Spektrum des Farbverlaufs zu machen. Das ist natürlich genau genommen unmöglich und es bleibt hier nur, einzugestehen, dass die Intensität des Farbverlaufs sehr vorsichtig interpretiert werden muss und möglichst immer relativ zu betrachten ist. Relativ wozu? Vor allem relativ zu anderen Funden derselben Zeit. Und relativ zur Methode. Ein Farbunterschied von Merkmal A kann deutlich weniger bedeuten als derselbe Farbunterschied bei Merkmal B oder Methode C.

Bei den bilateralen A-oder-B-Werten (Muskeltyp, Milchverträglichkeit, Augenfarbe usw.) wurde auf Einfärbungsstufen zurückgegriffen. Bei numerischen Wertverläufen (helle Komplexion, Körpergröße, Intelligenz, Hautfarbe) dagegen auf Verläufe. Bei der hellen Komplexion wurde der Vergleichbarkeit halber auch der Farbstufen-Modus gebaut.

Grundsätzlich erzeugt die Karte aus jedem auswertbaren Fundpunkt einen Einflusskreis. Für Haarfarbe, Augenfarbe, Helle-Komplexion-Stufen, Stoffwechsel, Muskeltyp, COMT, Kulturgruppen und Haplogruppen beträgt der Radius 3,0 Breitengrade; für Körpergröße, Intelligenz, Hautwerte und kontinuierliche Helle Komplexion ebenfalls 3,0; für Milchverträglichkeit 3,8. Der Einfluss nimmt mit der Entfernung stark ab. Unterhalb einer Mindeststärke wird keine Fläche gezeichnet: 0,32 bei diskreten Farbstufen, 0,28 bei kontinuierlichen Werten und 0,38 bei Milchverträglichkeit. Milchverträglichkeit besitzt zusätzlich einen kleinen Nahbereich von 0,28 Grad, damit ein positives Signal unmittelbar am Fundort sichtbar bleibt.

Haarfarbe, Augenfarbe, Stoffwechsel, Muskeltyp, COMT und Helle-Komplexion-Stufen sind diskrete Farbstufen. Ein Punkt trägt nicht eine Zahl auf einem Verlauf bei, sondern eine Kategorie. Haar- und Augenwerte werden dabei nach der jeweiligen Evidenzstärke gewichtet: Basisgewicht 0,55 plus Merkmalswert mal 2,65. Mischkategorien werden leicht gedämpft, damit sie nicht stärker wirken als klare Kategorien. Die Rohsignalansichten und die kleinen Einzel-SNP-Modi nutzen ein konstantes Signalgewicht von 2,8, multipliziert mit dem Qualitätsgewicht des Punktes.

Haarfarbe: Das Rohsignal färbt nur direkte Blond-/Rotblond- oder Braun/Dunkel-Hinweise. Der SNP-Score, der Streng-Modus, der minimale PGS-Modus und der PGS-Modus nehmen jeweils die Gewinnerkategorie des aktiven Modells. Blond und Rotblond laufen in die helle Farbrichtung, Braun/Dunkel in die dunkle, Dunkelblond eher hell und Dunkelblond eher dunkel in Zwischenfarben. Unbekannte oder blockierte Profile tragen nicht zur Fläche bei.

Augenfarbe: Signal, SNP-Score, Streng und minimaler GWAS-Modus nutzen dieselbe Logik. Blau trägt in die blaue Richtung, Braun/Dunkel in die braune Richtung, Grün/Gemischt in eine Zwischenfarbe. Entscheidend ist immer der aktive Status des jeweiligen Augenmodus; unbekannte Profile werden nicht eingefärbt.

Hautfarbe, Körpergröße und Intelligenz sind kontinuierliche Verläufe. Hautwerte werden auf -1 bis +1 begrenzt und dann von blasser zu gebräunter Pigmentierung eingefärbt. Körpergröße und Intelligenz werden ebenfalls auf -1 bis +1 begrenzt; niedrigere Werte laufen in Blau, höhere Werte in Rot, die Mitte bleibt neutral. Körpergrößen-SNP-Score und Körpergröße-Streng verwenden eine eigene Zentrierung um den aktiven Mittelbereich, damit kleine reale Unterschiede nicht visuell verschwinden. Niedrige Konfidenz wird mit 0,68 gedämpft; berechnete Werte tragen stärker als limitierte Werte.

Helle Komplexion gibt es in zwei Kartenformen. Der kontinuierliche Modus mittelt die vorhandenen Streng-Hellwerte der gewählten Komponenten und überträgt sie auf -1 bis +1: Grün bedeutet niedrige helle Komplexion, Gelb/Orange mittlere bis stärkere, Rot hohe helle Komplexion. Der Stufenmodus nutzt dieselben Werte, setzt aber feste Klassen: ab +0,5 sehr hell, ab 0 hell, ab -0,5 dunkler, darunter dunkel. Fehlt eine benötigte Komponente, bleibt der Punkt grau beziehungsweise ohne Flächenbeitrag.

Milchverträglichkeit ist bilateral. Beobachtetes rs4988235-LP-Allel färbt grün, beobachteter Marker ohne LP-Allel blau. Fehlende Marker werden nicht als negative Milchverträglichkeit gezählt und tragen nicht zur positiven oder negativen Entscheidung bei. Wenn in einer Region beide Signale konkurrieren, setzt sich die jeweils stärkere gewichtete Nachbarschaft durch.

Stoffwechsel, Muskeltyp und COMT sind kleine diskrete Modi. Stoffwechsel färbt Tierkost-Stoffwechsel, Mischtyp oder Pflanzenkost-Stoffwechsel. Muskeltyp färbt Kraft-Typ, Mischtyp oder Ausdauer-Typ. COMT färbt Macher-Typ, Mischtyp oder Planer-Typ. Fehlende Einzelmarker tragen nicht zur Fläche bei.

Kulturgruppen, Kulturuntergruppen, Y-Haplogruppen und mt-Haplogruppen sind kategorische Flächen. Jeder Punkt trägt die ihm zugewiesene Gruppenfarbe mit konstantem Gewicht bei; in überlappenden Regionen entsteht die gewichtete Durchschnittsfarbe der konkurrierenden Gruppen. Unsichere, fehlende oder neutrale Zuordnungen werden nicht als eigene dominante Farbe durchgesetzt.

Zeitfenster und Datierungsanker

Ein wichtiger Aspekt unserer Datenvisualisierung war derjenige der Gleichzeitigkeit. Es hat in der Vergangenheit immer wieder zu Irrtümern und Unstimmigkeiten geführt, genetische Daten über lange Zeiträume hinweg zu vergleichen und aus verschiedenen Gründen ist das generell gefährlich. Daher unser Ansatz, die Karte immer in einem konkreten Zeitfenster zu betrachten. Die Breite des beobachteten Fensters wird eingestellt, sie kann von 100 bis 3000 Jahren gewählt werden (bei Kulturgruppen aus Performance- und Label-Gründen nur bis 1000 Jahre). Bei Haplogruppen ist die Auswahl zwischen 500 und 10.000 Jahren möglich, weil hier vor allem Vorfahren-Nachfahren-Beziehungen untersucht werden, weniger die Gleichzeitigkeit. Die rechts auf der Zeitleiste angegebene aktuelle Jahreszahl bestimmt immer den Mittelpunkt des Zeitfensters, sodass bei einem 1000-Jahre-Fenster alle Datenpunkte angezeigt werden, die bis 500 Jahre vor und bis 500 Jahre nach diesem Mittelpunkt liegen.

Wo liegt nun ein Datenpunkt? Diese Frage ist schwieriger als sie zunächst scheint. Prähistorische Individuen haben selten einen Grabstein mit ihrem Todestag. Sie werden C14-datiert und dabei ist oft eine erhebliche Spanne möglich. Etwa kann ein Skelett auf den Zeitraum von 2400 bis 1900 v. Chr. datiert werden. Wo liegt dann dieser Datenpunkt? Dafür haben wir vier Auswahlmodi in dem Panel „Datierungsanker“, mit denen diese Frage beantwortet werden kann. Entweder der früheste Zeitpunkt der Datierung wird gewählt oder der späteste. Die pragmatischste dritte Möglichkeit besteht darin, den Mittelwert zu verwenden, in unserem Beispiel wäre das 2150 v. Chr. Wer sich mit diesem rechnerischen „Zurechtstutzen“ nicht abfinden will, wählt die vierte Datierungsmethode „Gesamt“, bei der ein Individuum sowohl bei seinem frühesten als auch spätesten Datum angezeigt wird und natürlich auch im Zeitraum dazwischen. Im Extremfall gibt es aber altsteinzeitliche Funde, die ganz grob zwischen 20.000 und 10.000 v. Chr. datiert sind. Mit dem „Gesamt“-Datierungsanker würde ein solcher Datenpunkt also sehr lange auf der Karte sichtbar sein und ggf. eine „ungerechte“ Dominanz und Sichtbarkeit erhalten, nur weil die Archäologie hier zufällig nichts genaueres angeben kann oder will.

Mehrere Analysen pro Individuum

Die AADR-Datenbasis gibt für manche Individuen mehrere Analysen an. Das liegt daran, dass einzelne Funde zu verschiedenen Zeitpunkten, in verschiedenen Labors oder mit verschiedenen Strenge-Graden analysiert wurden. Ein Individuum kann also bei Analyse A sehr streng untersucht worden sein und damit viel weniger Gene anzeigen, dafür sind diese aber mit viel höherer wissenschaftlicher Belastbarkeit ausgestattet. Bei Analyse B kann der Suchlauf weniger streng gewesen sein, was mehr Aussagen ermöglicht, aber den Aussagen geringeres Gewicht verleiht.

Darum ist im Filterbereich unter Basisfiltern die Möglichkeit gegeben, sich entweder die „Aussagekräftigste Analyse“ jedes Individuums anzeigen zu lassen (bezogen auf das aktuell untersuchte Merkmal), unter Nichtberücksichtigung der Datenqualität. Alternativ kann man sich pro Individuum nur die strengste Analyse anzeigen lassen, womit unter Umständen Datenpunkte wegfallen aber dafür eine höhere Qualität gewährleistet wird. Die dritte Option ist „Alle Analysen“, womit solche Individuen alle ihre Datenpunkte auf der Karte anzeigen. Man kann damit prüfen, wo die Unterschiede der Analysen liegen, läuft aber ggf. Gefahr, ein einzelnes Individuum für mehrere verschiedene zu halten, wenn man nicht gut aufpasst.

Rechtes Anteilfenster

Das rechte Anteilfenster ist ein Echtzeit-Ranking der aktuell geladenen Kartenauswahl. Es beantwortet die Frage: In welchen Kulturgruppen, geografischen Räumen oder Haplogruppen ist der gewählte Merkmalswert am höchsten? Dafür werden nur Individuen verwendet, für die der aktive Kartenmodus einen numerischen Wert liefern kann; unbekannte, graue oder blockierte Profile werden aus dieser Rechnung entfernt und nicht als Null gezählt.

Jeder auswertbare Punkt wird zuerst auf eine einheitliche Skala von 0 bis 1 gebracht. 1 bedeutet immer die positive Richtung der Überschrift, also zum Beispiel Milchverträglichkeit, Tierkost-Stoffwechsel, Krafttyp, Planer, blonde/helle Haare, blaue/helle Augen, hellere Haut, höherer Körpergrößenindex, höherer Intelligenzindex oder hohe helle Komplexion. Bei auf -1 bis +1 laufenden Indizes wird dafür (Wert + 1) / 2 verwendet; bei Hautwerten wird die Richtung bewusst umgedreht, sodass blassere Haut als höherer Wert erscheint: (1 - Wert) / 2.

Für jede mögliche Gruppe wird der Mittelwert ihrer auswertbaren Mitglieder berechnet. Dieser Mittelwert erscheint im Balken als Ø in Prozent. Zusätzlich wird ein punkt-biseriales Pearson-r berechnet: Gruppenzugehörigkeit wird als 1 codiert, Nichtzugehörigkeit als 0, der Merkmalswert bleibt der 0-1-Wert. Formal ist das r = ((Mittelwert Gruppe - Mittelwert Rest) / Standardabweichung aller Werte) × sqrt(p × q), wobei p der Anteil der Gruppe und q der Anteil des Rests ist. Eine Gruppe wird nur gezeigt, wenn sie das eingestellte Stichprobenminimum erreicht.

Die beiden geografischen Gradienten werden getrennt berechnet. Nördlichkeit und Westlichkeit sind normalisierte Koordinatenwerte innerhalb der festen Karten-BBox; gegen diese Koordinate wird der aktuelle Merkmalswert per Pearson-r korreliert.

Korrelationen zwischen Merkmalen

Die Korrelationsseite verwendet nur Individuen mit gültigem dateMidpointBce im Bereich 45.000 v. Chr. bis 1.000 n. Chr. und nur vollständige Fälle: Beide ausgewählten Merkmale müssen für dasselbe Individuum auswertbar sein. Fehlende Markerbasis wird nicht als 0 gerechnet, sondern aus Paarzahl und Statistik entfernt.

Alle Werte werden auf 0 bis 1 harmonisiert. Blonde Haare und blaue Augen nutzen die jeweilige Streng-Evidenz, Hautfarbe wird als blassere Hautrichtung gelesen, Körpergröße und Intelligenz werden aus den auf -1 bis +1 begrenzten Indizes über (Wert + 1) / 2 übertragen. Laktasepersistenz ist 1 bei beobachtetem LP-Allel und 0 bei beobachtetem Nicht-LP; Stoffwechsel, Muskeltyp und COMT verwenden 1/0,5/0 für die jeweilige positive, gemischte und negative Richtung. Nördlichkeit und Westlichkeit sind normalisierte Koordinatenwerte. Zeitstufen, Kulturstufen und geografische Räume werden im Stufenmodus als Gruppenmittelwerte angezeigt.

Für zwei numerische Merkmale entsteht je Individuum ein Paar (x, y). GeoGens berechnet Pearson-r als Kovarianz geteilt durch das Produkt der Standardabweichungen; r liegt zwischen -1 und +1. Positive Werte bedeuten gleichgerichtete Merkmalsausprägung, negative gegenläufige. Unter n = 5 bleibt r gesperrt, zwischen n = 5 und n = 19 gilt der Block als limitiert, ab n = 20 als berechnet. Die Zeitreihe zerlegt dieselben vollständigen Fälle in wählbare Blöcke von 100, 200, 300 oder 500 Jahren; Gesamt-r verwendet alle Fälle, Zeitfenster-r nur die im Graphen sichtbaren Blöcke.

95%-Konfidenzintervall und p-Wert werden über die Fisher-z-Approximation berechnet: z = 0,5 × ln((1 + r) / (1 - r)), Standardfehler = 1 / sqrt(n - 3), Rücktransformation über tanh. Die q-Werte sind Benjamini-Hochberg-FDR-Korrekturen über die sichtbaren Zeitblocktests der jeweiligen Paarung. Das bleibt bewusst deskriptiv: Es gibt keine Kontrolle für Zeit, Raum, Studie, Coverage, Kultur, Verwandtschaft oder wiederholte Analysen eines Fundkontexts.

Korrelationen einer Gruppe

Diese Ansicht fragt gezielt: Welche Merkmale sind innerhalb dieser Gruppe erhöht oder vermindert? Und mit welchen anderen Gruppen überschneidet sie sich besonders stark?.

Eine Gruppe erscheint erst im Auswahlfeld, wenn sie die eingestellte minimale Gruppengröße erreicht: 3, 5, 10, 30 oder 100 Individuen. Für berechnete Werte gilt zusätzlich das Stichprobenminimum 3, 5 oder 10 auswertbare Fälle. Kulturgruppen und Untergruppen werden standardmäßig nur mit Datenpunkten aus ihrem eigenen Datumsbereich verglichen! mit „Mit gesamtem Zeitraum vergleichen“ wird stattdessen die volle Korrelationsbasis genutzt, das bedeutet hier 45.000 v. Chr. bis 1.000 n. Chr.

Für jedes Merkmal wird Gruppenzugehörigkeit als 1 und Nichtzugehörigkeit als 0 codiert; der Traitwert ist wieder der harmonisierte 0-1-Wert. Daraus wird Pearson-r berechnet. Zusätzlich zeigt GeoGens den Mittelwert innerhalb der Gruppe, den Mittelwert außerhalb der Gruppe und die Differenz in Prozentpunkten. Ein positives Delta bedeutet, dass der Merkmalswert in der gewählten Gruppe höher liegt als in der Vergleichsbasis. Fehlende Merkmalsbasis, fehlende Kultur- oder Raumbasis und fehlende Haplogruppenauflösung werden für die jeweilige Rechnung ausgeschlossen.

Die Varianzangabe meint die Standardabweichung der auswertbaren Einzelwerte innerhalb der gewählten Gruppe. Sie wird nicht absolut gedeutet, sondern relativ zu anderen Gruppen derselben Kategorie und desselben Merkmals eingeordnet: die unteren rund 35 Prozent gelten als eher homogen, die oberen rund 35 Prozent als eher heterogen; die mittleren Werte bekommen keine starke Einstufung. So soll nicht nur sichtbar werden, ob eine Gruppe zum Beispiel hohe Blondwerte hat, sondern auch, ob diese Werte innerhalb der Gruppe breit streuen oder auffällig geschlossen auftreten.

Im Zeitverlauf werden dieselben Rechnungen blockweise wiederholt. Die Blöcke können als Drittel, Fünftel, Jahrtausende oder Jahrhunderte gebildet werden; bei Dritteln und Fünfteln kann entweder nach Zeitspanne oder nach gleicher Individuenzahl geteilt werden. Ein Zeitverlauf braucht mindestens 300 Jahre Vergleichsfenster. Für jeden Block müssen genügend auswertbare Gesamtfälle und genügend Gruppenfälle vorhanden sein; sonst bleibt er gesperrt. Y-DNA- und mtDNA-Verläufe zeigen zusätzlich die fünf häufigsten Haplogruppenpräfixe der oben gewählten Ebene, zum Beispiel I, I2 oder I2a.

Die Top-korrelierenden Gruppen werden als Überschneidungsanalyse berechnet. Für eine Kandidatengruppe wird geprüft, wie oft sie innerhalb der gewählten Gruppe vorkommt und wie oft außerhalb. Angezeigt werden nur positive Anreicherungen; sortiert wird nach der Differenz der Raten, danach nach r, Überlappung und Kandidatengröße. Auch hier werden p, 95%-KI und q nur als deskriptive Inferenzhilfen ausgegeben.