Généalogie génétique

Aller au contenu | Aller au menu | Aller à la recherche

Généalogie génétique

Fil des billets - Fil des commentaires

lundi 13 avril 2015

Relations entre patronymes et marqueurs du chromosome Y dans le sud de l'Espagne

Dans la pluspart des sociétés occidentales, le patronyme est transmis par la lignée paternelle. Ainsi sa transmission devrait coïncider avec l'ADN du chromosome Y. Cependant, sa mise en place en Europe a commencé relativement récemment au Moyen-Âge. De plus son caractère polyphylétique, les enfants illégitimes, les adoptions ou ses changements ont affaibli ces relations. Dans la pluspart des pays le nombre de patronymes se compte en dizaines de milliers, soit un nombre nettement supérieur au nombre d'haplogroupes du chromosome Y. Le patronyme le plus fréquent en Espagne est Garcia. Il représente environ 3% de la population. Par contre l'haplogroupe du chromosome Y le plus fréquent en Espagne est R1b-M269. Il représente entre 60 et 80% de la population. Cette différence dans les proportions, implique que de nombreux patronymes vont partager le même haplogroupe.

En Espagne, il y a 75.855 patronymes. Ceux-ci ont commencé à être adoptés à partir du 10ème siècle, mais ont été largement employés uniquement à partir du 12ème siècle. Cela coïncide avec la période de reconquête du territoire passé sous le joug des musulmans. Durant ce long processus, de nombreux juifs et musulmans ont adopté progressivement des patronymes chrétiens.

Rosario Calderón vient de publier un papier intitulé: Surnames and Y-Chromosomal Markers Reveal Low Relationships in Southern Spain. Il a étudié la population masculine de deux régions d'Andalousie: Huelva et Granada:
2015_Calderon_Figure1.jpeg

Les échantillons ont été sélectionné parmi la population dont les quatre grand-parents sont nés dans la région. En Espagne, chaque individu est identifié par deux patronymes: le premier correspond au premier patronyme de leur père et le second correspond au premier patronyme de leur mère. Les femmes ne changent pas de patronyme lorsqu'elles se marient. Dans cette étude, le patronyme étudié correspond au premier patronyme de chaque individu.

Un total de 416 individus a été étudié: 167 de la province de Huelva et 249 de la province de Granada. Ils ont été testés sur 17 marqueurs STR du chromosome Y et sur 49 marqueurs SNP. Parmi tous ces individus, il y a 222 premiers patronymes différents dont 159 sont des singletons (une seule occurence). Les 63 autres patronymes se retrouvent à une fréquence qui varie de 2 à 21. Le patronyme le plus fréquent est Garcia qui représente 5,05% de l'ensemble des échantillons. La figure ci-dessous représente la fréquence des 63 patronymes les plus fréquents:
2015_Calderon_Figure2.jpeg

La courbe jaune pointillée correspond aux 416 individus de cette étude, la courbe bleue au recensement de 2010 sur toute l'Espagne, et la courbe rouge au recensement de 2010 sur les provinces de Huelva et Granada uniquement. De manière intéressante, ces trois courbes se ressemblent.

Dans cette étude l'occurence correspond au nombre de fois qu'un patronyme apparait dans le groupe d'échantillons, alors que l'abondance correspond au nombre de patronymes pour une occurence donnée. La relation entre occurence et abondance est donnée par la courbe ci-dessous:
2015_Calderon_Figure3.jpeg

Cette courbe peut se modéliser sous la forme y = a * x ** b avec a=90,27 et b=-1,76. Cette relation implique qu'il y a peu de patronymes fréquents et beaucoup de patronymes rares.

27 des 63 patronymes qui ont au moins 2 occurences correspondent au même haplogroupe. Parmi ceux là, 24 sur 27 correspondent à l'haplogroupe R1b-M269. La fréquence de ce marqueur est de 62% dans cette étude. De manière intéressante, les auteurs ont trouvé trois patronymes avec 3 occurences chacun. Chaque occurence correspondait à 3 haplogroupes différents: E-M81, I1-M253 et J2-M172. Le premier haplogroupe est très fréquent chez les berbères d'Afrique du Nord, le dernier est fréquent au Proche-Orient et sur les rives de la Méditerranée. Enfin celui du mileu est fréquent en Europe du Nord. La figure ci-dessous montre la composition de 10 des patronymes les plus fréquents ainsi que des patronymes qui apparaissent seulement 2 fois (doubletons) ou seulement 3 fois (trios).
2015_Calderon_Figure6.jpeg

La majorité de ces patronymes a une diversité d'haplogroupes élevée. L'haplogroupe le plus fréquent est R1b-M269, mais on trouve également les haplogroupes suivants: E-V13, E-M81, E-M34, J1-M267, J2-M172, I1-M253, I2-P215 et G2a-P15. Cette diversité est un reflet de l'histoire de la Péninsule Ibérique, notamment l'Andalousie, et ses contacts avec le monde Méditerranéen. Ainsi il est remarquable qu'un grand nombre des descendants de migrants lointains établis en Andalousie ont adopté un patronyme fréquent en Espagne.

Parmi l'ensemble des échantillons, il y a 184 haplotypes différents sur 7 marqueurs STR et 354 haplotypes différents sur 17 marqueurs STR. Beaucoup sont des singletons. 39 individus de patronymes différents partagent le même haplotype sur 7 marqueurs. 5 individus de patronymes différents partagent le même haplotype sur 17 marqueurs. Une faible proportion d'haplotypes sont partagés entre plusieurs patronymes.

Parmi les 165 individus de l'haplogroupe R1b-M269, seulement 38 partagent le même patronyme et le même haplotype sur 7 marqueurs (23%). Parmi les 15 individus de l'haplogroupe J2-M172, 9 partagent le même patronyme et le même haplotype sur 7 marqueurs (60%). Globalement il y a peu de concordance entre patronymes et haplotypes. Les événements de non paternité, mais aussi la rapidité de mutation des marqueurs STR, peuvent être à l'origine de cet écart.

Les patronymes de cette étude ont été comparés avec des listes de patronymes espagnols d'origine arabe ou juive. Il y a ainsi 5 patronymes d'origine arabe, tous singletons. Deux d'entre eux sont de l'haplogroupe R1b-M269. Les autres sont des haplogroupes E-M81, E-V13 et J2-M241. Les patronymes d'origine Séphardiques sont fréquents en Espagne et difficilement discernables.

Globalement, il y a peu d'associations haplogroupe/patronyme, que ce soit avec les patronymes fréquents ou rares. Il y a de nombreux patronymes d'origine Castillane ou Léone dû à la reconquète des terres musulmanes lorsque des familles Castillanes et Léones ont été déplacées en Andalousie. Seuls peu de patronymes sont d'origine arabe. Il semble qu'un grand nombre de musulmans ou de juifs aient choisi un patronyme particulier au moment des conversions. En effet le patronyme de code "pz" comprend de nombreux échantillons d'haplogroupes E-M81 ou E-M34.

mercredi 4 mars 2015

Diversité du chromosome Y dans les patronymes Catalans

Dans de nombreuses sociétés, le patronyme se transmet de la même façon que l'ADN du chromosome Y. Cependant, différents facteurs diminuent cette corrélation: plusieurs pères fondateurs de même patronyme, événements de non paternité (adultères), adoption d'enfants, et transmission du patronyme par la mère.

Deux types de marqueurs génétiques sont utilisés pour comparer l'ADN du chromosome Y: les SNPs à faible taux de mutation (de l'ordre de 10-8 par base et par génération) et les STRs à fort taux de mutation (de l'ordre de 10-3 à 10-4 par génération). Ces mutations diversifient au cours du temps les haplotypes des marqueurs STR du chromosome Y associés à un même patronyme. Cependant le taux de mutation des SNPs est suffisamment faible pour ne pas modifier leur valeur dans une échelle de temps correspondant aux patronymes (entre 500 à 1000 ans). Ainsi tous les descendants biologiques d'un père fondateur d'un patronyme auront le même haplotype SNP, contrairement aux haplotypes STRs qui se diversifient au cours du temps.

Des études précédentes en Grande-Bretagne ont montré que les patronymes les plus fréquents ont une diversité du chromosome Y plus importante, correspondant probablement à plusieurs pères fondateurs pour le même patronyme. Par contre, des études précédentes en Irlande n'ont pas montré de corrélation significative entre la fréquence d'un patronyme et la diversité du chromosome Y. Les patronymes les plus fréquents avaient un seul père fondateur.

Neus Solé-Morata vient de publier un papier intitulé: Y-chromosome diversity in Catalan surname samples: insights into surname origin and frequency. Les auteurs ont utilisé une liste de 50 patronymes Catalans. La Catalogne est une région du nord-est de la péninsule ibérique dont l'origine remonte à l'invasion islamique de l'an 711. Une étroite bande de terre est en effet restée sous le contrôle des chrétiens et fragmentée en différents royaumes. Le comté de Barcelone était initialement un fief carolingien. En 1162, il est intégré au royaume d'Aragon. Il s'est étendu par la suite jusqu'à Valence au sud et aux îles Baléares vers l'est:
2015_SoleMorata_Figure1.jpeg

La langue Catalane prend ses origines dans la fragmentation du latin populaire, et ses premiers textes datent du 12ème siècle. Elle est aujourd'hui parlée par 4,5 millions de personnes comme langue principale et par 5 millions de personnes de plus comme langue secondaire, dans une aire comprenant le Roussillon dans le sud de la France, l'Andorre, la Catalogne, l'est de l'Aragon, les îles Baléares et la ville Sarde de Alghero.

Les patronymes Catalans sont basés sur la langue Catalane et sont donc facilement reconnaissables. Ils sont plus divers que les patronymes espagnols. Ainsi les 10 patronymes espagnols les plus fréquents représentent 18,1% de la population, alors que les 10 patronymes catalans les plus fréquents représentent seulement 8% de la population. La pluspart des gens semble avoir un patronyme en Catalogne depuis le 13ème siècle comme dans la pluspart de l'Europe occidentale, bien que le concil de Trent a imposé la tenue des registres paroissiaux seulement à partir du 16ème siècle.

Dans cette étude, les auteurs ont testé 17 marqueurs STRs et 68 marqueurs SNPs du chromosome Y pour environ 2560 hommes portant un des 50 patronymes catalans sélectionnés. Après avoir éliminés les proches parents, un ensemble de 2309 échantillons a servi de base à cette étude.

Les résultats montrent que la diversité des haplotypes est hautement corrélée avec la fréquence des patronymes (figure 2a ci-dessous):
2015_SoleMorata_Figure2.jpeg

Ceci implique que les patronymes les plus fréquents n'ont pas subi d'expansion soudaine comme en Irlande. Les auteurs ont ensuite déterminé les groupes de descendance (avec le même père fondateur) pour chaque patronyme. Parmi les 50 patronymes, les auteurs ont trouvé 1151 groupes de descendance dont 751 sont constitués d'un seul individu.

La distance médiane entre les groupes de descendance a été mesurée et la valeur trouvée est de 6 mutations STRs. Dans seulement 11,1% des cas, la distance la plus proche entre 2 haplotypes appartenant à 2 groupes de descendance distincts est de 3. Le nombre de groupes de descendance est également fortement corrélé à la fréquence du patronyme. Pour séparer les groupes issus d'un père fondateur et les introgressions liées à un événement de non paternité plus récent, les auteurs ont supposé que les groupes les plus importants sont liés à un père fondateur, alors que les plus restreints sont liés à un événement de non paternité. Les auteurs ont définis arbitrairement les groupes majeurs (liés à un père fondateur) comme ceux composés d'au moins 4 individus. Le nombre de groupes majeurs par patronyme varie de 0 à 6, avec une moyenne de 2,64. La proportion d'individus de même patronyme appartenant à un groupe majeur varie de 0 à 95,7%, avec une moyenne de 40,6%. Cette proportion, ainsi que le nombre de groupes majeurs, diminuent lorsque la fréquence du patronyme augmente (voir la figure 2b ci-dessus). Ceci s'explique de la façon suivante. Les patronymes les plus rares comprennent moins de groupes de descendances. Ces derniers sont donc plus fréquents et probablement plus vieux. A l'inverse les patronymes les plus fréquents possèdent un très grand nombre de groupes de descendance. Ces derniers sont donc moins fréquents et peu atteignent le seuil de 4 qui définit un groupe majeur. Ces résultats restent identiques si on modifie le seuil pour une valeur de 3 ou de 5.

Les auteurs ont ensuite mesuré la distance génétique entre chaque patronyme et la population générale. Celle-ci diminue lorsque la fréquence du patronyme augmente. L'effet fondateur est donc plus important pour les patronymes les plus rares. Dans une Analyse Multidimensionnelle basée sur cette distance génétique, les patronymes rares se situent en périphérie, alors que les plus courants se situent au centre:
2015_SoleMorata_Figure3.jpeg

Des réseaux basés sur les haplotypes STRs ont été tracés pour chaque patronyme:
2015_SoleMorata_FigureS2.jpeg

Ces réseaux montrent également que plus un patronyme comprend un grand nombre d'individus, plus la diversité d'haplotypes et d'haplogroupes augmentent et plus le nombre de groupes majeurs diminue.

Tous ces résultats sont similaires à ceux obtenus en Grande-Bretagne dans une étude précédente. Ils indiquent que la fréquence des patronymes est liée principalement au nombre de pères fondateurs dans le même patronyme. A l'inverse l'étude irlandaise a montré que les patronymes fréquents gardaient peu de pères fondateurs. Leur fréquence a augmenté cette fois à cause du prestige et de la richesse associés à certains patronymes.

L'âge a été estimé pour 131 groupes majeurs. La date moyenne du père fondateur est 1479. Elle n'est pas corrélée avec la fréquence du patronyme. L'âge de ces groupes catalans (500 ans) est plus jeune que l'âge estimé pour les groupes de Grande-Bretagne (650 ans) ou d'Irlande (1100 ans). Les patronymes sont apparus à la même époque en Catalogne et en Grande-Bretagne vers les 12ème et 13ème siècles, alors qu'ils sont apparus plus tôt en Irlande dès le 10ème siècle.

Les événements de non paternité, les adoptions, les multiples pères fondateurs et la transmission du patronyme par la mère ont modifié le lien entre patronymes et chromosome Y. Si un patronyme est supposé avoir un seul père fondateur, le nombre de groupes de descendance permet d'estimer le nombre d'événements d'introgression par génération. La valeur obtenue varie entre 1,5 et 2,6% par génération. Ces valeurs sont similaires à celles obtenues pour la Grande-Bretagne. D'autres valeurs déterminées pour la Flandre et l'Italie du Nord sont de 0,9 et 1,2%. Mais comme ces études incluaient la généalogie de tous les échantillons, elles estimaient en fait uniquement les événements de non paternité.

Les auteurs se sont ensuite intéressés aux patronymes dont l'éthymologie suggère un lieu d'origine pour le père fondateur. Ainsi 5 patronymes d'origine germanique ont été analysés: Armengol, Ricart, Gual, Albert et Robert, et comparés aux patronymes d'origine latine. Ainsi les patronymes germaniques ont une composition d'haplogroupes différente notamment à cause de la fréquence importante de l'haplogroupe R1b-P312*. Cependant cet haplogroupe est bien plus fréquent en Catalogne qu'en Allemagne.

Ensuite une analyse de mélange génétique a été effectuée utilisant les fréquences des haplogroupes, en prenant comme populations sources les Catalans et les Bavarois. Le résultat a montré que tous les Catalans dont le patronyme est germanique étaient issus d'une population Catalane à 100%. Ainsi le nom des patronymes ne donnent pas d'indication géographique sur le lieu d'origine des pères fondateurs.

La même étude a été faite pour les patronymes d'origine arabe ou juive. Là encore l'analyse de mélange génétique en prenant comme populations source les Catalans et les Marocains, a montré que tous les Catalans dont le patronyme est arabe étaient issus d'une population Catalane à 100%. Cependant ces patronymes contenaient un excès d'haplogroupes originaires d'Afrique du Nord comme E-M81 et J-M267.

L'analyse de mélange génétique pour les patronymes d'origine juive en prenant comme populations source les Catalans et les Séphardiques ont montré que ceux-ci avaient 20,2% d'ascendance juive.

Il a été proposé qu'il est possible de faire une prédiction du patronyme sur un échantillon inconnu. Ainsi si un échantillon a un haplotype qui appartient à un groupe majeur de descendance donné, on peut lui attribué le patronyme correspondant. Cependant un haplotype peut être attribué à un groupe majeur d'un autre patronyme pour au moins deux raisons:

  • la combinaison des 17 marqueurs STR et des 68 marqueurs SNP conduit à une résolution génétique insuffisante
  • les événements de non paternité, les adoptions, ou la transmission par la mère

Pour mettre en place une telle prédiction les auteurs ont estimé qu'il faudrait mettre en place une base de données contenant 37.368 individus appartenant aux 3173 patronymes les plus fréquents.

mardi 24 juin 2014

Faible taux d'infidélité en Europe Occidentale

Voici un papier intéressant de Maarten Larmuseau: Low historical rates of cuckoldry in a Western European human population traced by Y-chromosome and genealogical data.

Différentes études ont essayé d'estimer le taux d'événements de non paternité (événements pour lesquels un fils n'est pas le fils biologique de son père: adultère, adoption, ...) chez les êtres humains. Ainsi les études liées aux transplantations de moelle osseuse ont montré que ce taux est de 0,94% en Allemagne, et 0,65% en Suisse. Ces estimations sont des mesures sur la population existante. Il peut être intéressant d'effectuer cette même estimation pour les populations passées, notamment avant l'existence de la contraception. Les auteurs de cette étude ont utilisé des tests ADN du chromosome Y associés à des enregistrement généalogiques pour estimer ce taux dans les populations passées de Belgique.

Des tests ADN du chromosome Y ont été effectués sur des hommes belges dont la généalogie est connue et remonte avant 1800. Des familles de toutes les classes sociales ont contribué à ces échantillons. 38 marqueurs STR et des SNPs ont été testés sur un ensemble d'individus regroupés par couples de la même famille mais éloignés d'au moins 7 générations (ascendantes et descendantes). Par exemple, 2 frères sont éloignés de 2 générations, 2 cousins germains sont éloignés de 4 générations. Connaissant le taux de mutation de ces marqueurs STR, il est très peu probable que 2 individus reliés généalogiquement aient plus de 7 mutations d'écart sur ces 38 marqueurs STR.

Sur un total de 1071 individus, 60 couples reliés généalogiquement ont été identifiés, séparés d'au moins 7 générations. La plus grande distance parmi ces couples est de 31 générations. La distance moyenne est de 16 générations. Parmi ces 60 couples, 8 couples généalogiquement reliés ne sont pas reliés biologiquement d'après le chromosome Y et montrent donc l'existence d'au moins un événement de non paternité. Sur ces 8 couples, 7 couples ont des individus d'haplogroupes différents. Pour le huitième couple, les deux individus ont le même haplogroupe: I1*, mais sont séparés par les marqueurs STR de 23 mutations d'écart. A partir de cette valeur, les auteurs ont estimé le taux d'événements de non paternité par génération à 0,91%.

Une seconde méthode a été utilisée pour estimer ce taux d'événements de non paternité. Elle est basée sur la comparaison de fréquences d'haplotypes entre 2 populations: la première est une population de Flandres authentique (cAFS) et la seconde est une population d'émigrés français en Flandres (cFRS), survenue au 16ème siècle. Cette distinction est basée sur l'étude du patronyme de chaque individu. Ensuite chacune de ces 2 populations a été divisée en deux. Ainsi à partir de la population authentique de Flandres, les auteurs ont conservés uniquement les individus dont l'ancêtre paternel le plus ancien connu est né en Flandres avant 1750, et dont le patronyme est présent en Flandres avant 1600. Cela a donné le groupe nommé rpAFS. Les fréquences d'haplotypes pour la population rpFRS a été déterminé à partir des données de l'étude de Ramos-Luis pour les régions Île de France et Nord Pas de Calais. Ensuite la distance génétique Fst entre ces 4 groupes a été calculée. Puis un modèle de simulation a été construit pour simuler l'arrivée d'une population française en Flandres, il y a 16 générations. La taille de la population AFS est supposée égale à 10 fois la taille de la population FRS à la fois en 1600 et en 2010. Ensuite en supposant un taux d'événements de non paternité constant sur le temps Pnp , les fréquences d'haplotypes pour les populations cAFS et cFRS ont été estimées. En effet les événements de non paternité vont se traduire par l'introduction d'haplotypes spécifiques d'une population dans la seconde et vice-versa. Ainsi la population AFS est caractérisée par une plus haute fréquence de l'haplogroupe R1b-U106 et une plus faible fréquence des haplogroupes R1b-M529 et R1b-U152 par rapport à la population FRS:
2014 Larmuseau2 Figure 1

La valeur de Fst entre les populations rpAFS et rpFRS est de 0,03072, et entre les populations cAFS et cFRS de 0,02110. Cette diminution de la distance génétique entre les 2 populations est due au taux d'événements de non paternité. Ces valeurs conduisent à une estimation du taux d'événements de non paternité d'environ 2%.

Discussion

Les deux méthodes utilisées pour estimer le taux d'événements de non paternité ont abouti à des valeurs comparables comprises entre 1 et 2%. Ces valeurs sont faibles et comparables à celles obtenues à partir d'une population contemporaine liée à la transplantation de moelle osseuse. Cela suggère que ce taux n'a pas évolué au cours des derniers siècles, et donc n'a pas diminué avec l'arrivée des méthodes contraceptives dans les années 1960s.

jeudi 10 octobre 2013

L'haplogroupe du chromosome Y des Bourbons n'est pas G, mais R1b

Des tests ADN avaient été réalisés sur deux reliques supposées appartenir à Henri IV (une tête momifiée) et Louis XVI (du sang séché sur un mouchoir). Les résultats avaient montré que ces deux reliques appartenaient à l'haplogroupe G pour le chromosome Y et U5b pour l'ADN mitochondrial de la tête momifiée. Cependant des réserves avaient été soulevées sur la validité de ces résultats. Larmuseau vient de publier un nouvel article intitulé: Genetic genealogy reveals true Y haplogroup of House of Bourbon contradicting recent identification of the presumed remains of two French Kings, basé sur des tests ADN de trois personnes vivantes de la lignée des Bourbons.

Trois hommes actuellement vivant reliés paternellement à Henri IV et Louis XVI ont été testés. Il s'agit de Axel prince de Bourbon-Parme, Sixte-Henri prince de Bourbon-Parme et João Henrique prince d'Orléans-Bragance dont la généalogie est donnée ci-dessous:
2013 Larmuseau Figure 1

38 marqueurs STR du chromosome Y ont été testés et comparés avec les marqueurs STR testés sur les deux reliques supposées de Henri IV et Louis XVI:
2013 Larmuseau Table 1

Le prédicteur de Whit Athey a ensuite été utilisé pour estimer l'haplogroupe des trois individus. Puis des tests SNPs ont été effectués pour valider cette prédiction. Les trois individus appartiennent à l'haplogroupe R1b-Z381 qui est un sous groupe de R1b-U106. De plus il n'y a que 4 différences entre les 3 hommes dans les marqueurs STR. Ceci confirme bien qu'ils appartiennent à la même lignée masculine et qu'il n'y a pas eu d'événement de non paternité (adultère, adoption, ...) dans cette lignée. Par contre il y a 25/26 différences entre les 3 individus et l'échantillon de sang sensé appartenir à Louis XVI sur les 17 marqueurs STR comparés, et 8 différences entre les 3 individus et la tête momifiée sensée appartenir à Henri IV sur les 6 marqueurs STR comparés. Ceci indique que l'ADN testé sur la tête momifiée et sur le sang séché n'appartenait pas à Henri IV et Louis XVI. Enfin des tests ADN mitochondriaux effectués sur reliques de Louis XVII fils de Louis XVI et sur des personnes vivantes reliés maternellement à Louis XVII ont montré que celui-ci était de l'haplogroupe H. Or Louis XVII est relié maternellement à Henri IV via la lignée des Habsbourg. Ces résultats sont différents de ceux obtenus sur la tête momifiée. Ces derniers ont donné un haplogroupe U5b.