Peter Ralph et Graham Coop viennent de publier un papier intitulé: The Geography of Recent Genetic Ancestry across Europe montrant les résultats d'une étude comparant l'ADN autosomal des européens.

Sachant que chaque individu possède 2 à la puissance n ancêtres à la nième génération, des considérations théoriques suggèrent que tous les êtres humains sont rattachés généalogiquement sur des courtes périodes de temps. Cette étude a pour objectif d'analyser ces relations entre les européens à partir d'un grand nombre d'échantillons. Les quelques dernières milliers d'années sont remplies d'événements qui ont pu avoir un impact important sur les relations des européens comme la révolution néolithique, l'empire romain, ou les expansions plus récentes comme celles des slaves et des vikings. Notre compréhension actuelle de ces événements est déduite de considérations archéologiques, linguistiques, culturelles, historiques et génétiques, avec différents degrés de fiabilité. Les données génétiques décrivant l'étendue des relations généalogiques peut ajouter une nouvelle dimension à la compréhension de ces événements historiques.

Le travail sur les marqueurs génétiques uni-parentaux comme l'ADN du chromosome Y ou l'ADN mitochondrial a amélioré notre compréhension du sujet mais est néanmoins limité car il analyse une seule branche de la généalogie des individus. L'analyse de l'ADN autosomal basé sur le séquençage de larges données génétiques a le potentiel de fournir une image plus riche de l'histoire humaine, en analysant l'ensemble des branches généalogiques.

Dans ce papier, les auteurs analysent les rares longs morceaux d'ADN qui sont partagés par deux individus suite à l'héritage génétique d'ancêtres communs, afin d'obtenir une vision détaillée de la structure géographique des récentes relations qui unissent les européens. Pour déterminer les échelles de temps de ces relations, les auteurs ont développé une méthodologie qui utilise la longueur de ces morceaux d'ADN partagés pour en déduire les dates auxquelles vivaient ces ancêtres communs. Le travail est basé sur l'idée que plus les morceaux d'ADN partagés entre deux individus sont longs, plus leurs ancêtres communs vivaient à une époque récente. Par définition, ces morceaux d'ADN contigus partagés entre deux individus sont dits identiques par descendance (IBD). Suivant cette définition, deux individus quelconques sont toujours IBD mais souvent sur des vieux segments d'ADN très courts. L'unité de mesure de la longueur de ces IBD est le Morgan (M) ou le centiMorgan (cM). Avec le temps, ces IBD sont cassés par recombinaison de l'ADN. Ceci implique donc que plus les IBD sont longs, plus les ancêtres communs vivaient à une époque récente.

Les auteurs ont utilisé la méthode fastIBD implémentée dans le logiciel BEAGLE v3.3 sur un ensemble de données issues de 2257 individus européens. Chaque individu a été testé sur environ 500.000 SNPs. Les individus ont été classés en 40 populations:
2013 Ralph Table 1

L'ensemble des paires d'individus partagent ainsi 1,9 millions d'IBD, soit une moyenne de 0,74 IBD par paire d'individus ou 831 IBD par individu. La longueur moyenne des IBD est de 2,5 cM. 94% des paires d'individus partage un seul IBD. La longueur totale des IBD partagés par un individu avec tous les autres est compris entre 30 et 250% de son génome. La densité locale d'IBD est relativement constante sur l'ensemble du génome, bien que dans certaines régions la distribution de la longueur des IBD est perturbée. Des résultats intéressants peuvent être vus dans la figure ci-dessous:
2013 Ralph Figure 2

La figure 2A montre la corrélation entre le nombre d'IBD partagés entre chaque italien avec des suisses parlant français d'une part et des individus du Royaume Uni d'autre part. Plus un italien partage d'IBD avec un Suisse parlant français, plus il partage d'IBD avec un habitant du Royaume Uni. L'intervalle va des turques et des chypriotes qui partagent le moins d'IBD avec les suisses et les habitants du Royaume Uni, jusqu'aux français qui en partagent le plus. Les grecs se situent dans la moyenne des italiens. Inversement la figure 2B montre la corrélation négative entre chaque habitant du Royaume Uni avec des allemands d'une part et des irlandais d'autre part. Plus un habitant du Royaume Uni partage d'IBD avec un allemand, moins il en partage avec un irlandais.

En général, les individus partagent le plus grand nombre d'IBD avec d'autres de la même région, malgré quelques exceptions. Par exemple les habitants du Royaume Uni partagent davantage d'IBD avec les irlandais qu'avec d'autres habitants du Royaume Uni, et les allemands partagent plus d'IBD avec les polonais qu'avec les autres allemands. Ce phénomène peut-être dû à des migrations récentes.

La figure ci-dessous montre la géographie du taux d'IBD partagé entre les différentes régions:
2013 Ralph Figure 3

Les cartes du haut montre le nombre d'IBD partagés avec des individus dont le pays est marqué par une étoile. Plus le cercle est large, plus le nombre d'IBD partagé est élevé. En dessous les courbes montrent l'évolution du nombre d'IBD partagés avec la distance géographique. Il est clair que plus la distance augmente plus le nombre d'IBD partagés diminue.

Il y a cependant des variations régionales importantes. Les pays sont divisés en cinq régions: l'est de l'Europe E, le nord de l'Europe N, l'ouest de l'Europe W, le sud de l'Europe incluant les péninsules ibérique et italiques I, et enfin la Turquie et Chypre TC. Le taux d'IBD partagés entre ces différentes régions est indiqué ci-dessous:
2013 Ralph Table 2

La décroissance du nombre d'IBD avec la distance est plus rapide avec de gros blocs indiquant ainsi des migrations récentes localisées sur de petites distances. La plus large diffusion des anciens IBD peut aussi expliquer pourquoi la décroissance du nombre d'IBD avec la distance varie d'une région à une autre. Par exemple la faible décroissance des IBD des péninsules ibériques et italiques avec la distance est probablement lié avec l'ancienneté des ancêtres communs de cette région. Inversement, il y a un plus grand niveau de partage sur de plus grandes distance dans la région E, spécialement pour les court segments d'IBD. Les individus de la région E partagent plus de courts IBD avec d'autres individus de la même région, que des paires d'individus de la région W. Ceci indique que les individus de la région E ont une plus grande proportions de leurs ancêtres dans une petite population qui s'est ensuite plus largement diffusée.

Chaque bloc d'IBD partagé par une paire d'individus représente du matériel génétique hérité d'un de leurs ancêtres communs. Comme la distribution de la longueur des IBD dépend de l'âge des ancêtres communs (les plus vieux blocs, sont plus courts), il est possible d'utiliser cette distribution des longueurs d'IBD pour en déduire le nombre des ancêtres communs en fonction du temps. Pour ce calcul les auteurs ont utilisé les blocs de longueur supérieure à 2 cM. Les dates sont obtenues en nombre de générations, puis converties en années en prenant une moyenne de 30 ans par génération. Pour ce calcul, il y a deux difficultés à surmonter. Premièrement, tous les blocs d'IBD ne sont pas détectés, notamment les plus courts, et certains des IBD détectés sont des faux positifs, c'est à dire que ce ne sont pas de vrais IBD. Deuxièmement, ce problème est mal-conditionné, c'est à dire que plusieurs solutions différentes correspondent au même ensemble d'IBD détectées. Ce dernier point est résolu en tenant compte de ce que l'on connait de l'histoire des populations européennes afin de prendre la solution qui correspond le mieux à cette histoire. Dans la figure ci-dessous les courbes noires correspondent à la solution qui correspond le plus à l'histoire des populations pour les Balkans à gauche et le Royaume Uni à droite. Les courbes rouges correspondent à un lissage des courbes noires pour obtenir une solution plus proche de la vérité. Ces courbes donnent le nombre d'ancêtres génétiques par génération partagés par une paire d'individus en fonction du temps:
2013 Ralph Figure 4

Les courbes du bas, E et J montrent l'âge des ancêtres communs en fonction de la longueur des IBD. La figure ci-dessous donne les intervalles d'incertitudes concernant le nombre d'ancêtres génétiques de différentes régions en fonction du temps:
2013 Ralph Figure 5

SC correspond aux Serbo-Croates, PL aux polonais, RB aux roumains et bulgares, DE aux allemands, UK au Royaume Uni, IT aux italiens et Iber aux espagnols et portugais. Par exemple, les barres vertes de la colonne de gauche indiquent que les Serbo-Croates et les allemands partagent entre 0 et 0,25 ancêtres communs il y a moins de 500 ans, entre 3 et 12 ancêtres communs entre 500 et 1500 ans, entre 120 et 150 ancêtres communs entre 1500 et 2500 ans et entre 170 et 250 ancêtres communs entre 2500 et 4400 ans.

Dans la plupart des cas, seulement les paires d'individus appartenant à la même région ont des ancêtres communs datés de moins de 500 ans. Durant la période 500 à 1500 ans, les individus partagent entre plusieurs dizaines et plusieurs centaines d'ancêtres communs lorsqu'ils sont de la même région ou d'une région voisine. Au delà de 1500 ans, les paires d'individus de n'importe quelle région partagent des centaines d'ancêtres communs.

Il y a cependant des variations régionales. Ainsi les italiens partagent peu d'ancêtres communs avec les individus des autres régions. idem pour les espagnols et les portugais. Les albanais correspondent à la population qui partage le plus d'ancêtres communs avec environ 90 ancêtres de moins de 500 ans, et environ 600 ancêtres entre 500 et 1500 ans. Il y a donc de nettes différences dans le nombre et la dates des ancêtres communs partagés par des paires d'individus appartenant à des régions différentes. Ces différences reflètent l'impact d'événements démographiques et historiques majeurs.

Discussion

Les auteurs ont montré qu'une paire d'individus européens ont de bonnes chances de partager des IBD même s'ils sont séparés par des milliers de kilomètres. Nous pouvons donc raisonnablement conclure qu'ils partagent un ancêtre commun qui vivait il y a moins de 1000 ans, et qu'ils en partagent plusieurs qui vivaient il y a moins de 2500 ans. En effet le nombre moyen d'ancêtres communs de deux européens distants de plus de 2000 km est de 1 entre 1000 et 2000 ans et 10 entre 2000 et 3000 ans. A première vue, ce résultat peut paraître contre-intuitif. Cependant, 1000 ans correspond à environ 33 générations, et le nombre d'ancêtres potentiels à la 33ème génération est de 2 puissance 33 qui est voisin de 10 puissance 10: un nombre nettement supérieur à la population totale de l'Europe. Il suffit donc que la population européenne se soit mélangée suffisamment en 1000 ans pour confirmer le résultat des auteurs de cette étude. Ainsi tous les européens sont reliés généalogiquement sur de très courtes périodes. Ils partagent un même ensemble d'ancêtres communs. Il y a cependant des différences régionales. En effet, un espagnol peut être relié à un ancêtre espagnol via 1000 chemins différents dans son arbre généalogique, alors qu'un habitant des pays baltes sera relié à un ancêtre balte via seulement 10 chemins dans son arbre généalogique. Ainsi la probabilité qu'un espagnol hérite de matériel génétique originaire de la péninsule ibérique est 100 fois plus grande qu'un balte hérite de matériel génétique originaire des pays baltes. Ceci explique les variations régionales même si l'ensemble des ancêtres est constant sur toute l'Europe.

Les auteurs ont mis en évidence le haut niveau de partage d'IBD entre individus de l'est de l'Europe. Ceci est consistant avec des individus qui ont une importante proportion d'ancêtres issus d'une petite population qui s'est diffusée sur une grande superficie dans un intervalle de temps compris entre 1000 et 2000 ans. Ceci correspond à des migrations qui ont eu lieu entre le 4ème et le 9ème siècle de notre ère. Cette période commence avec l'invasion des Huns en Europe de l'est à la fin du 4ème siècle, établissant un empire qui inclue la Hongrie et la Roumanie actuelle. Cela continue avec le mouvement de germains en Occident, et cela se termine avec l'expansion des slaves dans des régions à faible densité humaine entre le 6ème et le 10ème siècle. Les population de l'est de l'Europe avec un grand taux d'IBD coïncident avec la distribution actuelle des langages slaves. La présence des hongrois et roumains qui ne parlent pas de langues slaves dans cette région à fort taux d'IBD indique l'effet de migration d'autres groupes comme les Huns. Les français, italiens et ibériques ont le plus faible taux d'IBD dans les 1500 dernières années. Ce sont également les régions qui ont le moins été touchées par les migrations des slaves et des Huns. Elles ont cependant été touchées par les migrations germaniques. Ceci implique que les migrations germaniques ont impliquées moins de déplacement de population que les migrations slaves. D'autre part, on a vu que les ancêtres communs des italiens avec eux-mêmes ou avec les autres européens sont plus anciens que 2300 ans.