La région du Caucase est caractérisée par une forte diversité culturelle et linguistique avec plus de 50 groupes ethniques vivant dans une petite région géographique. La vieille branche linguistique Nakh occupe une bonne partie du Daguestan. Les montagnes du Caucase ont longtemps été une route reliant le Proche-Orient et les plaines orientales de l'Europe. Elles ont probablement permis à l'agriculture de s'étendre de la Mésopotamie vers le nord. Elles n'étaient pas habitées avant la fin de l'ère glaciaire, et les premières occupations humaines apparaissent à une altitude d'environ 2000m au mésolithique il y a environ 10.000 ans. L'un des premiers habitats du Néolithique a été trouvé dans l'est du Daguestan. Il est daté d'environ 8000 ans. La continuité culturelle entre le mésolithique et le néolithique de la région suggère que ce dernier s'est diffusé essentiellement sans remplacement de population.
La protolangue Nakh est vieille d'environ 6000 à 8000 ans et la reconstruction de son vocabulaire est consistant avec une culture néolithique. La famille Nakh est extrêmement diversifiée avec 30 à 35 branches distinctes qui sont circonscrites aux zones montagneuses du Caucase. Bien que cette région est restée toujours très isolée, elle a vu la diffusion de langues et cultures nomades issues des Steppes, avec notamment l'arrivée de langues Indo-Iraniennes au début du second millénaire av. JC, le mouvement des groupes turcs Bulgare et Khazare vers la moitié du premier millénaire ap. JC, et enfin l'arrivée des turcs Kipchak à la fin du premier millénaire ap. JC.
Le Daguestan présente un excellent laboratoire naturel pour tracer l'influence des processus démographiques sur les variations génétiques, et étudier la corrélation entre gènes et langues. Tatiana M. Karafet vient de publier un papier intitulé Coevolution of genes and languages and high levels of population structure among the highland populations of Daghestan. Elle a testé un total de 842 échantillons appartenant à 21 ethnies du Daguestan ainsi qu'à un groupe tchétchenne. 15 groupes des zones montagneuses du Daguestan parlent une langue Nakh différente. 6 groupes des plaines du Daguestan ne parlent pas une langue Nakh: trois groupes (Kumyks, Nogais et Azerbaijans) parlent une langue turque, et trois groupes (Tats, Juifs des Montagnes et Azerbaijans) parlent une langue Indo-Iranienne:
314 échantillons du Daguestan et 261 échantillons des régions voisines: Proche-Orient, Caucase, Europe, Asie du Sud et Asie de Centrale, ont été testés sur 567.096 SNPs autosomaux. De plus 2461 échantillons du Daguestan et des régions voisines ont été testés sur 137 SNPs et sur 13 marqueurs STRs du chromosome Y. Enfin 2164 échantillons du Daguestan et des régions voisines ont été testés sur la région HVR1 de l'ADN mitochondrial, ainsi que sur 45 SNPs de la région codante.
Des Analyses Multi-échelles ont été faites sur l'ADN autosomal, du chromosome Y et mitochondrial:
Les marqueurs autosomaux et du chromosome Y révèlent des groupes géographiques distincts qui se superposent partiellement. Ainsi les populations du Daguestan se superposent partiellement avec les populations du Caucase pour les marqueurs autosomaux et avec les populations du Proche-Orient pour les marqueurs du chromosome Y. A l'inverse les marqueurs mitochondriaux montrent que les groupes Européens se mélangent avec les populations du Daguestan. Dans les trois schémas, les groupes du Daguestan ne parlant pas une langue Nakh se mélangent avec les groupes du Proche-Orient ou du Caucase alors que les groupes parlant une langue Nakh forment un cluster à part.
Une Analyse en Composantes Principales a également été faite sur les marqueurs autosomaux:
La première composante sépare les populations du Proche-Orient, du Caucase et d'Europe des populations Asiatiques, alors que la seconde composante séparent les groupes du Proche-Orient, du Caucase et d'Europe entre eux. Les populations du Daguestan sont mélangées avec les populations du Caucase, à part les Nogais (parlant une langue turque) qui se rapprochent des populations d'Asie Centrale, et les Juifs des Montagnes (parlant une langue Indo-Iranienne) qui se rapprochent des populations du Proche-Orient.
Une analyse avec le logiciel ADMIXTURE a été réalisée en incluant des Yorubas d'Afrique et des Hans de Chine:
La meilleure estimation est obtenue pour K=8. Les Yorubas sont en vert clair à gauche et les Hans en vert foncé à droite. A K=3 les populations du Caucase et du Daguestan ne se distinguent pas sauf les Nogais qui montrent une plus forte ascendance Asiatique. A K=5 ou 6, les populations Nakh du Daguestan se différencient des populations non Nakh. A K=7 trois populations Nakh du Daguestan (Hinukh, Hunzib et Tsez) sont dominées par une composante spécifique en jaune. A K=8, une composante (en rouge) est prépondérante dans la plupart des groupes Nakh.
Enfin une analyse avec le logiciel TreeMix ne montre aucun mélange génétique pour les populations parlant une langue Nakh. Ce résultat est confirmé par la statistique f3.
L'analyse des haplogroupes du chromosome Y montre que leur fréquence permet de différencier fortement les populations Nakh et non Nakh du Daguestan. Les populations Nakh des zones montagneuses presentent 18 haplogroupes différents, mais seuls quatre ont une fréquence supérieure à 2%. Ces 4 haplogroupes ont une fréquence cumulée supérieure à 89%. L'haplogroupe J1-M267* est trouvé dans toutes les populations Nakh avec une fréquence qui varie de 40 à 100% selon les groupes, avec une moyenne de 58%. De manière intéressante cet haplogroupe est rare dans la plupart des régions avec une fréquence inférieure à 2%. Il apparait avec une fréquence notable dans les populations non Nakh des plaines du Daguestan (16,3%), chez les Tchétchennes (8,3%), les Arméniens (7,5%), les Assyriens (7,1%) et les Iraniens (6,9%). L'haplogroupe R1b-L23 est présent dans 9 des 15 populations Nakh avec une fréquence moyenne de 7,8%. On le trouve à basse fréquence (entre 4 et 10%) au Proche-Orient, en Europe et dans les populations non Nakh du Daguestan. On le trouve à haute fréquence chez les Assyriens (29%), les Tats (29%), les Turcs (15%) et les Russes (13%). Deux autres haplogroupes apparaissent chez les populations Nakh: G2a-U1 (3,5%) et R1a-Z93 (2,3%).En dehors du Daguestan, G2a-U1 se retrouve en Arménie (5%), chez les Turcs (3,8%) et les Palestiniens (1%). R1a-Z93 se retrouve en Asie du Sud (25%), en Asie Centrale (18%), au Proche-Orient (3,9%) et en Europe (1,7%).
A l'inverse, les haplogroupes mitochondriaux ne permettent pas de différencier les populations Nakh et non Nakh du Daguestan, sauf peut-être U4 qui se retrouve à fréquence relativement élevée (9,69%) chez les populations Nakh. De manière générale, les haplogroupes mitochondriaux du Daguestan se rapprochent des haplogroupes du Proche-Orient ou d'Europe avec de forte fréquence des haplogroupes H et T.
Les fortes valeurs de distance génétique pour les populations Nakh du Daguestan indiquent un haut degré de différenciation de ces populations.
Les auteurs ont ensuite comparé les arbres phylogénétiques des langues et des marqueurs autosomaux:
Ces deux arbres montrent certaines similarités. Ils séparent notamment les populations Nakh des populations Turques et Indo-Iraniennes. Les auteurs ont ensuite effectué des tests de Mantel pour étudier la corrélation entre l'affinité génétique et la distance géographique. Les résultats montrent qu'il n'y a pas de telle corrélation, mais plutôt une corrélation entre affinité génétique et affinité linguistique. Enfin, les distances génétiques basées sur les segments IBD (Identical By Descent) sont fortement corrélées avec les langues et la distance géographique.
Les auteurs ont ensuite estimé les temps de divergence entre les différentes populations. Les populations Nakh forment un cluster dont les premières branches à diverger du groupe des Européens et des Proche-Orientaux sont les Hinukh et Hunzib. Cette divergence est d'environ 6000 ans. Les auteurs ont également estimé l'âge de l'ancêtre commun à l'haplogroupe J1-M267* du chromosome Y à l'aide du taux de mutation évolutionnaire. Ils ont trouvé une valeur proche de 6650 ans. Ainsi les populations du Daguestan parlant une langue Nakh sont probablement les descendants des premières communautés Néolithiques du Caucase.
Structure génétique et linguistique des populations des zones montagneuses du Daguestan
mardi 15 décembre 2015. Lien permanent Génétique des populations