Les différences des fréquences des allèles entre populations vivant dans des régions géographiques distinctes est un problème pour les études d'association génétique qui essayent de relier le génome des individus avec leurs traits phénotypiques ou une éventuelle maladie. Ce problème est souvent appelé stratification de la population.

Une telle stratification a été mise en évidence dans des études précédentes en Europe et notamment en Grande-Bretagne et également dans l'ouest de la France.

Aude Saint Pierre devrait publier prochainement un papier intitulé: The fine-scale genetic structure of the French population dans lequel elle a analysé 4433 échantillons originaire de toute la France. Pour cela elle a utilisé la cohorte qui a servi de base à l'étude des Trois Cités dont l'objectif était d'analyser la maladie d'Alzheimer, notamment ses liens avec les accidents vasculaires. Cette cohorte est constituée de 9294 personnes âgées de plus de 65 ans. Seuls les échantillons dont le lieu de naissance était connu et situés en France métropolitaine ont été conservés pour cette étude. La France a été divisée en 7 régions différentes: Grand-Ouest (n=356), Grand-Est (n=2432), Nord (n=131), Île de France (n=370), Rhône-Alpes (n=241), Méditerranée (n=249) et Sud-Ouest (n=880). 477.640 marqueurs autosomaux ont été testés sur l'ensemble des échantillons.
2015_SaintPierre_Figure1.jpg

Une Analyse en Composantes Principales a été effectuée:
2015_SaintPierre_Figure2.jpg

Les trois premières composantes correspondent à 0,07%, 0,04% et 0,04% de la variation totale. La première composante différencie les régions du Nord et du Nord-Est des régions du Sud et du Sud-Ouest. La seconde composante différencie les régions de l'Ouest du Sud-Est. Ces trois premières composantes semblent corrélées de manière significative avec les axes géographiques.

Les distances génétiques entre les régions révèlent de subtiles différences. La plus grande différence est observée entre les régions Nord et Sud-Ouest, suivie par les régions Grand-Est et Sud-Ouest, et ensuite les régions Nord et Méditerranée. De manière générale la distance génétique augmente avec la distance géographique. La région Île de France montre peu de différence génétique avec les régions Grand-Est, Grand-Ouest et Rhône-Alpes. Ceci est probablement lié à la nature plus cosmopolite de cette région suite à l'exode de populations cherchant un travail dans la région Parisienne.

L'homozygosité a ensuite été mesurée. Ainsi 13.336 séquences homozygotes d'au moins 1 million de paires de base ont été détectées sur l'ensemble des échantillons, soit une moyenne de 19 par individu. Elles ne se répartissent pas de manière uniforme dans les régions. Ainsi on en trouve davantage dans la région Sud-Ouest, puis dans les régions Nord et Rhône-Alpes. On en trouve moins dans la région Île de France. Si l'on considère les séquences homozygotes de plus de 5 millions de paires de base, la region Rhône-Alpes en possède le plus indiquant par là un plus fort taux de consanguinité. Elle est suivie par les régions Nord, Grand-Est et Sud-Ouest. Une fois de plus c'est la région Île de France qui en possède le moins. La forte valeur obtenue pour la région Rhône-Alpes est liée à l'existence de montagnes qui formaient autrefois une barrière aux mouvements de population. C'est donc un bon indicateur d'isolation de population.

Afin de prédire l'origine géographique d'un échantillon à partir de son génome, les auteurs ont utilisé deux ensembles de 700 individus. Le premier correspond à un tirage aléatoire de 100 individus par région, le second consiste à sélectionner les échantillons parmi les 50 valeurs de première composante les plus élevées et les 50 valeurs de première composante les plus faibles, pour chacune des 7 régions. Ils ont ensuite utilisé un modèle de régression linéaire pour exprimer les coordonnées géographiques en fonction des valeurs des composantes de l'Analyse en Composantes Principales. Des composantes pivotées ont été utilisées car elles sont mieux corrélées avec les coordonnées géographiques. Avec ces modèles, 50% des individus peuvent être localisées avec une erreur inférieure à 197km, ou 90% avec une erreur inférieure à 332km.
2015_SaintPierre_Figure6.jpg

La figure ci-dessus montre que la prédiction (à droite) est meilleure pour les individus des régions Grand-Est et Rhône-Alpes que pour les individus des régions Nord et Méditerranée.

Ensuite, pour essayer de prédire la région d'origine des individus, les auteurs ont utilisé 2 méthodes différentes: la méthode de clustering implémentée dans le logiciel ADMIXTURE et l'algorithme des plus proches voisins. Avec la première méthode, les individus sont affectés en majorité à leur réelle région d'origine. Ceci n'est pas vrai pour la région Île de France pour laquelle les individus sont souvent associés à une région voisine: Grand-Ouest ou Nord.

Les auteurs ont ensuite essayer de déterminer des ensembles de marqueurs informatifs sur l'ascendance (AIM), c'est à dire les marqueurs les mieux corrélés avec les variations géographiques. Des ensembles de 127 à 101.386 marqueurs ont été utilisés. Les ensembles avec peu de marqueurs sont peu efficaces pour prédire l'origine géographique. Il faut des ensemble d'au moins 95.000 marqueurs pour obtenir de bon résultats.

Cette étude a révélé une structure génétique à petite échelle dans la population Française. Elle est unique grâce au grand nombre d'échantillons utilisés sur l'ensemble du territoire Français, associés à une information sur le lieu d'origine.