Structure génétique à petite échelle de la population Française

« Structure génétique de l'Italie - Structure génétique et linguistique des »

Structure génétique à petite échelle de la population Française

Par Bernard Sécher, vendredi 4 décembre 2015. Lien permanent Génétique des populations

Les différences des fréquences des allèles entre populations vivant dans des régions géographiques distinctes est un problème pour les études d'association génétique qui essayent de relier le génome des individus avec leurs traits phénotypiques ou une éventuelle maladie. Ce problème est souvent appelé stratification de la population.

Une telle stratification a été mise en évidence dans des études précédentes en Europe et notamment en Grande-Bretagne et également dans l'ouest de la France.

Aude Saint Pierre devrait publier prochainement un papier intitulé: The fine-scale genetic structure of the French population dans lequel elle a analysé 4433 échantillons originaire de toute la France. Pour cela elle a utilisé la cohorte qui a servi de base à l'étude des Trois Cités dont l'objectif était d'analyser la maladie d'Alzheimer, notamment ses liens avec les accidents vasculaires. Cette cohorte est constituée de 9294 personnes âgées de plus de 65 ans. Seuls les échantillons dont le lieu de naissance était connu et situés en France métropolitaine ont été conservés pour cette étude. La France a été divisée en 7 régions différentes: Grand-Ouest (n=356), Grand-Est (n=2432), Nord (n=131), Île de France (n=370), Rhône-Alpes (n=241), Méditerranée (n=249) et Sud-Ouest (n=880). 477.640 marqueurs autosomaux ont été testés sur l'ensemble des échantillons.

Une Analyse en Composantes Principales a été effectuée:

Les trois premières composantes correspondent à 0,07%, 0,04% et 0,04% de la variation totale. La première composante différencie les régions du Nord et du Nord-Est des régions du Sud et du Sud-Ouest. La seconde composante différencie les régions de l'Ouest du Sud-Est. Ces trois premières composantes semblent corrélées de manière significative avec les axes géographiques.

Les distances génétiques entre les régions révèlent de subtiles différences. La plus grande différence est observée entre les régions Nord et Sud-Ouest, suivie par les régions Grand-Est et Sud-Ouest, et ensuite les régions Nord et Méditerranée. De manière générale la distance génétique augmente avec la distance géographique. La région Île de France montre peu de différence génétique avec les régions Grand-Est, Grand-Ouest et Rhône-Alpes. Ceci est probablement lié à la nature plus cosmopolite de cette région suite à l'exode de populations cherchant un travail dans la région Parisienne.

L'homozygosité a ensuite été mesurée. Ainsi 13.336 séquences homozygotes d'au moins 1 million de paires de base ont été détectées sur l'ensemble des échantillons, soit une moyenne de 19 par individu. Elles ne se répartissent pas de manière uniforme dans les régions. Ainsi on en trouve davantage dans la région Sud-Ouest, puis dans les régions Nord et Rhône-Alpes. On en trouve moins dans la région Île de France. Si l'on considère les séquences homozygotes de plus de 5 millions de paires de base, la region Rhône-Alpes en possède le plus indiquant par là un plus fort taux de consanguinité. Elle est suivie par les régions Nord, Grand-Est et Sud-Ouest. Une fois de plus c'est la région Île de France qui en possède le moins. La forte valeur obtenue pour la région Rhône-Alpes est liée à l'existence de montagnes qui formaient autrefois une barrière aux mouvements de population. C'est donc un bon indicateur d'isolation de population.

Afin de prédire l'origine géographique d'un échantillon à partir de son génome, les auteurs ont utilisé deux ensembles de 700 individus. Le premier correspond à un tirage aléatoire de 100 individus par région, le second consiste à sélectionner les échantillons parmi les 50 valeurs de première composante les plus élevées et les 50 valeurs de première composante les plus faibles, pour chacune des 7 régions. Ils ont ensuite utilisé un modèle de régression linéaire pour exprimer les coordonnées géographiques en fonction des valeurs des composantes de l'Analyse en Composantes Principales. Des composantes pivotées ont été utilisées car elles sont mieux corrélées avec les coordonnées géographiques. Avec ces modèles, 50% des individus peuvent être localisées avec une erreur inférieure à 197km, ou 90% avec une erreur inférieure à 332km.

La figure ci-dessus montre que la prédiction (à droite) est meilleure pour les individus des régions Grand-Est et Rhône-Alpes que pour les individus des régions Nord et Méditerranée.

Ensuite, pour essayer de prédire la région d'origine des individus, les auteurs ont utilisé 2 méthodes différentes: la méthode de clustering implémentée dans le logiciel ADMIXTURE et l'algorithme des plus proches voisins. Avec la première méthode, les individus sont affectés en majorité à leur réelle région d'origine. Ceci n'est pas vrai pour la région Île de France pour laquelle les individus sont souvent associés à une région voisine: Grand-Ouest ou Nord.

Les auteurs ont ensuite essayer de déterminer des ensembles de marqueurs informatifs sur l'ascendance (AIM), c'est à dire les marqueurs les mieux corrélés avec les variations géographiques. Des ensembles de 127 à 101.386 marqueurs ont été utilisés. Les ensembles avec peu de marqueurs sont peu efficaces pour prédire l'origine géographique. Il faut des ensemble d'au moins 95.000 marqueurs pour obtenir de bon résultats.

Cette étude a révélé une structure génétique à petite échelle dans la population Française. Elle est unique grâce au grand nombre d'échantillons utilisés sur l'ensemble du territoire Français, associés à une information sur le lieu d'origine.

5 réactions

1 De rainetto - 12/12/2015, 00:02

Cette étude est une grande première à l’échelle de la France entière (et je la salue vivement en ces temps sombres où ces thèmes sont très mal vu en France... étudier génétiquement les Français de souche, cette ethnie dont on est sommé de croire qu'elle n'existe pas...), mais elle passe malheureusement à coté de beaucoup de choses qui auraient été plus intéressantes...

Premièrement le zonage choisi pour les couleurs est vraiment peu pertinent. Ces regroupements de régions administratives n'ont pas le moindre sens historique et ethnoculturelle, ce biais important abouti forcement à un "lissage" artificiel et apparent de la population française. Je suis persuadé et même certain que si le découpage avait été plus ethnoculturel (en suivant des frontières linguistiques historiques notamment), quelques "clusters" apparaitraient sur les APC de manière un peu plus discernable (tout en restant liés entre eux), en particulier pour les frontières linguistiques les plus importantes, comme celle des régions de langues germaniques (Alsace, nord de la Moselle, et la Flandre flamingante), le Pays Basque, et la Catalogne française (par contre je pense que la Bretagne serait très peu ou pas distincte de la France de l'ouest).

Deuxièmement, il manque un des éléments les plus importants: des APC plus générales où on pourrait comparer ces divers français avec les autres nations européennes, cela permettrait notamment de se rendre compte du degrés homogénéité relative du "cluster français" et sa distinction avec les nations voisines. Cela permettrait aussi de mieux comprendre les bordures, comme savoir si l'Alsace est une région génétiquement sud-allemande avec une influence française ou si c'est une région génétiquement française avec une influence sud-allemande, ou si c'est complétement intermédiaire, dans la même veine on pourrait aussi voir où se situe la Suisse romande, ou la Wallonie par rapport à la France, la Flandre et l'Allemagne, ou encore où s’arrête et où commence génétiquement la Flandre française (frontière linguistique ou la frontière historico-politique du comté de Flandre). Dans les études avec des APC européennes on voit très bien que les frontières ethno-lingustiques historiques sont de très loin les plus significatives génétiquement à l’échelle de l'Europe, comparées aux frontières politiques qui n'ont aucun impact.

Quelques observations des APC ici présentes:

- Le Pays Basque et la Gascogne constituent sans aucun doute la partie de la France la plus nettement différenciée génétiquement de l'ensemble, et cela se perçois sur les APC où une grande partie des échantillons verts foncés d'Aquitaine s'éloignent nettement du reste de la France et forment un autre bloc.
- En haut de la première APC, la tache de points bleu baladeurs un peu hors cluster français, qui semble aussi attirer vers elle quelques points jaunes et une forte tache de points verts, c'est sans aucun doutes les populations avec une plus ou mois forte influence génétique germanique (Alsace, Moselle, Flandre et Normandie).
- Les point verts clairs semblent divisés en deux: une grosse tache génétiquement très française (probablement le Pays de Loire, le Centre et le Bretagne) et une tache détachée qui semble d'influence germanique partielle (probablement une partie de la Normandie, qui a reçu les célèbres Vikings, mais c'est la colonisation saxonne sur les côtes du nord de la France qui a sans doute eu le plus d'impact y compris en Normandie, étant donné le grand nombre de villages portant des nom d'origine saxonne sur la cote entre le Pas-de-Calais et le Cotentin, et les types physiques locaux d’influence germaniques visible).
- Le bleu clair (Rhône-Alpes et Auvergne) semble être à un emplacement charnière entre les deux France: le langue d'oil et la langue d'oc, bien que ces deux France sont très proches entre elles (si on pouvait les comparer aux autres nations européennes), elles sont tout de même distinctes.

Exceptés les nuances de bordure précédemment cités, ce qui ressort le plus spectaculairement de ces APC est que la France de langue d'oil forme un bon bloc serré d'une population très homogène. La France de langue d'oil (le cœur de la France historique) est une ethnie très homogène et a forte identité (même si une forme actuelle d'idéologie pseudo-républicaine en France interdit quelque peu de la percevoir et de la reconnaitre, mais espérons que cet obscurantisme auto-génocidaire ne durera pas encore longtemps), elle est manifeste autant génétiquement que physiquement. Il y a une allure très française qu'on apprend vite à reconnaitre quand ont voyage dans les pays voisins ou qu'on vient d'ailleurs, à partir du moment où on sait observer les gens, il y a comme une douceur des traits chez les Français, une forme particulière de légèreté, déclinée de mille façons, moi qui suis flamand je perçois très bien la différence par rapport aux Flamands, Néerlandais et les Anglais, par exemple. Les Français de souche, les Français ethniques, ont vraiment une identité distincte, comme d'ailleurs toutes les autres ethnies d'Europe qui ont chacune leur propre identité physique et génétique et pas seulement culturelle. Même si il y a bien sûr une forte variabilité individuelle, un vraie français peut ressembler à n'importe quel autre européen blanc, aussi bien à un portugais qu'à un suédois, y compris dans une même fratrie, mais dans l'ensemble et collectivement l’identité est très perceptible et homogène et un groupe de français se reconnais rapidement collectivement, cela signifie que les Français ne sont en aucun cas le résultat d'un vulgaire mélange d'européens divers, au contraire les Français sont le fruit d'un très ancien et très lent processus d’ethnogenèse au compte goute qui a eu le temps de d’homogénéiser à travers les ages et d'acquérir son identité propre avec une authentique différenciation locale, cela a été permis parce que la France a toujours été un territoire culturellement assez unifié avec extrêmement peu d'immigration depuis au moins l'époque des Gaulois. Si il y a des français de souche aux traits partiellement méditerranéens ça ne vient certainement pas des Romains mais plutôt essentiellement des EEF du fin fond du Néolithique, et si il y a des français de souche aux traits nordiques ils ne viennent pas non plus pour la plupart des invasions germaniques (qui ont eu très peu d'impact, et seulement localement, et dans les régions converties aux langues germaniques comme l'Alsace et la Flandre, ou en Normandie) mais cela vient plutôt de l''indo-européenanisation de l'age du Bronze et les sélection de populations en petites tribus qui en a suivi durant les ages des métaux après le mélange. L'ethnie française, comme la plupart des autres ethnies européennes, s'est formée pour l’essentiel par une sélection complexe durant les ages des métaux, et n'a plus beaucoup changé depuis, ci ce n'est des changements de culture et des modifications d'extension géographique par les événements historiques.
2 De philippe - 28/01/2016, 16:29

Bonjour Bernard.
Merci d'avoir traduit l'étude d'Aude Saint-Pierre qui est toujours en attente de parution.

Une autre, issue de son travail sur la cohorte des 3 cités, a été soumise en 2014 à l'EJHG et n'est, à ce jour, pas encore parue.

Il y a deux mois, par mail, je me suis permis de lui demander quand ses études devraient être disponibles. Elle m'a répondu fort gentiment, sans préciser de date, qu'elle avait pris du retard en raison d'un surcroît de travail, en quelque sorte.

Pour en revenir à l'étude présente, j'aurais bien aimé avoir des explications sur la signification des "run of homogozity"

Il me semble qu'en fonction de leur "structure", des informations, sur le degré de parenté, l'ancienneté du peuplement ou la taille des effectifs d'origine, peuvent être obtenues..

A charge de savoir interpréter les résultats, bien, entendu. Ce qui n'est pas mon cas.

Dans l'étude sur " Les Européens forment une grande famille", disponible sur le blogue, les auteurs ont mis en évidence le taux d'IBD pour chaque pays d'Europe,
L'Italie et la France ont les taux les plus faibles, entre régions du pays ou avec les autres pays européens.

Ils en concluaient pour l'Italie, si je ne me trompe pas, à la présence de sous-structures de population ainsi qu'à l'ancienneté de la parenté commune avec les autres pays ayant un taux d'IBD plus élevé.

Peut-on en tirer les mêmes conclusions pour la France? Les résultats de cette étude sont_ils compatibles avec ceux de l'étude d'Aude saint-Pierre.? Que peut-on en déduire?
Merci d'avance.
3 De Bernard - 30/01/2016, 09:11

Les séquences homozygotes correspondent à des segments d'ADN dont les deux allèles sont identiques. Sachant que les deux allèles sont hérités des deux parents, les longues séquences homozygotes sont des indicateurs du taux de consanguinité. En fait plus les père et mère sont proches, plus l'enfant aura de longues séquences homozygotes. Un taux de consanguinité élevé dans une population reflète un isolement de cette population qui ne s'est pas suffisamment mélangée avec les autres.

Les IBD sont les segments d'ADN hérités d'un ancêtre commun par deux personnes. Plus cet ancêtre commun est ancien, plus les IBD sont courts. Les Italiens et les Français ont peu d'IBD de plus de 2cM en commun avec des individus d'autres régions Européennes, cela veut dire que les ancêtres communs entre les Italiens (ou les Français) et les autres Européens vivaient il y a relativement longtemps, et donc qu'il n'y a pas eu de migrations importantes récentes en France et en Italie, au contraire de l'Europe de l'est qui a connu l'expansion slave au Moyen-Âge (6ème et 7ème siècles).
4 De philippe BOUCHEZ - 19/02/2017, 16:15

Bonjour Bernard.
Je ne sais pas pour quelle(s) raison(s), mais je viens seulement maintenant de lire vos explications...

Merci infiniment pour votre blog. A ma connaissance, vous êtes le seul scientifique français à vous impliquer de la sorte auprès du public.
5 De philippe - 26/07/2017, 17:40

Bonjour Bernard. Voici une étude présentée oralement par Aude Saint-Pierre lors de l' European Mathematical Genetic Meeting (EMGM), Tartu (Estonie), du 4-7 Avril dernier.

Abstract publié dans Human Heredity.Il est notable que Saint Pierre A. et al. « The fine-scale genetic structure of the French population ». dont est issue cette présentation est toujours en preprint...
Je ne comprends pas pourquoi & je me demande si,un jour, le public aura enfin le droit d'avoir connaissance de ces études très importantes sur la structure génétique de la population française, telle qu'elle existe encore.
Fine-Scale Human Genetic Structure in France

Aude Saint-Pierrea–c, Céline Bellenguezd–f, Luc Letenneurg,h,Claudine Berri,j, Carole Dufouilg,h, Philippe Amouyeld–f,k,Emmanuelle Génina–c
aUniversité de Bretagne Occidentale, Brest, bInserm UMR1078,Brest, cCentre Hospitalier Régional Universitaire de Brest, Brest, dInserm, U744, Lille, eUniversité Lille 2, Lille, fInstitut Pasteur de
Lille, Lille, gU897, Inserm, Bordeaux, hUniversité Bordeaux 2,Bordeaux, iU1061, Inserm, Montpellier, j
Université Montpellier,Montpellier, k
Centre Hospitalier Régional Universitaire, Lille,France

Characterizing geographical population structure is critical to genetic studies of disease as it is an important cause of false positive results in genome wide association studies (GWASs). The genetic structure of several countries in Europe has been carefully
studied but there is a lack of descriptive study of the French population.Indeed, apart from the work of Karakachoff et al (2015) that focused on the western part of France and detected interesting stratification, no study so far provided a comprehensive look at the French genetic landscape. Here we describe the genetic structure of the French population at a fine-scale using genetic data from the 3 Cities (3C) Study, a population cohort of French elderly individuals that served as controls in several GWAS conducted with French patients. From this cohort, we had access to 4,433 genotyped individuals sampled in three regions of France but born allover France.

We selected a subset of 770 individuals to cover evenly the different regions of France and applied methods that utilize haplotype,information for detecting fine-scale population structure. The 770 individuals were partitioned into homogeneous clusters using
CHROMOPAINTER and fineSTRUCTURE analysis (Lawson et al. 2012). Six clusters were identified that correlate well with the geographic origin of individuals. The coarsest level of genetic differentiation
separates the samples from southwestern French from
all the others. Subsequent splits reveal more subtle differentiation except for samples from western France which showed a relatively high degree of homogeneity.

For each cluster we used CHROMOPAINTER to estimate an "ancestry profile” which characterises the ancestry of the cluster as a mixture of the reference sample. Using the subsample of 770 individuals
as a reference sample to assign the remaining 3C individuals, we found that the cluster assignment was coherent withthe places of birth of individuals. The same procedure was applied using the five European samples from the 1000 Genomes Project as a reference sample. Contribution from European populations
shows a cline roughly north-south, in ancestry profiles. Spain (IBS) is the largest contributor of the southwest and south clusters while the highest contribution of Great-Britain (GBR) population is observed in Brittany.

In conclusion, we provide evidence that there exist some levels of genetic stratification in France. The French population could roughly be divided into 6 genetic clusters that correlate well with geography. The knowledge of this stratification pattern will be useful to design robust and powerful association studies

https://www.karger.com/Article/PDF/...

Fil des commentaires de ce billet

Ajouter un rétrolien

URL de rétrolien : http://secher.bernard.free.fr/blog/index.php?trackback/146

« Structure génétique de l'Italie - Structure génétique et linguistique des »

Généalogie génétique