Comment lire cette carte ?
Un point symbolise un mot.
Un trait symbolise une relation de synonymie.
L’épaisseur des liens varie selon la force de la synonymie.
La couleur varie selon la taille des grappes de mots (seules les grappes les plus importantes sont colorées).
Analyse
L'image ci-dessus est celle que je trouve la plus sexy, elle a été réalisée pour impression. Toutefois, elle n'est peut-être pas idéale si on veut tenter d'analyser ce qui ce passe.
En voici une autre version :
Il s'agit du même graphe, seule sa repréentation change un peu.
Alors, qu'est-ce qu'elle nous apprend cette carte ? Voyons voir...
L'ensemble le plus large regroupe les noms (dans le lobe de droite) et les adjectifs (dans le lobe de gauche). Ces deux lobes sont assez densément liés par des mots qui peuvent être des noms ou des adjectifs (mort, calme, chagrin...).
Les adjectifs sont plus polarisés que les noms, c'est à dire que les pôles d'interconnexion se positionnent plus volontiers à la périphérie en raison des fortes oppositions sémantiques. A contrario, le réseau des noms est plus inextricable, probablement en raison d'une plus grande polysémie.
Dans la partie inférieure de cet ensemble, on trouve une grande quantité de nœuds gris, signifiant des clusters de petite taille accumulés et peu liés. Ils s'agit de noms ou d'adjectifs relativement spécifiques, peu usités et modérément liés au reste du champ lexical (sardinier, ébarboir, monopoliste...)
En dessous du lobe des adjectifs, on trouve l'ensemble plus clairsemé des quantitatifs (dangereusement, aventureusement, parfois...). Ils sont liés aux adjectifs par de véritables autoroutes sémantiques, composées de peu de nœuds de degré extrêmement élevé (beaucoup, bien...)
Le vaste ensemble en bas à droite, assez séparé du reste, contient les verbes. Ils sont liés aux autres lobes par quelques mots polysémiques, qui peuvent être selon le contexte des noms/adjectifs ou des verbes (tendre, baiser, dîner, cocher, bûcher...)
Les verbes constituent de vastes clusters très densément liés et au maillage bien plus uniforme que les noms ou adjectifs.
Enfin, quelques sous graphes de taille variable gravitent autour de ceux-ci (peu liés ou non liés). Certains sont un peu rigolos.
Infos techniques
Ces images sont calculées à partir d'un jeu de données issu du DES, fourni par le CRISCO. C'est la base de données qu'utilise le CNRTL.
Elle représente 50 240 mots et 172 221 liens de synonymie.
Le "dépliage" du graphe est réalisé avec l'algorithme ForceAtlas2.
La délimitation des clusters pour la coloration est effectuée par l'algorithme Leiden.