Dictionnaire de cooccurrences
Les mots, comme les individus, n’existent pas dans le vide. Ils prennent tout leur sens dans leur association aux autres. Le dictionnaire de cooccurrences dresse un inventaire complet des associations de mots. Éperdument amoureux, lumière vive, perpétuer le souvenir, ce sont ces centaines de milliers de mariages lexicaux qui donnent au français sa couleur particulière.
Pour créer cet immense ouvrage, nous avons doublement eu recours aux ressources informatiques. Nous avons d’abord écumé le Web francophone pour constituer un corpus de 7 milliards de mots, ou 300 millions de phrases, tiré de milliers de sources distinctes. Parmi celles-ci, des sites journalistiques, comme ceux du Monde et du Devoir, des bibliothèques numériques, comme Gallica et Projet Gutenberg, et de nombreux sites d’intérêt général forment une image représentative du français écrit dans ses diverses réalisations.
Nous avons ensuite utilisé l’analyseur d’Antidote pour extraire les associations intéressantes de ce gigantesque corpus. Nous avons isolé les noms et leurs épithètes, les verbes et leurs compléments, les adjectifs et leurs adverbes, et plusieurs autres relations syntaxiques typiques. Un filtre statistique a permis de retenir les combinaisons fortes, c’est-à-dire significativement fréquentes et singulières. Grâce à la puissance de l’analyseur, des combinaisons même très distantes ont été relevées, par exemple à travers un pronom relatif ou un verbe support, ce qui a augmenté la précision des statistiques par rapport à des méthodes classiques de simple proximité.
Les cooccurrences dégagées ont été classées d’abord par sens, lorsque l’un ou l’autre mot avait plus d’un sens, et ensuite par contexte syntaxique : épithètes, sujets, compléments, etc. De plus, nous avons choisi d’écrire chaque cooccurrence au long, avec flexion et déterminant les plus fréquents, comme amour d’une femme, amour de son fils, et amour des mots. Le résultat est une liste ordonnée, complète, facilement lisible.
Pour illustrer chaque cooccurrence, nous avons conçu une euristique pour sélectionner des phrases exemples selon divers critères. Près d’un million de phrases de notre corpus ont ainsi été retenues, livrant en moyenne plus de deux exemples par cooccurrence. Les exemples s’affichent en colonne à droite lorsque l’on sélectionne une cooccurrence, et aident à comprendre le sens et l’emploi de celle-ci. Autrement, on peut examiner en parallèle les définitions du premier terme cooccurrent.
Tout au long du processus, nos linguistes ont validé l’intérêt et l’exactitude des données, marquant au passage les combinaisons perçues comme familières ou très familières. Ont également été filtrés les exemples inappropriés ou mal formulés, problèmes dont l’euristique de sélection ne pouvait évidemment pas juger.
Pour doter un mot donné de l’adjectif parfait, du verbe le plus adapté ou de l’adverbe le plus évocateur, le dictionnaire de cooccurrences, par son portrait unique de la langue sous son angle associatif, vous deviendra vite indispensable.