|
|
|||||||||||||||||||||
Lexique
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|
L'analyse
lexicale a pour but de découvrir l'ensemble des mots
différents prononcés par un ensemble de personnes sur un sujet donné.
L'ensemble de ces mots constitue le lexique du sujet étudié. Disons tout de suite que le mot « mot » n’existe pas en linguistique.
Pour l’ordinateur comme pour le profane, un mot se définit par ce qui
est compris entre deux blancs ; pour le linguiste un tel mot peut contenir
un ou plusieurs « morphèmes ». Le morphème est le plus
petit élément signifiant porteur d’un signifié. Prenons un exemple :
le mot « travaillons » est constitué de deux morphèmes,
le morphème « travail- » et le morphème « -ons »
qui signifie nous. NOTE : en statistique
lexicale, on a l’habitude de distinguer le lexique, liste des termes différents
employés dans les textes analysés, et le vocabulaire
qui prend en compte le nombre de fois (occurrences) où chaque mot du
lexique est prononcé. Depuis longtemps des spécialistes de la statistique se
sont penchés à la recherche des lois statistiques du langage. La « loi » la plus célèbre est celle de Zipf (La psychobiologie du langage, 1935)
qui n’est pas sans nous rappeler celle de Pareto. Cette loi dit : Rang x
Fréquence = Constante (Le rang d’un
mot multiplié par sa fréquence TEND vers une constante) Ainsi, si l'on classe les mots d'un texte par ordre
décroissant d'importance en fréquence
en leur donnant un rang, on trouvera le tableau "idéal" ci-dessous
:
Cette loi est fondamentale pour un spécialiste de la
communication, car elle signifie qu’il n’est nullement nécessaire d’étudier
tout le lexique de la personne sur laquelle on veut agir, mais seulement les
mots les plus fréquents. Ces mots, nous avons pris l’habitude de les appeler mots-clés. Il est à noter que la loi de Zipf s’avère (presque)
toujours vérifiée, à deux conditions : que le texte étudié soit assez long
(environ 500.000 occurrences), et que tous les mots soient comptabilisés, y
compris les adverbes, les prépositions... Mais la plupart du temps, on ne prend en compte dans une
étude que les mots possédant en eux-mêmes, un certain sens, généralement les
substantifs, les verbes, les adjectifs essentiellement. Dans ce cas, un grand
nombre de mots seront éliminés de l’analyse, parmi les plus fréquents :
des mots tels que Etre, Avoir, Je, Il... Dans ce cas, la loi de Zipf ne sera plus respectée. Mais nous avons créée une autre loi dans les années 1975
qui dit que : 1. Avec les 10 % des mots les plus fréquents d’un texte
(avec un lexique d'environ 800 mots au total), on peut construire 90 % du
discours, 2. Les phrases dans lesquelles figurent ces
mots-clés, couvrent (presque) la totalité du texte. Le rapport n’est pas exactement 10/90, il peut varier et
aller jusqu’à 20/50 dans les textes les plus littéraires. Mais dans un texte
commercial si nous n’obtenons pas le rapport habituel 10/90, c’est que le
texte étudié n’est pas représentatif du discours, donc pas assez long. Notre commençons toute analyse de langage par une analyse
lexicale, c’est-à-dire par la mise à jour du lexique de base d’une série de textes, avant de procéder aux
deux autres types d’analyses : thématique et syntaxique. |