Exposé des cours - N°21 / page 2
 
p
les trois niveaux d'une analyse de langage :
lexique, thématique et syntaxique, les cartes mentales.

Examinons plus en détails ces trois types d'analyse de textes.

L'analyse lexicale

L'analyse lexicale a pour but de découvrir l'ensemble des mots différents prononcés par un ensemble de personnes sur un sujet donné. L'ensemble de ces mots constituent le lexique du sujet étudié.

Disons tout de suite que le mot " mot " n'existe pas en linguistique.
Pour l'ordinateur comme pour le profane, un mot se définit par ce qui est compris entre deux blancs ;
pour le linguiste un tel mot peut contenir un ou plusieurs " morphèmes ". Le morphème est le plus petit élément signifiant porteur d'un signifié. Prenons un exemple : le mot " travaillons " est constitué de deux morphèmes,
le morphème " travail- " et le morphème " -ons " qui signifie nous.

NOTE : en statistique lexicale, on a l'habitude de distinguer le lexique, liste des termes différents employés dans les textes analysés, et le vocabulaire qui prend en compte le nombre de fois (occurrences) où chaque mot du lexique est prononcé.

Depuis longtemps des spécialistes de la statistique se sont penchés à la recherche des lois statistiques du langage.

La " loi " la plus célèbre est celle de Zipf (La psychobiologie du langage, 1935) qui n'est pas sans nous rappeler celle de Pareto. Cette loi dit :
Rang x Fréquence => Constante, le rang d'un mot multiplié par sa fréquence TEND vers une constante)

Ainsi, si l'on classe les mots d'un texte par ordre décroissant d'importance en fréquence en leur donnant un rang, on trouvera le tableau " idéal " ci-dessous :

RANG
FREQUENCE
R x F
1
1000
1000
2
500
1000
3
333
1000
4
250
1000
...
...
...
N
1
1000

Cette loi est fondamentale pour un spécialiste de la communication, car elle signifie qu'il n'est nullement nécessaire d'étudier tout le lexique de la personne sur laquelle on veut agir, mais seulement les mots les plus fréquents. Ces mots, nous avons pris l'habitude de les appeler mots-clés.

Il est à noter que la loi de Zipf s'avère (presque) toujours vérifiée, à deux conditions : que le texte étudié soit assez long (environ 500.000 occurrences), et que tous les mots soient comptabilisés, y compris les adverbes, les prépositions...

Mais la plupart du temps, on ne prend en compte dans une étude que les mots possédant en eux-mêmes, un certain sens, généralement les substantifs, les verbes, les adjectifs essentiellement. Dans ce cas, un grand nombre de mots seront éliminés de l'analyse, parmi les plus fréquents : des mots tels que Etre, Avoir, Je, Il...
Dans ce cas, la loi de Zipf ne sera plus respectée.

Nous avons découvert en 1975 que :
1. Avec les 10 % des mots les plus fréquents d'un texte (avec un lexique d'environ 800 mots au total), on peut construire 90 % du discours,
2. Les phrases dans lesquelles figurent ces mots-clés, correspondent (presque) à l'ensemble du texte.

Le rapport n'est pas exactement 10/90, il peut varier et aller jusqu'à 20/50 dans les textes les plus littéraires. Mais dans un texte commercial si nous n'obtenons pas le rapport habituel 10/90, c'est que le texte étudié n'est pas représentatif du discours, donc pas assez long.

Notre commençons toute analyse de langage par une analyse lexicale, c'est-à-dire par la mise à jour du lexique de base d'une série de textes, avant de procéder aux deux autres types d'analyses : thématique et syntaxique.


p