les trois
niveaux d'une analyse de langage :
lexique, thématique et syntaxique, les cartes mentales.
Examinons
plus en détails ces trois types d'analyse de textes.
L'analyse lexicale
L'analyse
lexicale a pour but de découvrir l'ensemble des mots différents
prononcés par un ensemble de personnes sur un sujet donné. L'ensemble
de ces mots constituent le lexique du sujet étudié.
Disons
tout de suite que le mot " mot " n'existe pas en
linguistique.
Pour l'ordinateur comme pour le profane, un mot se définit par
ce qui est compris entre deux blancs ;
pour le linguiste un tel mot peut contenir un ou plusieurs " morphèmes
". Le morphème est le plus petit élément signifiant porteur d'un
signifié. Prenons un exemple : le mot " travaillons
" est constitué de deux morphèmes,
le morphème " travail- " et le morphème " -ons
" qui signifie nous.
NOTE
: en statistique lexicale, on a l'habitude de distinguer le lexique,
liste des termes différents employés dans les textes analysés,
et le vocabulaire qui prend en compte le nombre de fois
(occurrences) où chaque mot du lexique est prononcé.
Depuis
longtemps des spécialistes de la statistique se sont penchés à
la recherche des lois statistiques du langage.
La
" loi " la plus célèbre est celle de Zipf (La psychobiologie
du langage, 1935) qui n'est pas sans nous rappeler celle de
Pareto. Cette loi dit : Rang
x Fréquence => Constante, le
rang d'un mot multiplié par sa fréquence TEND vers une constante)
Ainsi,
si l'on classe les mots d'un texte par ordre décroissant d'importance
en fréquence en leur donnant un rang, on trouvera le tableau "
idéal " ci-dessous :
RANG
FREQUENCE
R x F
1
1000
1000
2
500
1000
3
333
1000
4
250
1000
...
...
...
N
1
1000
Cette
loi est fondamentale pour un spécialiste de la communication,
car elle signifie qu'il n'est nullement nécessaire d'étudier tout
le lexique de la personne sur laquelle on veut agir, mais seulement
les mots les plus fréquents. Ces mots, nous avons pris l'habitude
de les appeler mots-clés.
Il
est à noter que la loi de Zipf s'avère (presque) toujours vérifiée,
à deux conditions : que le texte étudié soit assez long (environ
500.000 occurrences), et que tous les mots soient comptabilisés,
y compris les adverbes, les prépositions...
Mais
la plupart du temps, on ne prend en compte dans une étude que
les mots possédant en eux-mêmes, un certain sens, généralement
les substantifs, les verbes, les adjectifs essentiellement. Dans
ce cas, un grand nombre de mots seront éliminés de l'analyse,
parmi les plus fréquents : des mots tels que Etre, Avoir, Je,
Il...
Dans ce cas, la loi de Zipf ne sera plus respectée.
Nous
avons découvert en 1975 que :
1. Avec les 10 % des mots les plus fréquents d'un texte (avec
un lexique d'environ 800 mots au total), on peut construire 90
% du discours,
2. Les phrases dans lesquelles figurent ces mots-clés, correspondent
(presque) à l'ensemble du texte.
Le
rapport n'est pas exactement 10/90, il peut varier et aller jusqu'à
20/50 dans les textes les plus littéraires. Mais dans un texte
commercial si nous n'obtenons pas le rapport habituel 10/90, c'est
que le texte étudié n'est pas représentatif du discours, donc
pas assez long.
Notre
commençons toute analyse de langage par une analyse lexicale,
c'est-à-dire par la mise à jour du lexique de base d'une série
de textes, avant de procéder aux deux autres types d'analyses
: thématique et syntaxique.