Introduction
L’alliance entre l’informatique et les sciences du texte, amorcée dès les premières expériences de statistique lexicale et de traitement automatique du langage, a profondément transformé les manières de constituer, d’interroger et d’interpréter les corpus. Ce déplacement n’est pas seulement technique. Il modifie les régimes de preuve, les formes de description, les conditions de reproductibilité et, plus encore, l’économie même du regard porté sur le texte. Là où la lecture savante reposait d’abord sur une fréquentation linéaire et cumulative des documents, l’analyse outillée rend possible une exploration réticulaire, comparative, distributionnelle et sérielle des formes linguistiques, des unités lexicales, des segments répétés, des cooccurrences, des classes sémantiques et des configurations discursives. La donnée textuelle cesse ainsi d’être seulement un matériau à lire ; elle devient également un ensemble structuré d’observables susceptibles d’être décrits, calculés, visualisés et recontextualisés.
Cette transformation concerne directement les sciences du langage, l’analyse du discours, la littérature, la didactique, la traduction, la sociolinguistique, la sociologie qualitative, l’histoire culturelle et l’ensemble des disciplines qui travaillent sur des textes. Elle se manifeste dans la diffusion d’outils tels que Tropes, Hyperbase, Lexico3, TXM, IRaMuTeQ, Alceste, Iramuteq, Nvivo, ATLAS.ti ou MAXQDA, mais aussi dans l’extension de pratiques issues des humanités numériques : constitution de corpus balisés, exploitation de bases textuelles, exploration de grands volumes documentaires, analyse de réseaux lexicaux, visualisation des résultats, alignement de métadonnées et interrogation statistique des phénomènes discursifs. Le développement récent de l’intelligence artificielle et des assistants de codage ne supprime pas les questions anciennes ; il les radicalise. Plus les outils deviennent puissants, plus la responsabilité interprétative du chercheur doit être explicitée.
Le présent article part d’un constat simple : plusieurs chercheurs continuent d’opposer la lecture manuelle et l’analyse automatisée comme deux pratiques incompatibles. D’un côté, la lecture manuelle serait seule capable de saisir la nuance, l’ironie, l’implicite, la métaphore et l’épaisseur historique du texte. De l’autre, l’analyse automatisée serait censée garantir l’objectivité, la rapidité et la neutralité des résultats. Cette opposition, si elle a une valeur pédagogique, s’avère scientifiquement insuffisante dès que l’on observe les pratiques de recherche réelles. Dans les études de corpus, l’analyse rigoureuse naît précisément de l’articulation entre plusieurs régimes de lecture : lecture rapprochée, lecture distante, lecture statistique, lecture contextuelle, lecture comparative et retour herméneutique aux passages significatifs.
Notre objectif est donc de préciser les enjeux épistémologiques, méthodologiques et heuristiques de l’automatisation de l’analyse des données textuelles. Épistémologiques, parce que tout logiciel incorpore une conception particulière du texte, du mot, de la phrase, du contexte, de la fréquence, de la catégorie et de la preuve. Méthodologiques, parce que l’usage d’un outil suppose des choix explicites : constitution du corpus, nettoyage, normalisation, lemmatisation, segmentation, choix des métadonnées, paramétrage, seuils, validation et interprétation des sorties de la machine. Heuristiques, enfin, parce que le logiciel ne se contente pas de confirmer des hypothèses préalables : il peut faire émerger des régularités imprévues, déplacer une problématique, ouvrir des pistes d’analyse et contraindre le chercheur à réviser ses évidences.
La contribution adopte une démarche de synthèse raisonnée. Elle ne prétend pas dresser un inventaire exhaustif de tous les logiciels disponibles, entreprise rendue impossible par l’évolution rapide des environnements numériques et des offres commerciales. Elle propose plutôt une cartographie conceptuelle des familles d’outils, une discussion des avantages et des limites de l’automatisation, une présentation critique de quelques logiciels emblématiques et, surtout, un ensemble de critères permettant de choisir un outil en fonction d’une problématique scientifique précise. La thèse défendue est la suivante : l’automatisation n’a de valeur scientifique que lorsqu’elle demeure subordonnée à une question de recherche, à une théorie du corpus, à une méthode de validation et à une interprétation responsable. Autrement dit, le logiciel n’analyse jamais seul ; il assiste, augmente, contraint et documente un geste de lecture qui reste fondamentalement humain.
1. Fondements épistémologiques et méthodologiques de l’analyse textuelle instrumentée
1.1. De la donnée textuelle au corpus instrumenté
L’expression « données textuelles » peut donner l’illusion d’un matériau déjà disponible, homogène et immédiatement exploitable. Or, dans les sciences du texte, la donnée n’est jamais donnée une fois pour toutes. Elle est construite par des opérations de sélection, de découpage, de transcription, d’encodage, de nettoyage, de normalisation et de documentation. Un ensemble de textes ne devient un corpus scientifique que lorsqu’il est justifié par une question de recherche, stabilisé par des critères d’inclusion et d’exclusion, accompagné de métadonnées pertinentes et rendu compatible avec des procédures d’analyse explicites. Cette exigence est capitale : un logiciel puissant appliqué à un corpus mal constitué ne produit pas une analyse rigoureuse ; il n’accélère que la production d’artefacts.
L’automatisation impose ainsi de penser la corpusisation comme une étape méthodologique à part entière. Dans un corpus littéraire, le chercheur devra décider s’il conserve les préfaces, les notes, les titres courants, les variantes éditoriales ou les paratextes. Dans un corpus d’entretiens, il devra choisir un protocole de transcription et marquer, ou non, les pauses, les chevauchements, les hésitations et les gestes. Dans un corpus médiatique, il devra contrôler les doublons, les métadonnées de publication, les auteurs, les rubriques et les dates. Dans un corpus numérique issu du Web, il devra gérer les déchets de scraping, les liens, les menus, les publicités et les fragments non pertinents. Ces choix ne sont pas neutres : ils orientent les résultats avant même le lancement de l’analyse.
Le passage du texte au corpus instrumenté suppose également une réflexion sur les unités. Les logiciels ne traitent pas tous les mêmes types d’objets. Certains comptent des formes graphiques ; d’autres regroupent des lemmes ; certains identifient des catégories grammaticales ; d’autres travaillent sur des segments répétés, des cooccurrences, des classes de mots, des unités de contexte élémentaires, des thèmes, des codes ou des familles sémantiques. Le mot « peuple », par exemple, n’a pas la même valeur selon qu’il est compté comme forme isolée, ramené à une famille lexicale, observé dans ses cooccurrents, situé dans un segment récurrent, opposé à un autre sous-corpus ou replacé dans une séquence argumentative. La décision technique engage donc une théorie implicite du sens.
Cette dimension est particulièrement importante dans les humanités numériques. L’outillage ne consiste pas à rendre le texte transparent ; il crée de nouveaux médiateurs entre le chercheur et le corpus. Les listes de fréquences, les concordances, les graphes, les analyses factorielles, les classifications hiérarchiques descendantes et les visualisations produisent des représentations qui demandent à être interprétées. Ces représentations ne sont ni de simples miroirs du corpus ni des preuves autosuffisantes. Elles sont des inscriptions secondaires qui réorganisent le matériau et permettent au chercheur d’y circuler autrement. La rigueur scientifique consiste alors à expliciter le chemin qui mène de l’observation calculée à l’argument interprétatif.
C’est pourquoi l’automatisation de l’analyse textuelle ne doit pas être réduite à un simple gain de temps. Elle transforme le statut des indices textuels. Elle permet de vérifier la fréquence d’un phénomène, de repérer des régularités invisibles à la lecture, de comparer des sous-ensembles, d’objectiver des contrastes, d’identifier des singularités et de formuler des hypothèses nouvelles. Mais elle oblige aussi à distinguer soigneusement l’observable calculé, le résultat statistique, la visualisation, l’interprétation linguistique et la conclusion scientifique. Confondre ces niveaux revient à accorder au logiciel une autorité qu’il ne possède pas.
1.2. Lecture manuelle et analyse automatisée : une complémentarité à construire
La distinction entre analyse manuelle et analyse automatisée se situe d’abord au niveau de la délégation opératoire. Dans l’analyse manuelle, le chercheur lit, annote, compare, catégorise, cite et interprète directement les passages jugés significatifs. Il peut mobiliser des surligneurs, des fiches, des grilles de codage ou des tableaux, mais la sélection des indices dépend essentiellement de son attention et de sa mémoire. Dans l’analyse automatisée, une partie de ces opérations est confiée à un logiciel : repérage, comptage, segmentation, indexation, regroupement, calcul de spécificités, classification, visualisation ou extraction de concordances. Toutefois, cette délégation n’abolit pas le rôle du chercheur ; elle en déplace le centre de gravité.
L’analyse manuelle demeure irremplaçable lorsqu’il s’agit de saisir l’épaisseur pragmatique, rhétorique, intertextuelle et historique d’un passage. Elle permet de reconnaître l’ironie, l’allusion, l’ambivalence, la valeur figurale d’une expression, le déplacement de point de vue, la polyphonie énonciative ou la charge axiologique d’un terme dans une situation donnée. Elle autorise une attention qualitative aux ruptures, aux silences, aux hésitations et aux formes non réductibles à la répétition. Mais elle présente aussi des limites connues : elle est lente, sélective, sujette aux biais de confirmation, dépendante de la mémoire du lecteur et difficile à reproduire lorsque le corpus devient volumineux.
L’analyse automatisée, pour sa part, offre une puissance d’exploration incomparable lorsque le corpus dépasse les capacités ordinaires de la lecture humaine. Elle permet de produire rapidement des inventaires lexicaux, des concordanciers, des listes de formes spécifiques, des graphes de cooccurrence, des cartographies factorielles et des regroupements de textes. Elle réduit certaines erreurs de comptage, documente les procédures, permet la comparaison de sous-corpus et favorise la reproductibilité. Elle ne neutralise pourtant pas tous les biais. Les biais peuvent se déplacer vers la constitution du corpus, le choix du logiciel, les paramètres, les seuils, les dictionnaires intégrés, les catégories prédéfinies ou les choix d’interprétation.
Tableau — Synthèse méthodologique : Lecture manuelle et analyse automatisée : une complémentarité à construire.
|
Dimension |
Lecture manuelle |
Analyse automatisée |
Principe d’articulation |
|
Échelle |
Corpus limité, lecture intensive |
Corpus étendu, exploration sérielle |
Passer du global aux extraits |
|
Indice |
Sélection interprétative |
Repérage calculé |
Vérifier les sorties par concordances |
|
Biais |
Biais de confirmation, mémoire sélective |
Biais de corpus, de modèle et de paramétrage |
Documenter les choix |
|
Preuve |
Citation, analyse locale |
Fréquence, spécificité, cooccurrence, classe |
Relier chiffre et contexte |
|
Risque |
Impressionnisme |
Technicisme descriptif |
Trianguler les lectures |
Le point décisif est donc le suivant : l’automatisation ne remplace pas la lecture, elle lui fournit un autre régime d’accès au texte. Les résultats calculés n’ont de valeur que s’ils sont soumis à un retour au corpus. Une spécificité lexicale, par exemple, doit être interprétée à partir de concordances et de contextes ; une classe de discours doit être vérifiée par la lecture des segments qui la composent ; une opposition factorielle doit être expliquée par les propriétés linguistiques et discursives des textes concernés. L’analyse automatisée devient scientifiquement pertinente lorsqu’elle amplifie une lecture attentive, et non lorsqu’elle s’y substitue.
La métaphore proposée par Hart, opposant le policier qui circule dans les rues au pilote d’hélicoptère qui survole la ville, conserve ici toute sa force. La lecture manuelle permet d’habiter le détail ; la lecture outillée permet d’apercevoir des configurations d’ensemble. L’une sans l’autre risque soit l’impressionnisme, soit la froideur descriptive. La première peut manquer les régularités globales ; la seconde peut méconnaître les effets de sens locaux. Une méthodologie robuste doit donc organiser des allers-retours : exploration automatique, repérage des indices, retour aux extraits, interprétation qualitative, reformulation des hypothèses, relance de l’outil, puis stabilisation argumentative.
Cette complémentarité est d’autant plus nécessaire que la plupart des objets contemporains sont hybrides. L’analyse d’un discours politique, d’un corpus scolaire, d’une archive médiatique ou d’un ensemble d’entretiens ne peut se satisfaire ni d’une simple lecture intuitive ni d’un pur calcul. Elle suppose de relier les formes lexicales aux scènes d’énonciation, les distributions aux genres discursifs, les fréquences aux valeurs, les cooccurrences aux stratégies argumentatives et les résultats statistiques aux cadres sociohistoriques. La machine ne comprend pas le texte ; elle en redistribue les indices. Le chercheur, lui, doit transformer ces indices en preuves interprétables.
1.3. Les enjeux épistémologiques du recours aux logiciels
Tout logiciel d’analyse textuelle repose sur une modélisation du texte. Même lorsqu’il se présente comme un outil pratique, il implique des choix théoriques : définition de l’unité de calcul, conception de la proximité lexicale, traitement de la polysémie, prise en charge de la morphologie, rapport entre forme et lemme, manière d’identifier les contextes, règles de segmentation, type de visualisation et hiérarchie des résultats. C’est pourquoi aucun logiciel n’est épistémologiquement neutre. Choisir Hyperbase, Tropes, Lexico3, TXM, IRaMuTeQ, NVivo ou ATLAS.ti ne revient pas seulement à choisir une interface ; c’est choisir une manière de rendre le corpus observable.
Les logiciels de textométrie et de logométrie prolongent l’école française d’analyse des données textuelles. Ils s’intéressent aux distributions, aux fréquences, aux spécificités, aux cooccurrences, aux distances lexicales et aux oppositions entre sous-corpus. Ils produisent des observables statistiques qui requièrent une interprétation linguistique et discursive. Les logiciels d’analyse sémantique, comme Tropes, s’appuient davantage sur des catégories, des scénarios, des classes d’équivalents et des procédures de désambiguïsation. Les logiciels CAQDAS, tels que NVivo, ATLAS.ti ou MAXQDA, relèvent surtout de l’assistance au codage qualitatif : ils aident à organiser, annoter, relier, mémoriser et visualiser des unités de sens définies par le chercheur. Ces familles ne sont pas hermétiques, mais elles n’impliquent pas les mêmes gestes scientifiques.
L’enjeu épistémologique majeur tient à la relation entre le calcul et l’interprétation. Le calcul produit des régularités ; l’interprétation leur attribue une valeur. Une fréquence élevée n’est pas automatiquement un indice pertinent. Une forme rare peut être décisive ; une forme fréquente peut être banale ; une absence peut être signifiante ; une cooccurrence peut être accidentelle ; une classe thématique peut être le résultat d’un découpage inadéquat. Les sorties-machines ne sont donc pas des conclusions, mais des propositions d’observation. Elles doivent être examinées, contextualisées, discutées et parfois rejetées.
Cette vigilance vaut plus encore à l’ère de l’intelligence artificielle. Les outils récents produisent des résumés, des thèmes, des regroupements automatiques, des propositions de codage et parfois des interprétations formulées en langue naturelle. Ces fonctionnalités peuvent accélérer l’exploration, mais elles introduisent aussi des risques : opacité des modèles, hallucinations, homogénéisation des interprétations, dépendance aux données d’entraînement, fragilité des résultats non reproductibles, confusion entre plausibilité rhétorique et preuve scientifique. L’automatisation devient alors d’autant plus féconde qu’elle est encadrée par une culture méthodologique forte.
La question n’est pas de savoir si le logiciel pense, mais de savoir ce que son fonctionnement rend visible, ce qu’il masque, ce qu’il stabilise et ce qu’il transforme. Un bon usage des logiciels exige une réflexivité permanente : pourquoi ce corpus ? Pourquoi cette unité ? Pourquoi ce seuil ? Pourquoi cette visualisation ? Pourquoi ce dictionnaire ? Pourquoi cette catégorie ? Pourquoi cette interprétation ? En répondant à ces questions, le chercheur transforme l’outil en un instrument scientifique. Sans cette réflexivité, il risque de produire une description séduisante mais faible, riche en graphes et pauvre en démonstration.
L’automatisation n’est donc pas l’ennemi de l’herméneutique. Elle peut, au contraire, favoriser une herméneutique plus contrôlée, mieux documentée et plus réfutable. Elle oblige à expliciter les procédures, à conserver les traces des opérations, à revenir aux données et à confronter les intuitions aux régularités du corpus. Elle permet également de déplacer l’interprétation de l’exemple isolé vers la série, du fragment vers la configuration, de l’impression vers la distribution. C’est dans cette articulation entre calcul et sens que réside l’apport propre de l’analyse textuelle assistée par ordinateur.
1.4. Les apports méthodologiques de l’automatisation
Le premier apport de l’automatisation est l’élargissement de l’échelle d’analyse. Un chercheur peut lire attentivement quelques textes, mais il ne peut parcourir avec la même intensité des milliers d’articles de presse, des centaines de romans, des années de débats parlementaires ou des corpus massifs issus des réseaux numériques. Les logiciels permettent d’ouvrir ces ensembles à l’observation scientifique. Ils rendent possible le traitement de volumes considérables, ainsi que la comparaison entre périodes, auteurs, genres, disciplines, langues ou positions énonciatives. Ce saut quantitatif ne vaut pas par lui-même ; il vaut parce qu’il autorise des questions auparavant difficiles à formuler.
Le second apport concerne la rapidité et la flexibilité. Le logiciel peut produire en quelques minutes un dictionnaire de fréquences, une liste de segments répétés, des concordances, une carte factorielle ou un graphe de relations lexicales. Cette rapidité libère du temps pour l’interprétation, à condition que le chercheur ne confonde pas la vitesse d’obtention des résultats et maturité de l’analyse. Elle permet de tester plusieurs hypothèses, de modifier les paramètres, d’examiner des sous-corpus, de relancer des requêtes et d’explorer des pistes concurrentes. L’analyse devient plus itérative, plus expérimentale, plus ouverte à la surprise.
Le troisième apport tient à la reproductibilité. Dans une analyse manuelle, deux lecteurs peuvent diverger fortement dans leur manière de sélectionner les passages, de coder les thèmes ou de classer les unités. L’analyse outillée ne supprime pas les divergences interprétatives, mais elle rend plus explicites les étapes qui précèdent l’interprétation. Le même corpus, soumis aux mêmes paramètres, produit les mêmes résultats calculés. Cette stabilité est précieuse pour la discussion scientifique : elle permet à d’autres chercheurs de vérifier les procédures, de contester les choix, de reproduire les résultats ou de proposer d’autres interprétations.
Le quatrième apport relève de la désubjectivation relative. L’ordinateur ne lit pas sans présupposés, puisqu’il dépend d’un programme et d’un paramétrage ; mais il peut faire apparaître des phénomènes que le chercheur n’attendait pas. Il peut contredire une intuition, relativiser une impression de lecture, mettre en évidence une forme négligée, signaler une association lexicale récurrente, révéler la singularité d’un sous-corpus ou montrer qu’un terme supposé central est en réalité marginal. Cette capacité d’interpellation constitue l’un des avantages majeurs de la lecture outillée : le logiciel ne pense pas à la place du chercheur, mais il peut contredire ses hypothèses.
Le cinquième apport porte sur l’organisation collective du travail. Les environnements numériques permettent de partager des corpus, de documenter les métadonnées, de conserver les codages, de comparer les annotations, d’exporter des résultats, de produire des visualisations et de rendre les procédures plus transparentes. Dans les projets interdisciplinaires, cette dimension est décisive. Elle favorise la discussion entre linguistes, littéraires, informaticiens, statisticiens, sociologues et didacticiens. L’objet textuel devient un terrain commun où les compétences se complètent : connaissance du domaine, maîtrise linguistique, méthodologie quantitative, interprétation qualitative et culture informatique.
Ces apports ne doivent toutefois pas être compris comme une promesse d’automatisation totale. Le gain scientifique dépend de la qualité de la question posée, de la pertinence du corpus, de la maîtrise de l’outil et de la capacité du chercheur à interpréter les résultats. Le logiciel peut augmenter les capacités mnésiques, accélérer les opérations de codage, élargir l’envergure du corpus et signaler des régularités fines ; il ne peut pas décider seul de la signification d’un phénomène. La valeur ajoutée réside dans l’articulation entre la puissance opératoire de la machine et l’intelligence critique de l’analyste.
2. Cartographie critique des outils et des gestes d’analyse
2.1. Présentation critique de quelques logiciels d’analyse textuelle
Le paysage des logiciels d’analyse des données textuelles est vaste, mouvant et hétérogène. On y trouve des outils de textométrie, des plateformes d’analyse sémantique, des environnements de codage qualitatif, des logiciels de fouille textuelle, des interfaces de visualisation, des bibliothèques de traitement automatique du langage et, désormais, des assistants d’analyse fondés sur l’intelligence artificielle. L’objectif de cette section n’est pas de fournir un manuel d’utilisation, mais de présenter quelques outils emblématiques selon leur logique scientifique dominante.
Tropes relève principalement de l’analyse sémantique et cognitivo-discursive. Conçu dans le prolongement des travaux de Rodolphe Ghiglione, il vise à identifier des catégories grammaticales, des univers de référence, des classes d’équivalents, des relations sémantiques et des styles discursifs. Son intérêt tient à sa capacité à dépasser le simple comptage des formes graphiques pour proposer une catégorisation sémantique du contenu. Il peut être utile pour des corpus où l’on souhaite repérer les référents dominants, les modes d’énonciation, les relations temporelles ou les scénarios lexicaux. Sa limite principale tient au caractère partiellement prédéfini de ses catégories et à la nécessité de vérifier les regroupements par un retour aux contextes.
Hyperbase occupe une place centrale dans la tradition française de statistique textuelle et de logométrie. Développé par Étienne Brunet puis prolongé par des versions web, il combine exploration documentaire et calcul statistique : concordances, dictionnaires, spécificités, distances, cooccurrences, analyses factorielles et comparaison de sous-corpus. Son intérêt est particulièrement fort pour les grands corpus littéraires, politiques, médiatiques ou historiques. Il permet d’articuler l’exploration lexicale, la comparaison diachronique et l’interprétation des contrastes. Les développements récents d’Hyperbase Web renforcent encore l’accessibilité de l’outil et en facilitent l’usage dans les sciences humaines et sociales.
Lexico3 appartient lui aussi à la famille des outils lexicométriques. Il est précieux pour l’étude des distributions, des segments répétés, des spécificités, des concordances et des évolutions lexicales. Il a joué un rôle important dans la diffusion de la statistique textuelle auprès des chercheurs travaillant sur des séries historiques, politiques ou médiatiques. Son interface, plus ancienne, exige une certaine familiarité avec les logiques de la lexicométrie, mais l’outil demeure intéressant pour comprendre les principes fondamentaux du calcul textuel : forme, occurrence, fréquence, segment, partition, sous-corpus et spécificité.
TXM représente une génération d’outils conçus pour articuler la textométrie, des corpus structurés, le balisage XML-TEI, Unicode, un moteur de requêtes et un environnement statistique. Il est particulièrement adapté aux corpus annotés, aux textes structurés et aux projets exigeant une forte traçabilité documentaire. Sa logique montre que l’analyse automatisée ne se réduit pas au comptage : elle dépend aussi de la qualité de l’encodage, de l’annotation linguistique et de la structure des données. Pour les chercheurs travaillant sur des corpus savants, des éditions numériques ou des corpus multilingues, TXM offre un cadre méthodologique robuste.
IRaMuTeQ, pour sa part, s’appuie sur l’environnement R et permet des analyses multidimensionnelles de textes et de questionnaires. Il est souvent mobilisé pour la classification hiérarchique descendante, les analyses factorielles de correspondances, les mesures de similarité et les nuages de mots. Sa diffusion dans les sciences sociales, l’éducation et la santé tient à sa gratuité, à son efficacité pour traiter des corpus d’entretiens et à la lisibilité de certaines visualisations. Mais son usage exige une préparation rigoureuse du corpus : le balisage des variables, l’homogénéité des unités de contexte, le contrôle de la lemmatisation et une interprétation prudente des classes.
Les logiciels CAQDAS, tels que NVivo, ATLAS.ti ou MAXQDA, relèvent d’une autre logique. Ils ne produisent pas d’abord une analyse statistique autonome ; ils assistent le chercheur dans le codage, l’annotation, la mémorisation, la comparaison et la visualisation de matériaux qualitatifs. Ils permettent d’organiser des entretiens, des observations, des documents, des images, des sons ou des vidéos ; de créer des catégories ; de coder des segments ; de relier des mémos ; de comparer des groupes ; de produire des matrices. Les fonctionnalités d’intelligence artificielle actuellement intégrées à certains de ces outils peuvent faciliter le repérage thématique, mais elles ne dispensent jamais d’un contrôle humain des catégories et de leur justification théorique.
La comparaison de ces logiciels montre qu’il n’existe pas d’outil universel. Tropes convient à certaines explorations sémantiques ; Hyperbase et Lexico3 à des analyses lexicométriques et comparatives ; TXM à des corpus structurés et annotés ; IRaMuTeQ à des classifications et analyses multidimensionnelles ; les CAQDAS à des démarches qualitatives fortement codées. Le choix pertinent dépend toujours de l’objet, de la problématique, du corpus, du niveau de granularité souhaité, de la formation du chercheur et du type de preuve attendu.
Figure 1 — Interface de Tropes (capture d’écran fournie par les auteurs).
Figure 2 — Interface d’Hyperbase (capture d’écran fournie par les auteurs).
Figure 3 — Interface de Lexico3 (capture d’écran fournie par les auteurs).
2.2. Classification méthodologique des logiciels
La classification des logiciels d’analyse textuelle peut s’effectuer selon plusieurs critères : origine académique ou commerciale, gratuité ou coût de licence, compatibilité avec les systèmes d’exploitation, type de corpus traité, format d’importation, degré d’automatisation, place laissée au codage humain, nature des résultats produits et tradition disciplinaire d’affiliation. Toutefois, pour un usage scientifique, la distinction la plus utile oppose moins les logiciels entre eux que les gestes analytiques qu’ils rendent possibles.
Une première famille regroupe les logiciels de statistique textuelle, de lexicométrie, de textométrie ou de logométrie. Ils considèrent les textes comme des ensembles de formes distribuées dans des partitions. Ils permettent de décrire un corpus à partir de fréquences, de spécificités, de cooccurrences, de distances, de segments répétés, de concordances et de projections factorielles. Leur force est de mettre en évidence des régularités et des contrastes. Leur limite est qu’ils demandent une interprétation linguistique et discursive : le calcul signale un phénomène ; il ne l’explique pas entièrement.
Une deuxième famille relève de l’analyse sémantique et catégorielle. Ces outils intègrent des dictionnaires, des thésaurus, des scénarios ou des classes de référence. Ils ne se contentent pas de compter des formes ; ils tentent de les regrouper en catégories de sens. Leur intérêt est de proposer une première structuration thématique ou sémantique du corpus. Leur fragilité réside dans l’adéquation variable entre catégories préexistantes et singularité du matériau. Une catégorie pertinente pour un corpus médiatique peut devenir insuffisante pour un corpus littéraire, poétique ou fortement ironique.
Tableau — Synthèse méthodologique : Classification méthodologique des logiciels.
|
Famille |
Logique dominante |
Outils représentatifs |
Usage pertinent |
Vigilance |
|
Textométrie/logométrie |
Calcul des distributions et comparaisons |
Hyperbase, Lexico3, TXM |
Corpus structurés, comparaisons, séries |
Interpréter les indicateurs |
|
Analyse sémantique |
Catégories et univers de référence |
Tropes |
Repérage thématique, scénarios, référents |
Contrôler les catégories prédéfinies |
|
CAQDAS |
Codage qualitatif assisté |
NVivo, ATLAS.ti, MAXQDA |
Entretiens, observations, corpus multimodaux |
Justifier la grille de codage |
|
Fouille textuelle/IA |
Classification, résumé, reconnaissance d’entités |
Bibliothèques TAL, assistants IA |
Exploration massive et annotation |
Documenter modèles et biais |
Une troisième famille correspond aux logiciels d’analyse qualitative assistée par ordinateur. Leur principe repose sur l’intervention du chercheur : lecture, codage, mémos, catégories, regroupements, liens, hiérarchies et matrices. Ces logiciels n’automatisent pas l’interprétation ; ils organisent le travail interprétatif. Ils conviennent particulièrement aux entretiens, aux observations, aux documents institutionnels et aux corpus mixtes. Ils renforcent la traçabilité du codage, mais ils ne garantissent pas à eux seuls la validité de la grille analytique.
Une quatrième famille, plus récente, rassemble les outils de fouille textuelle, de TAL et d’intelligence artificielle. Ils peuvent effectuer de la reconnaissance d’entités nommées, de la classification supervisée, de l’analyse de sentiments, de la modélisation thématique, du résumé automatique ou de la génération d’hypothèses. Leur puissance est considérable, mais leur usage scientifique suppose une documentation accrue : description des modèles, qualité des données d’entraînement, contrôle des erreurs, analyse des biais et vérification manuelle. Plus l’automatisation est avancée, plus le protocole doit être explicite.
Ces familles peuvent se recouper. Un même logiciel peut proposer des concordances, des visualisations, des classifications et des outils de codage. Un même projet peut mobiliser plusieurs environnements. Il est même souhaitable, dans certains cas, de trianguler les résultats : vérifier une spécificité lexicale par des concordances, comparer une classification automatique à un codage manuel, confronter une analyse factorielle à une lecture qualitative ou tester la stabilité des résultats sur un sous-corpus. La classification des logiciels doit donc rester un outil d’orientation, non une typologie rigide.
2.3. Critères de choix d’un logiciel d’analyse des données textuelles
Le choix d’un logiciel constitue une décision méthodologique majeure. Il ne devrait jamais être dicté par la seule disponibilité de l’outil, par la familiarité de l’interface ou par l’effet de prestige associé à certaines technologies. Un logiciel doit être choisi parce qu’il répond à une question de recherche, parce qu’il est compatible avec la nature du corpus et parce qu’il produit des résultats interprétables dans le cadre théorique adopté. Le chercheur ne doit pas se demander seulement ce que l’outil peut faire, mais ce qu’il lui permet de prouver.
Le premier critère est la nature du corpus. Un corpus d’entretiens semi-directifs, un corpus de romans, un ensemble de tweets, des articles scientifiques, des discours politiques et des réponses à questions ouvertes n’appellent pas les mêmes outils. Les entretiens exigent souvent une attention aux locuteurs, aux variables sociologiques, aux unités de contexte et aux thématiques émergentes. Les corpus littéraires demandent une prise en charge des genres, des personnages, des temps, des registres et des configurations stylistiques. Les corpus médiatiques supposent des métadonnées temporelles et éditoriales. Les corpus numériques nécessitent un nettoyage technique approfondi.
Le deuxième critère est la problématique. Si la question porte sur les variations lexicales entre périodes, un logiciel de textométrie ou de logométrie sera pertinent. Si elle concerne les univers de référence ou les catégories sémantiques, un outil comme Tropes peut servir de point d’appui, à condition de vérifier les résultats. Si elle porte sur l’expérience vécue d’acteurs sociaux à partir d’entretiens, un CAQDAS peut être plus adéquat. Si elle vise à explorer des classes lexicales ou des oppositions de mondes lexicaux, IRaMuTeQ peut être mobilisé. Si elle exige un corpus structuré et annoté, TXM devient particulièrement intéressant.
Tableau — Synthèse méthodologique : Critères de choix d’un logiciel d’analyse des données textuelles.
|
Critère |
Question à poser |
Conséquence méthodologique |
|
Corpus |
Quel type de données, quelle taille, quels formats ? |
Choisir un outil compatible avec la matérialité des textes |
|
Problématique |
Que cherche-t-on à démontrer ? |
Éviter les résultats spectaculaires mais non nécessaires |
|
Cadre théorique |
Le modèle de l’outil est-il compatible avec l’analyse ? |
Rendre explicites les présupposés |
|
Compétence |
Le chercheur comprend-il les indicateurs ? |
Former avant d’interpréter |
|
Coût/accès |
L’outil est-il disponible, pérenne, reproductible ? |
Prévoir documentation et archivage |
|
Export/traçabilité |
Peut-on conserver les résultats et paramètres ? |
Assurer la vérifiabilité du protocole |
Le troisième critère est le niveau de compétence disponible. Il n’est pas nécessaire d’être informaticien pour utiliser un logiciel d’ADT, mais il est indispensable de comprendre les opérations fondamentales qu’il effectue. Un chercheur doit savoir ce qu’est une occurrence, une forme, un lemme, un segment, une partition, une spécificité, une cooccurrence, une AFC, une classification, un codage ou une unité de contexte. Sans cette culture minimale, il risque d’interpréter les visualisations comme des évidences. La formation à l’outil doit donc être accompagnée d’une formation aux principes de l’analyse textuelle.
Le quatrième critère concerne le coût, la pérennité et l’accessibilité. Certains outils sont gratuits et académiques ; d’autres sont commerciaux, soumis à licence et parfois coûteux. Le choix doit tenir compte du budget du projet, mais aussi de la reproductibilité. Une recherche qui repose sur un logiciel propriétaire dont les paramètres sont peu documentés ou dont l’accès est limité doit prévoir une description très précise des procédures. Les outils libres ou académiques facilitent souvent la vérification, mais ils peuvent demander davantage d’apprentissage technique. Dans tous les cas, la transparence méthodologique prime sur l’apparente facilité.
Le cinquième critère est la capacité d’exportation et de documentation. Un bon protocole d’analyse doit permettre de conserver les versions du corpus, les paramètres, les résultats, les graphes, les tableaux, les concordances, les codages et les décisions interprétatives. L’outil choisi doit donc s’intégrer à une chaîne de travail : préparation du corpus, analyse, vérification, export, rédaction, archivage et, lorsque cela est possible, partage des données. La science du texte outillée est aussi une science de la traçabilité.
Le dernier critère est l’adéquation entre puissance technique et sobriété méthodologique. L’usage d’un logiciel doit rester économique au sens scientifique du terme : il convient d’utiliser ce qui éclaire la question, non tout ce que l’outil propose. L’accumulation de graphes, de tableaux et d’indicateurs ne garantit pas la qualité de l’article. Une analyse forte peut reposer sur quelques sorties bien choisies, solidement interprétées et reliées au corpus. À l’inverse, une surproduction de résultats peut affaiblir la démonstration en donnant l’impression d’une technicité sans nécessité.
3. Conditions de validité d’une herméneutique instrumentée
3.1. Limites, risques et conditions d’une herméneutique instrumentée
Les avantages des logiciels sont réels, mais leurs limites doivent être reconnues sans complaisance. La première limite concerne la matérialité du langage. Les logiciels traitent difficilement l’ironie, l’allusion, le sous-entendu, la métaphore vive, l’ambivalence énonciative, les ruptures de registre, les effets de silence ou les valeurs pragmatiques dépendantes d’un contexte historique précis. Ils peuvent repérer des indices, mais ils ne saisissent pas spontanément la force d’un geste discursif. La lecture humaine demeure nécessaire pour interpréter ce qui excède la surface calculable.
La deuxième limite concerne la polysémie et l’homonymie. Un même mot peut appartenir à plusieurs domaines de sens, varier selon les genres, changer de valeur selon les collocations et porter des connotations différentes d’un corpus à l’autre. La lemmatisation et la catégorisation peuvent aider, mais elles peuvent aussi écraser des différences importantes. Le chercheur doit donc vérifier les regroupements, lire les concordances et contrôler les cas limites. L’automatisation n’est pas une garantie contre l’ambiguïté ; elle déplace le lieu où l’ambiguïté doit être traitée.
La troisième limite tient au risque de fétichisation du résultat graphique. Les visualisations produites par les logiciels sont souvent séduisantes : cartes, nuages, graphes, plans factoriels, dendrogrammes, réseaux. Elles donnent une impression d’évidence et de scientificité. Or, une visualisation n’est qu’une représentation construite. Elle dépend des données, des paramètres, des distances, des seuils et des algorithmes. Elle doit être lue comme un instrument d’exploration, non comme une preuve autonome. Un graphe sans commentaire méthodologique peut être plus trompeur qu’un exemple mal choisi.
La quatrième limite concerne l’éthique des données. Les corpus contemporains peuvent contenir des informations personnelles, des propos sensibles, des données issues de réseaux sociaux, des entretiens, des archives institutionnelles ou des documents non destinés initialement à la recherche. L’automatisation facilite le traitement massif, mais elle ne dispense pas du respect du consentement, de l’anonymisation, de la sécurité des fichiers, de la limitation des usages et de la prudence dans la diffusion des résultats. Les outils d’intelligence artificielle, lorsqu’ils impliquent l’envoi de données vers des serveurs externes, exigent une attention encore plus grande.
La cinquième limite tient à la tentation du « pousse-bouton ». L’accès à une interface simple peut encourager des analyses rapides, peu documentées et insuffisamment reliées à une problématique. Le chercheur lance une procédure, obtient une carte, sélectionne quelques résultats et les commente sans avoir clarifié les étapes de préparation du corpus ni les présupposés de l’outil. Cette pratique produit une illusion de rigueur. La véritable rigueur consiste au contraire à ralentir l’usage de la machine : lire le manuel, comprendre les indicateurs, tester les paramètres, examiner les erreurs, revenir au texte et justifier chaque inférence.
Pour surmonter ces limites, nous proposons de penser l’analyse automatisée comme une herméneutique instrumentée. Cette expression désigne une pratique dans laquelle les outils numériques ne remplacent pas l’interprétation, mais l’organisent, l’éprouvent et la documentent. Elle repose sur cinq principes : construire le corpus avant de le calculer ; choisir l’outil en fonction de la question ; interpréter les sorties-machines par retour aux contextes ; trianguler les résultats par plusieurs modes de lecture ; expliciter les limites et les décisions. Une telle herméneutique permet de sortir de l’alternative stérile entre confiance naïve dans la machine et rejet conservateur des méthodes numériques.
3.2. Pour une méthodologie raisonnée de l’analyse textuelle automatisée
Une méthodologie raisonnée peut être décrite comme une chaîne d’opérations. La première étape est la formulation d’une question de recherche. Elle doit être assez précise pour guider le choix du corpus et de l’outil, mais assez ouverte pour laisser place à l’exploration. La question « quels sont les thèmes d’un corpus ? » est trop générale ; la question « comment les désignations de l’autrui se distribuent-elles selon les périodes et les genres discursifs ? » est plus opératoire. Elle permet d’identifier les unités à observer, les métadonnées pertinentes, les sous-corpus à comparer et les sorties utiles.
La deuxième étape est la préparation du corpus. Elle comprend la collecte, la vérification des sources, le nettoyage, la suppression des doublons, la normalisation orthographique lorsque cela est justifié, la conservation des variantes lorsqu’elles sont pertinentes, l’encodage, l’attribution des métadonnées et la documentation des choix. Cette étape est souvent la plus longue, mais elle conditionne toute la validité de l’analyse. Un corpus mal nettoyé peut produire des fréquences erronées ; un corpus mal partitionné peut fausser les comparaisons ; un corpus sans métadonnées limite l’interprétation.
La troisième étape est l’exploration initiale. Elle peut passer par des listes de fréquences, des concordances, des segments répétés, des spécificités, des cooccurrences ou des classes. À ce stade, le chercheur ne doit pas chercher à conclure trop vite. Il observe, compare, note les régularités, relève les anomalies et identifie les zones qui méritent un retour qualitatif. Cette exploration a une fonction heuristique : elle permet de transformer une intuition en hypothèse vérifiable ou de déplacer une question initiale.
La quatrième étape est le retour au texte. Toute sortie-machine significative doit être confrontée aux passages du corpus. La fréquence d’un mot n’a de sens que dans ses emplois ; une cooccurrence doit être examinée dans des contextes ; une classe doit être lue à partir des segments qui la composent ; une opposition factorielle doit être interprétée par les propriétés textuelles des documents. Ce retour protège contre les surinterprétations statistiques et permet de réintroduire la dimension discursive, rhétorique et pragmatique du langage.
La cinquième étape est la rédaction de la preuve. Un article utilisant des logiciels ne doit pas seulement présenter des résultats ; il doit raconter méthodiquement comment ces résultats ont été obtenus et pourquoi ils sont interprétables. Il convient d’indiquer le nom et la version de l’outil, la nature du corpus, les formats, les opérations de nettoyage, les paramètres principaux, les limites, les exemples, les visualisations et les extraits. Les tableaux et figures doivent être légendés, sourcés et commentés. La preuve scientifique naît de la cohérence entre protocole, résultats et interprétation.
La sixième étape est la discussion. Elle doit préciser ce que l’automatisation a permis de voir, ce qu’elle n’a pas permis de saisir, ce qui a été confirmé, ce qui a été déplacé et ce qui reste à explorer. Un bon article ne présente pas le logiciel comme un garant absolu ; il montre comment l’outil a participé à la construction d’un raisonnement. Cette modestie méthodologique n’affaiblit pas la recherche ; elle en renforce la crédibilité.
3.3. Recommandations opérationnelles pour un usage scientifique des logiciels
Pour que l’analyse automatisée des données textuelles produise une véritable valeur scientifique, il convient de la traduire en protocole de recherche. La première recommandation consiste à rédiger, avant tout traitement, une note de corpus. Cette note doit préciser l’origine des documents, les critères d’inclusion et d’exclusion, la période couverte, les formats utilisés, les opérations de nettoyage, les métadonnées retenues et les limites du matériau. Elle permet de distinguer la collecte documentaire de la constitution scientifique du corpus. Sans cette note, le lecteur ne peut pas savoir si les résultats relèvent du phénomène étudié ou de la manière dont les données ont été assemblées.
La deuxième recommandation concerne la préparation linguistique. Les chercheurs doivent décider explicitement s’ils travaillent sur les formes graphiques, les lemmes, les catégories grammaticales, les segments répétés ou les unités de contexte. Cette décision dépend de l’objet. Une analyse stylistique peut exiger la conservation des formes fléchies ; une comparaison lexicale peut bénéficier de la lemmatisation ; une étude de discours peut nécessiter la prise en compte des connecteurs, des pronoms, des modalisateurs et des formes d’adresse. La préparation linguistique n’est donc pas une opération purement technique : elle construit le niveau auquel le texte devient observable.
La troisième recommandation consiste à tenir un journal d’analyse. À chaque étape, le chercheur devrait noter les paramètres choisis, les requêtes effectuées, les résultats retenus, les résultats écartés et les raisons de ces décisions. Ce journal est particulièrement utile lorsque l’analyse est collective. Il évite que les résultats finaux apparaissent comme une suite d’images extraites du logiciel sans histoire méthodologique. Il permet aussi de revenir sur une décision, de comparer deux paramétrages et de rendre le travail plus transparent pour les évaluateurs.
La quatrième recommandation est de ne jamais publier une sortie-machine sans commentaire. Une liste de fréquences, un nuage de mots, une AFC ou un graphe de similitude doit toujours être accompagné d’une légende précise, d’une indication sur le corpus, d’une explication de la méthode et d’une interprétation contrôlée par des extraits. La figure n’est pas un substitut de l’analyse ; elle en est un support. Dans un article scientifique, une visualisation doit répondre à une question : que montre-t-elle que la lecture seule ne permettait pas de voir ? comment cette observation est-elle vérifiée par le retour aux textes ? quelle limite faut-il lui reconnaître ?
La cinquième recommandation touche à la pédagogie de la preuve. Lorsqu’un article s’adresse à des chercheurs non spécialistes des logiciels, il doit éviter l’effet de boîte noire. Les termes techniques doivent être définis : spécificité, occurrence, cooccurrence, segment répété, lemme, classification, unité de contexte, codage, AFC. L’objectif n’est pas de transformer l’article en manuel, mais de permettre au lecteur de comprendre la portée des résultats. Un texte scientifique gagne en force lorsqu’il rend ses instruments intelligibles.
La sixième recommandation concerne l’intelligence artificielle. Les assistants génératifs et les fonctions de codage automatique peuvent servir à l’exploration, à la formulation d’hypothèses, au repérage de thèmes ou à la vérification préliminaire de catégories. Ils ne doivent pas être utilisés comme autorités interprétatives. Les données sensibles ne devraient pas être versées dans des services externes sans contrôle juridique et éthique. Les résultats produits par des modèles opaques doivent être relus, vérifiés, datés et distingués des analyses validées par le chercheur. Dans le cas contraire, l’automatisation risque de produire une rhétorique de scientificité sans protocole vérifiable.
La septième recommandation est de pratiquer la triangulation. Un résultat important doit être confronté à plusieurs modes de lecture : calcul statistique, concordances, extraits, comparaison de sous-corpus, codage manuel, discussion collective et retour au cadre théorique. Cette triangulation ne complique pas inutilement la recherche ; elle protège contre les conclusions rapides. Elle permet de transformer une régularité en argument, un indice en preuve, une visualisation en interprétation. C’est à ce niveau que l’automatisation devient véritablement féconde pour les sciences du texte.
Conclusion
L’automatisation de l’analyse des données textuelles constitue aujourd’hui un enjeu majeur pour les sciences du texte. Elle ne représente ni une simple commodité technique ni une rupture abolissant les pratiques interprétatives antérieures. Elle doit être comprise comme une transformation des conditions de lecture, de description et de preuve. En rendant possible l’exploration de grands corpus, la comparaison de sous-ensembles, la visualisation de régularités et la documentation des procédures, les logiciels élargissent le champ des questions scientifiques. Ils permettent de passer d’une lecture uniquement impressionniste à une lecture contrôlée par des observables, sans pour autant réduire le sens au calcul.
L’article a montré que la valeur de l’automatisation dépend de la qualité de son intégration méthodologique. La machine peut compter, classer, segmenter, regrouper, visualiser et signaler ; elle ne peut pas, à elle seule, comprendre la portée d’un énoncé, la valeur d’une métaphore, la charge d’un silence, la stratégie d’un locuteur ou l’inscription historique d’un discours. Elle ne remplace donc pas l’intelligence humaine ; elle la contraint à devenir plus explicite, plus réflexive et plus vérifiable. Le chercheur doit rester responsable de la constitution du corpus, du choix des outils, du paramétrage, de l’interprétation des résultats et de la discussion des limites.
L’opposition entre analyse manuelle et analyse automatisée doit ainsi être dépassée. Les deux méthodes ne sont pas concurrentes, mais complémentaires. La lecture manuelle donne accès à la densité qualitative des textes ; l’analyse automatisée met en évidence des régularités, des contrastes et des configurations qui échappent souvent à l’œil du lecteur. La pertinence scientifique naît de leur articulation : lecture rapprochée, exploration distante, retour aux contextes, triangulation et argumentation. Cette articulation fonde ce que nous avons appelé une herméneutique instrumentée.
À l’ère de l’intelligence artificielle, cette exigence devient encore plus importante. Les outils récents peuvent produire des résumés, suggérer des thèmes, coder des fragments ou générer des interprétations. Ces possibilités sont stimulantes, mais elles imposent une vigilance accrue : transparence des procédures, contrôle des erreurs, protection des données, explicitation des limites et refus de confondre plausibilité automatique et validité scientifique. L’avenir des sciences du texte ne réside pas dans la substitution de la machine au chercheur, mais dans une alliance critique entre puissance computationnelle et exigence herméneutique.
En définitive, l’automatisation de l’analyse des données textuelles n’a de sens que si elle sert une ambition scientifique : mieux lire, mieux décrire, mieux comparer, mieux interpréter. Elle ne dispense jamais de penser ; elle oblige au contraire à penser davantage les conditions mêmes de l’analyse. C’est à ce prix que les logiciels deviennent non des machines à conclure, mais des instruments de découverte, de contrôle et de renouvellement des savoirs sur les textes.



