8 Text Mining sur R
8.1 Introduction
Etant statisticien, nous connaissons l’importance des enquêtes. Généralement dans les enquêtes, nous avons des questions ouvertes et des questions fermées. Le traitement des questions fermées est chose aisée, nous avons plusieurs méthodes. Par contre avec les questions ouvertes, cela devient un peu délicat. Toutes les techniques de statistiques univariées et bivariées ne servent pas. C’est là qu’intervient le text mining, qui nous permet d’analyser des données textuelles. Sur R, il nécessite quelques packages essentiels à savoir tidytext, dplyr et tm.
8.2 Les étapes du text mining
Le text mining suit quelques étapes à respecter:
Prétraitement du texte: en vue de rendre nos données exploitables, il est important de les traiter d’abord. Cela passe par la tokenisation (découper chaque texte en mots) ou encore d’autres méthodes allant à la suppression des mots inutiles pour notre analyse.
Le cloud: le nuage de mots, il permet de voir les mots les plus utilisés et les groupes de mots les plus utilisés suivant que l’on a formé des ngrammes (combinaisons de n mots).
Le réseau de mots: permet de voir parmi les mots les plus utilisés, les combinaisons les plus utilisés.
Creation d’une variable: le but du text mining est en quelque sorte cela. L’objectif est d’arriver à créer une variable à partir des mots ou combinaisons de mots les plus utilisés, qui prend 1 si l’individu a utilisé cela et 0 sinon.
8.3 Quelques fonctions à connaitre
Certaines fonctions sont à connaître pour faire du text mining.
tm_map(): Cette fonction permet d’appliquer une transformation à chaque document d’un corpus textuel. Dans vos exemples, différentes transformations sont appliquées àtxte1.removePunctuation(): Cette fonction permet de supprimer la ponctuation des documents textuels.removeNumbers(): Cette fonction permet de supprimer les chiffres des documents textuels.removeWords(): Cette fonction permet de supprimer des mots spécifiques des documents textuels. Dans votre exemple, les mots vides (stopwords) en anglais sont supprimés à l’aide de la fonctionstopwords("english").stripWhitespace(): Cette fonction permet de supprimer les espaces supplémentaires dans les documents textuels.tm_reduce(): Cette fonction permet de réduire le corpus en supprimant les termes rares ou très fréquents.