Reconnaissance des langues écrites

Photo by Medium

La modélisation linguistique est un domaine où l’apprentissage non supervisé est largement appliqué, l’analyse de texte et la détection de la langue écrite figurant parmi les applications les plus connues. Dans ce projet, nous voulons pouvoir identifier la langue d’un texte donné (français ou anglais).

Pour ce faire, nous allons utiliser un tableau de données textuelles dans lequel chaque texte a déjà été étiqueté en fonction de sa langue. Dans un premier temps, l’objectif est de construire plusieurs modèles caractérisant les différentes langues, basés sur la fréquence d’apparition des symboles (lettres) dans chaque langue, puis de comparer les différents modèles. Chaque exercice du projet impliquera :
¤ Choisir un modèle
¤ Estimer les paramètres
¤ Programmer et comenter les résultats.

Chaïma Boughanmi
Chaïma Boughanmi
Data Scientist @ BVA Xsight | Développeuse R shiny
Organisatrice @ R-Ladies Paris
Paris France

Dans le royaume des données et de la programmation, je suis la créatrice de possibilités infinies.