Développement d'un algorithme d'apprentissage machine pour la classification de textes courts.

Sujet 4: machine learning sur textes.

Intitulé

Développement d'un algorithme d'apprentissage machine pour la classification de textes courts.

Description

Nous voulons pouvoir automatiquement classifier des textes courts en une dizaine de catégories.

Une fois cette classification principale effectuée nous voulons pouvoir affiner cette classification par des mots clefs extraits des textes. Cette extraction se fera soit par l'utilisation d'algorithme standard (TF-IDF) soit par une deuxième étape d'inférence statistique.

Le/la candidat(e) devra prendre en main les outils de base de l'analyse textuelle puis développer les scripts nécessaires aux apprentissages machine puis aux tests des performances de ces apprentissages. Il/Elle devra ensuite rédiger un rapport exposant les performances des différents algorithmes.

Afin d'obtenir des données d'apprentissage le candidat devra mettre en place un "jeu" permettant à nos équipes de générer les données d'apprentissage. Ce jeu sera développé avec les technologies web: html/css/js. Notre équipe aidera le candidat sur ce point si il n'est pas à l'aise avec ces technologies.

Méthodologie

Le développement se fera en étroite collaboration avec notre équipe. Tous les jours le/la candidat(e) sera en interaction avec un ou plusieurs développeurs.

Chaque fin de semaine une démonstration du projet est réalisée.

Le/La candidat(e) idéal(e):

Durée

Minimum 2 mois. A voir avec le/la candidat(e).

Pré-requis