Localité : France / Lannion Domaine : Informatique Niveau : BAC + 4
Stage - DeepForest pour la création de variables automatiques F/H
Ref : 0025165 | 27 nov. 2019
Date limite de candidature : 25 déc. 2019
2 avenue Pierre Marzin 22300 LANNION - France
Leaflet
Life At Orange : la campagne
Votre rôle
L'objectif du stage sera :
- de placer le Deep Forest dans le cadre de l'apprentissage avec des logs
- de répertorier les principales méthodes répondant aux besoins
- d'instancier les principales approches
- d'évaluer ces méthodes au point de vue rapidité, performances statistiques et automatisation.
Généralement, les data scientist n'utilisent pas directement les données de log, ils créent des variables à partir des log qui seront utilisées par des classifieurs statistiques. L'accroissement du nombre de log et de leurs dimensions génère des représentations de plus en plus grandes et complexes. Les ressources n'étant pas infinies, il est difficile de trouver les représentations pertinentes et il devient alors crucial de créer des variables qui peuvent capter des modèles très complexes de façon rapide et automatique. Les Deep Forest [1] sont une extension des Random Forest par couches successives de forêts d'arbres de décision. Ils promettent d'améliorer les performances des classifieurs sur des données de type log (série temporelle).
L'objectif du stage est de mesurer l'apport des Deep Forest pour les performances de classification afin de les intégrer au processus de scoring Orange.
Le stage s'appliquera à étudier les stratégies de création de Deep Forest qui maximisent les performances du modèle et de les comparer à des outils de feature enginering automatiques comme Khiops [2] [5], https://www.featuretools.com [3] et des modèles de Deep Learning [4].
On testera ces stratégies sur un ensemble de cas d'usage Orange et académiques.
[1] Zhou, Z.-H. and Feng, J. (2017). Deep forest: Towards an alternative to deep neural networks. Inthe International Joint Conference on
Artificial Intelligence (IJCAI).
[2] M. Boullé. Towards Automatic Feature Construction for Supervised Classification. In ECML/PKDD 2014, Pages 181-196, 2014.
[3] KANTER, James Max et VEERAMACHANENI, Kalyan. Deep feature synthesis: Towards automating data science endeavors. In : 2015
IEEE International Conference on Data Science and Advanced Analytics (DSAA). IEEE, 2015. p. 1-10.
[4] "Apprentissage fédératif pour la prédiction du churn : une évaluation" Sébastien Godard, Nicolas Voisine, Tanguy Urvoy, Vincent Lemaire,
"Extraction et Gestion des Connaissance" 2019 (EGC)
[5] Boullé, M. (2016). Khiops: outil d'apprentissage supervisé automatique pour la fouille de grandes bases de données multi-tables. In EGC
(Pp. 505-510) www.khiops.com.
%MCEPASTEBIN%
Votre profil
Bac+5 informatique / math appliquées / statistiques
Ce sujet requiert une bonne culture en informatique et mathématique appliquée.
Le plus de l'offre
Rejoignez Orange pour participer aux innovations de demain!
Entité
L'équipe d'accueil à Orange Labs, spécialisée en apprentissage statistique et analyse de données, compte actuellement 20 membres permanents et 4 doctorants. L'équipe est reconnue au sein du Groupe pour son expertise. Nous publions régulièrement dans les meilleures conférences et revues internationales du domaine.
Contrat
Stage
Partager cette offre d'emploi avec ses connaissances sur