Data scientist junior MLOps engineer junior
À propos de moi Mes projets Ma Génération de texte Modélisation de sujet Résumé de texteDernière mise à jour : 14-10-2024
Jeune diplômé en ingénierie de l'IA avec une forte passion pour l'apprentissage automatique, la vision par ordinateur et la science des données. Motivé pour travailler sur des projets innovants et résoudre des problèmes complexes en utilisant des techniques d'IA avancées.
Jeune diplômé.
Je suis un jeune data scientist avec une expérience dans la formation et l'optimisation des modèles NLP, LLM et des modèles CNN. Mon expertise réside dans le réglage fin des hyperparamètres afin d'obtenir une meilleure performance du modèle. Avec une perspective nouvelle et un engagement pour l'innovation, je suis prêt à avoir un impact significatif dans le domaine de la science des données.
En tant que jeune diplômé en science des données, j'ai acquis une expérience pratique en appliquant des techniques d'analyse de données et de modélisation statistique pour résoudre des problèmes réels. d'analyse de données et de modélisation statistique pour résoudre des problèmes réels dans un contexte professionnel.
Projet
2023 - présent
• Transformateur - Modèle encodeur-décodeur entraînement jusqu'à 200 époques sur le jeu de données "XSum". à partir de zéro. Notebook
• Fine-Tuning du modèle Facebook/Llama-2-7b avec la librairie Ludwig (Échec du déploiement en raison d'erreurs multiples dans les paquets entre Transformers et Ludwig). Notebook
• Fine-Tuning du modèle Google/mT5 model avec la librarie HuggingFace Notebook | HuggingFace
• Utilisation d'un service cloud: https://vast.ai (NVIDIA GPU - 4090 RTX)
Summary: " machine learning is a branch of artificial intelligence that focuses on the development of computer programs that can access data and use it to learn for themselves. ... "
projet
2023
• Entraînement du modèle transformateur-décodeur jusqu'à 255k époques sur un corpus français (10 GB)
• Optimisation des hyper-parameters, nettoyage du corpus...
• Utilisation d'un service cloud: https://vast.ai (NVIDIA GPU)
• Mise en œuvre de plusieurs modèles : tokenizer par caractère (10M paramètres) et tiktoken (50M et 119M paramètres)
Text généré: " Sous un soleil, les magasins de fer français débordent d'une multitude de fleurs mais sans encombre, "la France nourrit une résistance passive à plusieurs tirs d'explosifs". ... "
Stage de fin d'études
Juillet 2022 - Décembre 2022
6 mois
inagua.ch
• Développement d'une application web de chatbot éducatif (Angular Ng).
• Génération de QCM à partir de n'importe quel sujet sur Wikipedia (Wikidata).
• "La modélisation thématique permet de mettre en évidence les sujets les plus pertinents d'un texte.
• Résumés extractifs et abstraits de textes.
• Utilisation de spaCy, Transformer-HuggingFace et Bert modèle.
• Déploiement sur Heroku, puis GCP. Utilisation de Kubernetes, Docker.
• Prototypage de pipeline ML avec Kubeflow.
Projet de fin d'études
2021 - 2022
• Développement d'un réseau de neurones CNN (ResNet, Xception...) pour reconnaître l'identité de l'utilisateur à travers les veines de la paume de la main.
• Déploiement du modèle avec Flask, Docker et Keras.
Ce que j'ai appris:
• Concevoir un système de production de ML de bout en bout : cadrage du projet, besoins en données, stratégies de modélisation et exigences de déploiement.
stratégies de modélisation et exigences de déploiement
• Établir un modèle de base, traiter les dérives conceptuelles et prototyper comment développer, déployer et améliorer en permanence une application ML mise en production,
et améliorer continuellement une application ML en production
• Construire des pipelines de données en rassemblant, en nettoyant et en validant les ensembles de données.
• Mettre en œuvre l'ingénierie, la transformation et la sélection des caractéristiques avec TensorFlow Extended
• Établir le cycle de vie des données en exploitant les outils de métadonnées de lignage et de provenance des données et
suivre l'évolution des données avec les schémas de données de l'entreprise
• Appliquer des techniques pour gérer les ressources de modélisation et répondre au mieux aux demandes d'inférence hors ligne/en ligne.
• Utiliser l'analyse pour résoudre les problèmes d'équité et d'explicabilité des modèles et atténuer les goulets d'étranglement.
• Fournir des pipelines de déploiement pour la mise à disposition de modèles nécessitant des infrastructures différentes
• Appliquer les meilleures pratiques et les techniques de livraison progressive pour maintenir un système de production fonctionnant en continu.
coursera.org | DeepLearning.AI & Stanford online
2021 | 6 mois
Ce que j'ai appris:
• Construire et entraîner des réseaux neuronaux profonds, identifier les paramètres clés de l'architecture, mettre en œuvre des réseaux neuronaux vectorisés et l'apprentissage profond dans les applications.
• Former des ensembles de tests, analyser la variance pour les applications DL, utiliser des techniques standard et des algorithmes d'optimisation, et construire des réseaux neuronaux dans TensorFlow.
• Construire un CNN et l'appliquer à des tâches de détection et de reconnaissance, utiliser le transfert de style neuronal pour générer de l'art, et appliquer des algorithmes à des données d'images et de vidéos.
• Construire et entraîner des RNN, travailler avec le NLP et les Word Embeddings, et utiliser les tokenizers et les modèles de transformation de HuggingFace pour effectuer du NER et de la réponse aux questions.
Majeure Intelligence Artificielle
Diplômé en 2023
J'ai suivi un parcours éducatif de cinq ans, comprenant trois années d'ingénierie générale pour acquérir une base solide, suivies de deux années de spécialisation en intelligence artificielle où j'ai approfondi mes connaissances dans ce domaine en constante évolution. Mon parcours m'a permis de développer une expertise technique solide ainsi qu'une compréhension approfondie des concepts clés de l'intelligence artificielle.
Septembre 2020 - Avril 2021
Programmation Control and Instrumentation.
2017
J'ai travaillé sur des projets passionnants en intelligence artificielle, allant de la génération avancée de texte à la reconnaissance d'identité basée sur la vision, en utilisant des techniques telles que le traitement du langage naturel et la vision par ordinateur pour résoudre des problèmes complexes et proposer des solutions innovantes.
En tant que jeune diplômé en tant que data scientist junior spécialisé en deep learning et MLOps, je peux contribuer en développant des modèles de deep learning haute performance et en mettant en place des pipelines MLOps pour garantir la production efficace et la maintenance de ces modèles dans un environnement opérationnel.
En tant que récent diplômé spécialisé en apprentissage automatique, je suis en mesure de participer activement à des études de cas en utilisant des techniques d'apprentissage automatique pour résoudre des problèmes complexes, en proposant des modèles et des solutions adaptés aux besoins spécifiques de l'entreprise. Je suis enthousiaste à l'idée de mettre en pratique mes compétences et de contribuer à des projets concrets en utilisant l'apprentissage automatique.
Grâce à mes compétences en traitement du langage naturel (NLP), je suis capable de développer des modèles avancés de traitement du langage naturel, tels que la classification de texte, l'extraction de caractéristiques et la génération de texte, afin d'extraire des informations précieuses à partir de données textuelles et de proposer des solutions efficaces dans divers domaines. Je suis passionné par l'exploitation de la puissance du NLP pour résoudre des problèmes concrets et améliorer les interactions entre les êtres humains et les ordinateurs.
Grâce à mes compétences en réseaux de neurones convolutionnels (CNN), j'ai la capacité de développer des architectures de modèle haute performance pour la vision par ordinateur, réalisant des tâches telles que la détection d'objets, la classification d'images et la segmentation sémantique, afin d'extraire des informations visuelles significatives et de fournir des solutions précises dans le domaine de l'analyse d'images et de la reconnaissance visuelle. Je suis passionné par l'utilisation des CNN pour résoudre des problèmes complexes et repousser les limites de la vision par ordinateur.
Grâce à mes compétences (quoique limitées) en MLOps, je suis capable de mettre en place des pipelines d'apprentissage automatique, d'automatiser le déploiement des modèles, de surveiller les performances et de garantir la stabilité des systèmes de production, ce qui permet l'intégration fluide de l'apprentissage automatique dans les flux de travail opérationnels. Je suis passionné par l'amélioration continue des processus de déploiement de modèles et la création d'environnements évolutifs et fiables pour soutenir le cycle de vie des projets d'apprentissage automatique.
Grâce à mes compétences approfondies en Python, je suis en mesure de développer des solutions robustes et efficaces en utilisant les bibliothèques et les frameworks les plus populaires pour résoudre des problèmes complexes et automatiser des tâches liées à l'analyse de données, à l'apprentissage automatique et au développement d'applications. Je suis passionné par la simplicité, la lisibilité et la puissance de Python, qui me permettent de fournir des solutions de haute qualité dans un large éventail de domaines.
J'aimerais beaucoup que vous me contactiez pour discuter de la manière dont mes compétences et mon expertise en science des données peuvent contribuer à vos projets et générer des idées et des solutions significatives.
Paris
île-de-france
75018 - FR
kenan@gonnot.net
Phone: (+33) 6 ** ** ** **