DATA Engineer confirmé
AWS, Spark, Scala, Python, Datalake
5 ans d'expérience
Senior DATA Engineer
AWS, Spark, Scala, Python, Datalake
5 years of experience
Ingénieur Data et Consultante expérimentée et joueuse professionnelle de basket-Ball, doté de plus de 5 ans
d'expertise dans les technologies Big Data, dont 3 ans sur des projets On-Premise et 2 ans dans des environnements
Cloud AWS. J'ai une bonne maîtrise approfondie des outils et langages tels que Spark, Scala, Python, et des processus
CI/CD avec Jenkins.
Apprécié pour ma capacité à collaborer efficacement, et mon engagement à relever les défis
techniques dans le domaine des données.
Experienced Data Engineer, Consultant, and professional basketball player with over 5 years
of expertise in Big Data technologies, including 3 years on On-Premise projects and 2 years in
AWS Cloud environments. I have profound knowledge of tools and languages such as Spark, Scala, Python, and
CI/CD processes with Jenkins.
Valued for my ability to collaborate effectively and my commitment to addressing technical
challenges in the data field.
2013-2015› Diplôme national d’accès à la formation d’ingénieur : Études préparatoires option Mathématiques-Physiques› - Institut Préparatoire aux études d’Ingénieurs de Sfax (IPEIS)-Tunisie
2015-2018› Diplôme National d’ingénieur en Statistiques et Analyse de l’information › - École Supérieure de la Statistique et de l’Analyse de l’Information de Tunis (ESSAIT)-Tunisie
Description : Il s’agit d’une intégration au sein de l’équipe « Industry & Supply-Chain »
du pôle Data du groupe SEB.
L’équipe est constituée de 4 Data ingénieurs, un PO, des experts fonctionnels
et des développeurs Qlikassurant la partie Data visualisation.
Mon rôle est d’intervenir sur divers projets, parmi lesquels : l’optimisation dela chaine de production en contrôlant les rebuts et
les données des standards de réglages des machines au niveaudes usines, la récupération des données
de production des machines à café via les API SAP, la construction et la préparation des données et
des KPIs nécessaires pour les lois reliées à la responsabilité social de des entreprises(RSE) …
Bien évidemment, la correction des bugs et maintien en condition opérationnelle.
Le challenge dans cette mission est d’assurer une rigueur et une qualité sur chaque étape du projet, de la phase
de préparation jusqu’à la mise en production. Une méthodologie SCRUM agile et un travail énorme au niveau de
l’automatisation des jobs, le déploiement, les Frameworks de développement centralisés et éligibles à la montée
de version et aux optimisations et Data-Quality.
Responsabilités et livrables
MCO & corrections de bugs : gestion de doublons (run de jobs journaliers avec des flux automatisés),
problèmes sur la gestion de l’historique, gestion d’exceptions, modification des schémas de données,
comparaison et validation des données en DEV par rapport à la PROD.
Migration d’un projet existant sur des serveurs On-PREM vers le Cloud AWS, visant à l’optimisation de
la production des machines, taux de rebus, PRS (pourcentage de régalage des standards) pour mieux
contrôler les réglages appliqués aux machines dans les usines.
Implémentation des scripts de traitements de données, dédoublonnages, calcul dynamique des KPI pour
prendre en compte les retards de l’arrivée des données machines.
Développement et implémentation des jobs de rattrapages de données historiques, step-functions
/recompute et validation de l’historique des données par rapport à la PROD On-Prem existante.
Implémentation des pipelines de données pour automatiser le lancement des modules sur AWS :
* Préparation des jobs glue pour lancer les jobs Spark/scala
* Implémentation des Steps functions pour l’enchaînement et orchestrer les lancements
* Implémentation des scripts Python pour lancer les Lambda d’incrémentation, saut de lignes…
* Préparation des scripts de déploiements des divers ressources S3 pour assurer
l’écriture/stockage des données outputs ; la ressource EC2 pour lancer les scripts sh et transferts de
fichiers, la ressource Athena pour requêter les tables résultantes en SQL
* Participation aux workshops de recette fonctionnelles (script de validation des tests de
données sur Qlik et à partir des données S3
Implémentation des PoCs en DEV en PROD permettant de transférer les des données POSTGRES
existants sur des VMs ON PREM vers des Databases RDS AWS
* Préparation des scripts de déploiement de la EC2 (CloudFormation)
* Installation et configuration de la base de données Postgres sur la EC2
* Développement du job Glue permettant la lecture des données de la base POSTGRES
(snapshot ON REM) existant sur RDS vers S3 pour l’aboutissement à des données en json et la réduction
des couts.
Suivi des couts des services AWS et réflexion avec les DE sur les mesures techniques pour le maintien des
couts. (AWS Cost Explorer)
Mots clés : Développement Spark/scala, Spark 2.4, Scala 2.10, AWS, fichiers parquets, csv, json, deployment with CloudFormation Playbook (IAutomatisation et Infrasructure As Code ), Framework Scala/spark , jenkins, Git (PR validation ) , SCRUM …
Langages, Frameworks & outils Linux, Git,Jira, Spark, Scala, Glue,Athena, S3, StepFunctions,, Jenkins, Build,Run, RDS, EC2 , Lambda….
Description : I Il s’agit d’une intégration au sein de l’équipe Data de Boursorama Banque constituée de 10 Data
Engineers et 5 Data Scientists. L’objectif est d’intervenir sur des projets reliés au lutte anti-fraude et au risque de
conformité.
D’abord, il s’agit de l’accompagnement des métiers dans la rédaction des spécifications fonctionnelles
et les études de faisabilité.
Ensuite, le deuxième challenge revient à la recherche de la donnée et l’implémentation
des scénarios/règles métiers adéquats pour arriver au alerts triggering.
La complexité est reliée à la fois aux
aspects techniques : traitements et aux transformations appliqués sur les données et aux aspects métiers : les
règles d’exclusions, les algorithmes de Matching, les agrégations des données clients, le traçage des opérations et
des mouvements sur les comptes des clients en débit et en crédit…
Responsabilités et livrables
Implémentation des scripts sur zepplin (dev) et scala spark (prod) pour le maintien en condition
opérationnelle (MCO) des modules existants reliés aux luttes anti-fraude sur le projet d’alerting sur les
entrées en relations des clients (corrections de bug : gestion de doublons, problèmes de Matching,
gestion d’exceptions …)
L’industrialisation d’un nouveau module relié aux règles exclusions « exclusions des comptes à comptes
internes » pour l’utiliser sur les scénarios du risque conformité.
Implémentation d’un pipeline for alertes triggering en scala spark (Extract/Transform/save) pour un
nouveau scénario risque conformité concernant les moyens de paiement des clients et visant à détecter
les comportements / mouvements suspects.
Implémentation d’un pipeline for alerts triggering en scala spark (Extract/Transform/save) et en
appliquant différentes règles d’exclusions sur les données pour le scénario risque conformité visant à
détecter les acteurs suspects.
Réalisation des modifications sur les processors Nifi permettant le transfert de données de l’HDFS vers
les outils de traitements d’alertes au sein de Boursorama.
Configuration des topics Kafka, du Publisher, du schéma et du schema registry de Nifi afin d’assurer
l’envoie des données de l’HDFS vers les applications de traitements d’alertes au sein de Boursorama
Mots clés : Développement Spark, Spark 2.3 , Spark2.4, Scala 2.10, Hadoop, fichiers parquets, csv, json, avro, détection de fraudeurs pour l’entrée en relation, Run, scénarios risque conformité, optimisation, Nifi processors, mouvements internes, mouvements externes, flux notariés, rachats de crédits, gestion des Memory Error et spark optimization…
Langages, Frameworks & outils inux, Git,Jira, Spark, Scala, Zepplin, Batch-Processing, Jenkins,Nexus,Build,Run, Cassandra,Nifi, Kafka publishers , kafka topics
Description : e projet consiste à la veille et à l’évolution de la plateforme BigData de Sobre Energie, filiale de
Groupe la Poste mis en place depuis 2017.
En premier temps il s’agit d’accompagner les clients pour comprendre,
analyser et traiter les données de consommations énergétiques (données de facturations, de distributeurs
d’énergie, de capteurs...)
Ensuite, selon les données analysées, l’objectif est de proposer des plans d’actions
spécifiques selon les profils des clients et des bâtiments .
Enfin, suite aux batchs de traitements automatisés lancés
régulièrement (par heure, jour, semaine, mois, année) les utilisateurs ont une visibilité de leurs consommations
énergétiques qui leur permettent de gérer, superviser efficacement leurs bâtiments.
Responsabilités et livrables
Implémentation des scripts scala pour le maintien en condition opérationnelle (MCO) sur les modules
existants.
Implémentation des scripts de transformation spécifique « Mapping » des données de fournisseurs
d’énergie (Gaz de bordeaux, Université de Sorbonne, France TV, Groupe la Poste…).
Supervision et administration de la plateforme CI/CD via Git et Jenkins (push, pull, deploy, .jar)
Implémentation des scripts d’automatisation et des pipelines Jenkins pour la planification des
traitements.
articipation à la refonte et au développement du module facturation via un nouveau schéma de collecte
de données. Le défi était de réduire les délais d’affichage des données de factures des divers fournisseurs
sur la plateforme.
Amélioration des pas de données intégrées d’un intervalle de 3 mois à un pas de 24h via des flux
journaliers et hebdomadaires.
Participation à l’administration du Datalake et spécifiquement des clusters Hadoop Horthonworks :
Supervision des services et des VMs Spark via Ambari.
Intervenir sur les anomalies impactant l’écriture et la lecture des données :
Par exemple, les incidents impactant les environnements de production inhibant la réplication des
données en blocks, corrupted Blocks via le paramètre IPC.
Supervision des logs du Datanode et du Namenode
Supervision des logs issues des différents services : logs de mémoire/. Trash/logs de
fonctionnement (hdfs SQL)
Participation à la migration d’un environnement On-Premise vers un environnement Azure en IaaS
(Planification, chiffrage, POC, kick off)
Audit et étude de l’existant de l’infrastructure déjà mis en place (depuis 2017)
Monitoring et resizing des VM existantes pour les différents environnements (DEV, PREPROD,
PROD)
Participation aux ateliers techniques (architecture, sauvegarde) et fonctionnels (gouvernance et
coûts)
Dimensionnement de la nouvelle infrastructure cible et interconnexion de l’ancienne –nouvelle
infra.
Test de bascule des ressources vers Azure / test de bon fonctionnement réseau, arrêt,
démarrage)
Mots clés : Développement Spark, Spark 1.6, Scala 2.10, Python, Mapping, MCO, Hadoop, fichiers parquets, csv, json, API Objenious, API GRDF, Intégration des factures, Rattrapage des données, Run, historisation, Backup, stockage, gestion des Memory Error…
Langages, Frameworks & outils Linux, Git, Spark, Scala, Flume, Python, Batch-Processing, Jenkins, Ambari, MongoDB, Azure, SQL, PowerBI
Description :Il s’agit d’une insertion au sein d’un cabinet de conseil spécialisé en Data science et en BigData. L’expertise est reliée
aux traitements l’ingestion des données non structurées : le Textmining.
Mon rôle était d’intervenir sur des projets
divers, internes et d’autres externes pour des clients situés en France, en Belgique et en Tunisie.
Mots clés : Textmining, analyse des sentiments, maintenance prédictive, Scraping, Crawling, analyse prédictive,
Mongodb, POC spark scala for Data preparation, Mongo backups, Data acquisition, Python…
Projet 1 : Leboncoin/ CDiscount
Analyse des sentiments pour les données des clients : Emails, réclamations, retours issus des sites de
ventes en ligne.
Responsabilités et livrables
Anonymisation des données (Noms propres, adresses, numéros de téléphone, RIB bancaires…)
Identification du besoin métier : les catégories des sentiments et les types de messages.
Automatisation de l’annotation des données.
Classification supervisée : correction du problème des classes non équilibrée
Mots clés : a remplir
Langages, Frameworks & outils pyhton
Projet 2 : Total direct Energie
Description : Implémentation des modules de test de l’OCR (Optical Character Recognition) sur des images et des
fichiers PDF Extraction et reconnaissance des manuscrits.
Responsabilités et livrables
ATester les diverses librairies de reconnaissance de texte scanné, PDF (langue française, anglaise,
allemande)
Développement d’un modèle de prédiction des lettres, des chiffres du manuscrit.
Structuration des éléments reconnue dans une base de données (champs reconnue).
Langages, Frameworks & outils Python (NLTK, numpy,pandas, Gensim, Polyglot, Stanford Postagger, Tesseract OCR, Keras,PyTesseract), PowerBI ,MySQLWorkbench.
Projet 3 : Total direct Energie
Description : Maintenance prédictive: détection des anomalies des machines via l’analyse des descriptions
textuelles des avis.
Responsabilités et livrables
Etude et analyse statistique des données des matériaux et des avis.
Spécification du besoin : identification des matériaux causant les pannes des machines.
Stockage et structuration des données dans une base de données via MySQLWorkbench.
Data Visualisation en utilisant PowerBi et les nouvelles tables ainsi construites.
Traitement des données en temps réel avec Splunk.
Analyse statistique des avis textuels : fréquence des mots, bigram,Trigram …
NLP (Natural Language processing) et Features Engineering : Création des ressources
linguistiques, extraction des champs de la description textuelle des avis, enrichissement des
données textuelles avec les règles associatives, thésaurus, dictionnaires…
De L’NLP vers le l’entrainement : modélisation et Test des divers modèles d’apprentissage:
classification supervisé.
Validation du classifier construit, introduction de nouvelles données, mesure de la performance.
Réapprentissage et déploiement du modèle.
Langages, Frameworks & outils Python (NLTK, numpy,pandas, Gensim, Polyglot, Stanford Postagger, Tesseract OCR, Keras,PyTesseract), PowerBI ,MySQLWorkbench.
Projet
Conception et implémentation d’un algorithme Q-Learning pour la prédiction des retards des vols à l’aide
de l’apprentissage par renforcement et des chaînes de Markov (Reinforcement Learning)
Langages, Frameworks & outils Python, R, RStudio, Apache Superset, PHP, Javascript