Fatma REKIK

Fatma REKIK

DATA Engineer confirmé
AWS, Spark, Scala, Python, Datalake
5 ans d'expérience

Senior DATA Engineer
AWS, Spark, Scala, Python, Datalake
5 years of experience

À propos

Ingénieur Data et Consultante expérimentée et joueuse professionnelle de basket-Ball, doté de plus de 5 ans d'expertise dans les technologies Big Data, dont 3 ans sur des projets On-Premise et 2 ans dans des environnements Cloud AWS. J'ai une bonne maîtrise approfondie des outils et langages tels que Spark, Scala, Python, et des processus CI/CD avec Jenkins.
Apprécié pour ma capacité à collaborer efficacement, et mon engagement à relever les défis techniques dans le domaine des données.

About

Experienced Data Engineer, Consultant, and professional basketball player with over 5 years of expertise in Big Data technologies, including 3 years on On-Premise projects and 2 years in AWS Cloud environments. I have profound knowledge of tools and languages such as Spark, Scala, Python, and CI/CD processes with Jenkins.
Valued for my ability to collaborate effectively and my commitment to addressing technical challenges in the data field.

Formations

  • 2024-2025› Whizlabs Preparation for « AWS Certified Data Engineer Associate Certification »
  • 2021-2022› AZ-900: Microsoft Azure Fundamentals Certification Preparation Guide.
  • 2018-2019› Formation officielle Hortonworks « DEV343 –HDP Developer: Spark 2.xDeveloper »
  • 2017-2018› Formation Coursera : Functional Programming Principles in Scala.

Éducation

2013-2015› Diplôme national d’accès à la formation d’ingénieur : Études préparatoires option Mathématiques-Physiques› - Institut Préparatoire aux études d’Ingénieurs de Sfax (IPEIS)-Tunisie

2015-2018› Diplôme National d’ingénieur en Statistiques et Analyse de l’information › - École Supérieure de la Statistique et de l’Analyse de l’Information de Tunis (ESSAIT)-Tunisie

Compétences

  • Cloud : AWS expérience professionnelle, Azure (formation personnelle)
  • Statistiques : Analyse de données, Modélisation, Séries temporelles, Prévision, Scoring,Profiling
  • Outils BI :Qlik Sense, EasyQlik, PowerBI
  • Technologies BigData : : Spark, Kafka, Hadoop, Hdfs, Hive, Hortonworks, Flume, sqoop, Hive, Ambari,Nifi
  • Technologies CI/CD –planification :: Oozie, Jenkins, Gitlab, Nexus, Maven, Sbt.
  • Langages de programmation : : Scala, R, Java8, Java7, Python, SQL
  • IDE : Intellij, Pycharm, RStudio, Eclipse
  • Base de données :: Mysql, postgreSQL, MongoDB,Cassandra,MySQL Workbench
  • Langages de balise :: CSS, HTML, XML, JSON
  • Framework : : Rshiny, Jupyter Notebook, Apache Zepplin

Experiences Professionnelles

  • Mars 2023-Décembre 2024 : Groupe SEB (LYON)- Consultante Data Engineer
    Industrie : Commerce/industrie

    Description : Il s’agit d’une intégration au sein de l’équipe « Industry & Supply-Chain » du pôle Data du groupe SEB. L’équipe est constituée de 4 Data ingénieurs, un PO, des experts fonctionnels et des développeurs Qlikassurant la partie Data visualisation.
    Mon rôle est d’intervenir sur divers projets, parmi lesquels : l’optimisation dela chaine de production en contrôlant les rebuts et les données des standards de réglages des machines au niveaudes usines, la récupération des données de production des machines à café via les API SAP, la construction et la préparation des données et des KPIs nécessaires pour les lois reliées à la responsabilité social de des entreprises(RSE) … Bien évidemment, la correction des bugs et maintien en condition opérationnelle.
    Le challenge dans cette mission est d’assurer une rigueur et une qualité sur chaque étape du projet, de la phase de préparation jusqu’à la mise en production. Une méthodologie SCRUM agile et un travail énorme au niveau de l’automatisation des jobs, le déploiement, les Frameworks de développement centralisés et éligibles à la montée de version et aux optimisations et Data-Quality.

    Responsabilités et livrables
    MCO & corrections de bugs : gestion de doublons (run de jobs journaliers avec des flux automatisés), problèmes sur la gestion de l’historique, gestion d’exceptions, modification des schémas de données, comparaison et validation des données en DEV par rapport à la PROD.
    Migration d’un projet existant sur des serveurs On-PREM vers le Cloud AWS, visant à l’optimisation de la production des machines, taux de rebus, PRS (pourcentage de régalage des standards) pour mieux contrôler les réglages appliqués aux machines dans les usines.
    Implémentation des scripts de traitements de données, dédoublonnages, calcul dynamique des KPI pour prendre en compte les retards de l’arrivée des données machines.
    Développement et implémentation des jobs de rattrapages de données historiques, step-functions /recompute et validation de l’historique des données par rapport à la PROD On-Prem existante.
    Implémentation des pipelines de données pour automatiser le lancement des modules sur AWS : * Préparation des jobs glue pour lancer les jobs Spark/scala * Implémentation des Steps functions pour l’enchaînement et orchestrer les lancements * Implémentation des scripts Python pour lancer les Lambda d’incrémentation, saut de lignes… * Préparation des scripts de déploiements des divers ressources S3 pour assurer l’écriture/stockage des données outputs ; la ressource EC2 pour lancer les scripts sh et transferts de fichiers, la ressource Athena pour requêter les tables résultantes en SQL * Participation aux workshops de recette fonctionnelles (script de validation des tests de données sur Qlik et à partir des données S3
    Implémentation des PoCs en DEV en PROD permettant de transférer les des données POSTGRES existants sur des VMs ON PREM vers des Databases RDS AWS * Préparation des scripts de déploiement de la EC2 (CloudFormation) * Installation et configuration de la base de données Postgres sur la EC2 * Développement du job Glue permettant la lecture des données de la base POSTGRES (snapshot ON REM) existant sur RDS vers S3 pour l’aboutissement à des données en json et la réduction des couts.
    Suivi des couts des services AWS et réflexion avec les DE sur les mesures techniques pour le maintien des couts. (AWS Cost Explorer)

    Mots clés : Développement Spark/scala, Spark 2.4, Scala 2.10, AWS, fichiers parquets, csv, json, deployment with CloudFormation Playbook (IAutomatisation et Infrasructure As Code ), Framework Scala/spark , jenkins, Git (PR validation ) , SCRUM …

    Langages, Frameworks & outils Linux, Git,Jira, Spark, Scala, Glue,Athena, S3, StepFunctions,, Jenkins, Build,Run, RDS, EC2 , Lambda….

  • Mai 2022-Mars 2023 : Boursorama Banque (Paris)- Consultante Data Engineer
    Industrie : Banque

    Description : I Il s’agit d’une intégration au sein de l’équipe Data de Boursorama Banque constituée de 10 Data Engineers et 5 Data Scientists. L’objectif est d’intervenir sur des projets reliés au lutte anti-fraude et au risque de conformité.
    D’abord, il s’agit de l’accompagnement des métiers dans la rédaction des spécifications fonctionnelles et les études de faisabilité.
    Ensuite, le deuxième challenge revient à la recherche de la donnée et l’implémentation des scénarios/règles métiers adéquats pour arriver au alerts triggering.
    La complexité est reliée à la fois aux aspects techniques : traitements et aux transformations appliqués sur les données et aux aspects métiers : les règles d’exclusions, les algorithmes de Matching, les agrégations des données clients, le traçage des opérations et des mouvements sur les comptes des clients en débit et en crédit…

    Responsabilités et livrables
    Implémentation des scripts sur zepplin (dev) et scala spark (prod) pour le maintien en condition opérationnelle (MCO) des modules existants reliés aux luttes anti-fraude sur le projet d’alerting sur les entrées en relations des clients (corrections de bug : gestion de doublons, problèmes de Matching, gestion d’exceptions …)
    L’industrialisation d’un nouveau module relié aux règles exclusions « exclusions des comptes à comptes internes » pour l’utiliser sur les scénarios du risque conformité.
    Implémentation d’un pipeline for alertes triggering en scala spark (Extract/Transform/save) pour un nouveau scénario risque conformité concernant les moyens de paiement des clients et visant à détecter les comportements / mouvements suspects.
    Implémentation d’un pipeline for alerts triggering en scala spark (Extract/Transform/save) et en appliquant différentes règles d’exclusions sur les données pour le scénario risque conformité visant à détecter les acteurs suspects.
    Réalisation des modifications sur les processors Nifi permettant le transfert de données de l’HDFS vers les outils de traitements d’alertes au sein de Boursorama.
    Configuration des topics Kafka, du Publisher, du schéma et du schema registry de Nifi afin d’assurer l’envoie des données de l’HDFS vers les applications de traitements d’alertes au sein de Boursorama

    Mots clés : Développement Spark, Spark 2.3 , Spark2.4, Scala 2.10, Hadoop, fichiers parquets, csv, json, avro, détection de fraudeurs pour l’entrée en relation, Run, scénarios risque conformité, optimisation, Nifi processors, mouvements internes, mouvements externes, flux notariés, rachats de crédits, gestion des Memory Error et spark optimization…

    Langages, Frameworks & outils inux, Git,Jira, Spark, Scala, Zepplin, Batch-Processing, Jenkins,Nexus,Build,Run, Cassandra,Nifi, Kafka publishers , kafka topics

  • Septembre 2019- Avril 2022 : Sobre Energie (PARIS)- Consultante Data Engineer
    Industrie : Energie

    Description : e projet consiste à la veille et à l’évolution de la plateforme BigData de Sobre Energie, filiale de Groupe la Poste mis en place depuis 2017.
    En premier temps il s’agit d’accompagner les clients pour comprendre, analyser et traiter les données de consommations énergétiques (données de facturations, de distributeurs d’énergie, de capteurs...)
    Ensuite, selon les données analysées, l’objectif est de proposer des plans d’actions spécifiques selon les profils des clients et des bâtiments .
    Enfin, suite aux batchs de traitements automatisés lancés régulièrement (par heure, jour, semaine, mois, année) les utilisateurs ont une visibilité de leurs consommations énergétiques qui leur permettent de gérer, superviser efficacement leurs bâtiments.

    Responsabilités et livrables
    Implémentation des scripts scala pour le maintien en condition opérationnelle (MCO) sur les modules existants.
    Implémentation des scripts de transformation spécifique « Mapping » des données de fournisseurs d’énergie (Gaz de bordeaux, Université de Sorbonne, France TV, Groupe la Poste…).
    Supervision et administration de la plateforme CI/CD via Git et Jenkins (push, pull, deploy, .jar)
    Implémentation des scripts d’automatisation et des pipelines Jenkins pour la planification des traitements.
    articipation à la refonte et au développement du module facturation via un nouveau schéma de collecte de données. Le défi était de réduire les délais d’affichage des données de factures des divers fournisseurs sur la plateforme.
    Amélioration des pas de données intégrées d’un intervalle de 3 mois à un pas de 24h via des flux journaliers et hebdomadaires.
    Participation à l’administration du Datalake et spécifiquement des clusters Hadoop Horthonworks :
    Supervision des services et des VMs Spark via Ambari. Intervenir sur les anomalies impactant l’écriture et la lecture des données : Par exemple, les incidents impactant les environnements de production inhibant la réplication des données en blocks, corrupted Blocks via le paramètre IPC.
    Supervision des logs du Datanode et du Namenode
    Supervision des logs issues des différents services : logs de mémoire/. Trash/logs de fonctionnement (hdfs SQL)
    Participation à la migration d’un environnement On-Premise vers un environnement Azure en IaaS (Planification, chiffrage, POC, kick off)
    Audit et étude de l’existant de l’infrastructure déjà mis en place (depuis 2017)
    Monitoring et resizing des VM existantes pour les différents environnements (DEV, PREPROD, PROD)
    Participation aux ateliers techniques (architecture, sauvegarde) et fonctionnels (gouvernance et coûts)
    Dimensionnement de la nouvelle infrastructure cible et interconnexion de l’ancienne –nouvelle infra.
    Test de bascule des ressources vers Azure / test de bon fonctionnement réseau, arrêt, démarrage)

    Mots clés : Développement Spark, Spark 1.6, Scala 2.10, Python, Mapping, MCO, Hadoop, fichiers parquets, csv, json, API Objenious, API GRDF, Intégration des factures, Rattrapage des données, Run, historisation, Backup, stockage, gestion des Memory Error…

    Langages, Frameworks & outils Linux, Git, Spark, Scala, Flume, Python, Batch-Processing, Jenkins, Ambari, MongoDB, Azure, SQL, PowerBI

  • Septembre 2018- Septembre 2019 : Geeks Data Consulting (TUNIS-PARIS)- Data Engineer, Data Scientist
    Industrie : E-commerce

    Description :Il s’agit d’une insertion au sein d’un cabinet de conseil spécialisé en Data science et en BigData. L’expertise est reliée aux traitements l’ingestion des données non structurées : le Textmining.
    Mon rôle était d’intervenir sur des projets divers, internes et d’autres externes pour des clients situés en France, en Belgique et en Tunisie.
    Mots clés : Textmining, analyse des sentiments, maintenance prédictive, Scraping, Crawling, analyse prédictive, Mongodb, POC spark scala for Data preparation, Mongo backups, Data acquisition, Python…

    Projet 1 : Leboncoin/ CDiscount
    Analyse des sentiments pour les données des clients : Emails, réclamations, retours issus des sites de ventes en ligne. Responsabilités et livrables
    Anonymisation des données (Noms propres, adresses, numéros de téléphone, RIB bancaires…)
    Identification du besoin métier : les catégories des sentiments et les types de messages.
    Automatisation de l’annotation des données.
    Classification supervisée : correction du problème des classes non équilibrée

    Mots clés : a remplir

    Langages, Frameworks & outils pyhton

    Projet 2 : Total direct Energie
    Description : Implémentation des modules de test de l’OCR (Optical Character Recognition) sur des images et des fichiers PDF Extraction et reconnaissance des manuscrits. Responsabilités et livrables
    ATester les diverses librairies de reconnaissance de texte scanné, PDF (langue française, anglaise, allemande)
    Développement d’un modèle de prédiction des lettres, des chiffres du manuscrit.
    Structuration des éléments reconnue dans une base de données (champs reconnue).

    Langages, Frameworks & outils Python (NLTK, numpy,pandas, Gensim, Polyglot, Stanford Postagger, Tesseract OCR, Keras,PyTesseract), PowerBI ,MySQLWorkbench.

    Projet 3 : Total direct Energie
    Description : Maintenance prédictive: détection des anomalies des machines via l’analyse des descriptions textuelles des avis. Responsabilités et livrables
    Etude et analyse statistique des données des matériaux et des avis.
    Spécification du besoin : identification des matériaux causant les pannes des machines.
    Stockage et structuration des données dans une base de données via MySQLWorkbench.
    Data Visualisation en utilisant PowerBi et les nouvelles tables ainsi construites.
    Traitement des données en temps réel avec Splunk.
    Analyse statistique des avis textuels : fréquence des mots, bigram,Trigram …
    NLP (Natural Language processing) et Features Engineering : Création des ressources linguistiques, extraction des champs de la description textuelle des avis, enrichissement des données textuelles avec les règles associatives, thésaurus, dictionnaires…
    De L’NLP vers le l’entrainement : modélisation et Test des divers modèles d’apprentissage: classification supervisé.
    Validation du classifier construit, introduction de nouvelles données, mesure de la performance.
    Réapprentissage et déploiement du modèle.

    Langages, Frameworks & outils Python (NLTK, numpy,pandas, Gensim, Polyglot, Stanford Postagger, Tesseract OCR, Keras,PyTesseract), PowerBI ,MySQLWorkbench.

  • Janvier 2018-Aout 2018: OpenValue (TUNIS) - Data Scientist
    Industrie : Transport

    Projet
    Conception et implémentation d’un algorithme Q-Learning pour la prédiction des retards des vols à l’aide de l’apprentissage par renforcement et des chaînes de Markov (Reinforcement Learning)

    Responsabilités et livrables
    Étude Préliminaire du besoin du pôle Recherche et développement.
    Scraping des données des vols.
    Identification des données avec le Processus décisionnel de Markov(MDP)
    Data Management–Organisation du jeu de données selon le principe décisionnel de Markov
    Modélisation de MDP (Optimiser les critères des performance)
    Développement de l’algorithme d’apprentissage par renforcement: Q-Learning
    Conception d’une mesure de différence temporelle.
    Test des mesures des performances de l’approche d’apprentissage par renforcement.
    Data Visualisation du trafic des vols selon les données via RShiny- Apache Superset.
    Discussion de l’efficacité de l’approche Q-Learning sur de nouvelles données (nouveaux vols).

    Langages, Frameworks & outils Python, R, RStudio, Apache Superset, PHP, Javascript