Our Vision
P\S\L Group is a global organisation dedicated to putting information at the service of medicine. The companies and people of the P\S\L Group aim to improve medical care by serving those who need it, those who provide it and those who seek to improve it.
To this end, we want our information and education services to contribute to the goals we share with our clinicians, clients and supporters, namely: to accelerate the advancement of medicine and help people enjoy better, longer lives.
Purpose
Our key contribution to society is to help clinicians and those who support them provide state-of-the-art medical care.
Our primary business purpose is to help clients and supporters increase the effectiveness of activities pertaining to scientific communication, medical education and the maintenance of clinician audience intimacy.
Position Summary
If you are a Sr. Data Engineer with a craving for making sense out of structured and unstructured data with the goal of affecting people’s lives in a positive manner, please read on!
We are looking for a Data Engineer that will work on collecting, storing, processing, and analyzing huge sets of data. The focus will be on working with the Data Engineering Team to design technologies that will wrangle, standardize and enhance our master data and transactional data repositories, then build operational and monitoring processes to govern that data. You will also be responsible for federation of this data across the enterprise using batch, streaming and microservices architectures.
Unique skills expected for this job are the ability to write clean, high-quality Python libraries that can be re-used within our platform; ability to create orchestration workflows that ingest structured and unstructured data in both streaming and batch modes; enrich and make it available for use throughout the enterprise.
Key Responsibilities
- Build the infrastructure required for optimal data pipelines from a wide variety of data sources using Python, AWS services and big data tech
- Create and maintain enterprise-wide data pipelines leveraging Kinesis, Glue, Lambda, and general microservices\microbatch architecture best practices
- Manage databases running on PostgreSQL, Snowflake, Redshift and ElasticSearch
- Monitor performance using Cloudwatch, Cloudtrail and advise on necessary infrastructure changes as needed
- Identify, design, and implement internal process improvements: automating manual processes, optimizing data delivery, redesigning for greater scalability, etc.
- Create data tools for analytics and data scientist team members that assist them in building and optimizing our enterprise data hub into an innovative industry leader.
Key Skills, Knowledge & Professional Education
- Minimum of 4 years experience implementing production systems in the cloud (preferably AWS)
- Understanding of database design (both SQL and noSQL)
- Experience with object-oriented/object function scripting languages: Python
- Excellent analytical and problem solving skills
- Experience with data cleansing, data wrangling, data quality, standardization, transformations etc
- Experience with data pipeline and workflow management tools: Streamsets
- Experience with relational SQL, including PostgreSQL, and MSSQL
- Experience with build systems: github, bitbucket
- Advanced working SQL knowledge and experience working with relational databases - both operational DBs and data warehouses
- Strong analytic skills related to working with unstructured datasets
- Prior Experience with Master Data Management is a plus
- BS/MS in Math, Computer Science, or equivalent experience
Notre vision
Groupe P\S\L est une organisation mondiale dédiée à mettre l'information au service de la médecine. Les entreprises et les employés du Groupe P\S\L visent à améliorer les soins médicaux en servant ceux qui en ont besoin, ceux qui les fournissent et ceux qui cherchent à les améliorer.
Dans cette optique, nous souhaitons que nos services d'information et d'éducation contribuent aux objectifs que nous partageons avec nos cliniciens, clients et partenaires, à savoir : accélérer l'avancement de la médecine et aider les gens à vivre mieux et plus longtemps.
Notre mission
Notre contribution clé à la société est d'aider les cliniciens et ceux qui les soutiennent à offrir des soins médicaux de pointe.
Notre principal objectif commercial est d'aider nos clients et partenaires à améliorer l'efficacité des activités liées à la communication scientifique, à la formation médicale et à la gestion des relations avec leurs publics.
Résumé du Poste
Si vous êtes un ingénieur de données senior avec un désir de donner du sens aux données structurées et non structurées dans le but d’avoir un impact positif sur la vie des gens, veuillez lire la suite!
Nous recherchons un ingénieur de données qui travaillera sur la collecte, le stockage, le traitement et l’analyse de vastes ensembles de données. L’accent sera mis sur la collaboration avec l’équipe d’ingénierie des données pour concevoir des technologies qui organiseront, normaliseront et amélioreront nos référentiels de données maîtres et de données transactionnelles, puis sur la construction de processus opérationnels et de surveillance pour gouverner ces données. Vous serez également responsable de la fédération de ces données à travers l’entreprise en utilisant des architectures par lot, en streaming et de microservices.
Les compétences uniques attendues pour ce poste sont la capacité d’écrire des bibliothèques Python propres et de haute qualité qui peuvent être réutilisées au sein de notre plateforme; la capacité de créer des flux de travail d’orchestration qui ingèrent des données structurées et non structurées à la fois en mode streaming et en mode par lot; d’enrichir ces données et de les rendre accessibles à toute l’entreprise.
Responsabilités principales
-
Construire l'infrastructure nécessaire pour des pipelines de données optimaux à partir de diverses sources de données en utilisant Python, les services AWS et les technologies de big data.
-
Créer et maintenir des pipelines de données à l'échelle de l'entreprise en utilisant Kinesis, Glue, Lambda et les meilleures pratiques de l'architecture de microservices/microbatch.
-
Gérer des bases de données fonctionnant sur PostgreSQL, Snowflake, Redshift et ElasticSearch.
-
Surveiller les performances à l’aide de Cloudwatch, Cloudtrail et conseiller sur les changements d’infrastructure nécessaires.
-
Identifier, concevoir et mettre en œuvre des améliorations des processus internes : automatisation des processus manuels, optimisation de la livraison des données, refonte pour une plus grande scalabilité, etc.
-
Créer des outils de données pour les membres des équipes d’analyse et de science des données qui les aideront à construire et optimiser notre hub de données d’entreprise afin d’en faire un leader innovant dans l’industrie.
Compétences clés, connaissances et formation professionnelle
-
Minimum de 4 ans d'expérience dans la mise en œuvre de systèmes de production dans le cloud (de préférence AWS).
-
Compréhension de la conception des bases de données (SQL et noSQL).
-
Expérience avec les langages de script orientés objet/ fonction : Python.
-
Excellentes compétences analytiques et en résolution de problèmes.
-
Expérience en nettoyage de données, gestion des données, qualité des données, standardisation, transformations, etc.
-
Expérience avec les outils de gestion des pipelines de données et des flux de travail : Streamsets.
-
Expérience avec les bases de données relationnelles SQL, y compris PostgreSQL et MSSQL.
-
Expérience avec les systèmes de versionnage : github, bitbucket.
-
Connaissance avancée de SQL et expérience avec les bases de données relationnelles – tant les bases de données opérationnelles que les entrepôts de données.
-
Solides compétences analytiques liées à l’analyse des ensembles de données non structurées.
-
Une expérience préalable en gestion des données maîtresses est un atout.
-
Diplôme en mathématiques, informatique ou expérience équivalente.