Reinforcement Learning Engineer - Ingénieur(e) en apprentissage par renforcement

Full-time

NBCUniversal

NBCUniversal is one of the world's leading media and entertainment companies. We create world-class content, which we distribute across our portfolio of film, television, and streaming, and bring to life through our global theme park destinations, consumer products, and experiences. We own and operate leading entertainment and news brands, including NBC, NBC News, NBC Sports, Telemundo, NBC Local Stations, Bravo, and Peacock, our premium ad-supported streaming service. We produce and distribute premier filmed entertainment and programming through our powerhouse film and television studios, including Universal Pictures, DreamWorks Animation, and Focus Features, and the four global television studios under the Universal Studio Group banner, and operate industry-leading theme parks and experiences around the world through Universal Destinations & Experiences, including Universal Orlando Resort, home to Universal Epic Universe, and Universal Studios Hollywood. NBCUniversal is a subsidiary of Comcast Corporation. Visit for more information.

Our impact is rooted in improving the communities where our employees, customers, and audiences live and work. We have a rich tradition of giving back and ensuring our employees have the opportunity to serve their communities. We champion an inclusive culture and strive to attract and develop a talented workforce to create and deliver a wide range of content reflecting our world.

NBCUniversal est l’un des leaders mondiaux du secteur des médias et du divertissement. Nous créons des contenus d’exception, que nous diffusons à travers notre portefeuille de films, de programmes télévisés et de services de streaming, et que nous donnons vie grâce à nos parcs à thème internationaux, nos produits grand public et nos expériences. Nous détenons et exploitons des marques de premier plan dans les domaines du divertissement et de l’information, notamment NBC, NBC News, NBC Sports, Telemundo, les chaînes locales NBC, Bravo et Peacock, notre service de streaming premium financé par la publicité. Nous produisons et distribuons des films et des programmes de divertissement de premier ordre grâce à nos puissants studios de cinéma et de télévision, notamment Universal Pictures, DreamWorks Animation et Focus Features, ainsi qu’aux quatre studios de télévision mondiaux regroupés sous la bannière Universal Studio Group. Nous exploitons également des parcs à thème et des expériences de premier plan à travers le monde via Universal Destinations & Experiences, notamment l’Universal Orlando Resort, qui abrite l’Universal Epic Universe, et Universal Studios Hollywood. NBCUniversal est une filiale de Comcast Corporation. Rendez-vous sur pour plus d’informations.

Notre impact repose sur l’amélioration des communautés dans lesquelles vivent et travaillent nos employés, nos clients et nos publics. Nous avons une riche tradition d’engagement social et veillons à ce que nos employés aient la possibilité de s’investir au sein de leurs communautés. Nous défendons une culture inclusive et nous nous efforçons d’attirer et de former une main-d’œuvre talentueuse afin de créer et de proposer un large éventail de contenus reflétant notre monde.

Job Description

We are seeking a Reinforcement Learning Engineer with experience manipulating virtual environments to train autonomous agents. This role focuses on the design of robust simulation environments, reward structures, and policy architectures that can navigate complex, multi-sensor landscapes.

Key Responsibilities

Cross-Functional Coordination: Work with partner ML and Annotation engineers and TPMs to spec out data, simulation, and training requirements.
Environment Design: Build and maintain high-fidelity 2D/3D simulation environments (using tools like Unity, Unreal, or Isaac Sim) that serve as the training ground for RL agents.
Reward Engineering: Design and tune complex reward functions that align agent behavior with product goals and safety constraints.
Algorithm Implementation: Develop and optimize RL algorithms (e.g., PPO, SAC, or Offline RL) capable of handling high-dimensional 3D observation spaces.
Sim-to-Real Strategy: Analyze the "reality gap" and implement domain randomization or adaptation techniques to ensure models perform reliably in real-world scenarios.

Nous sommes à la recherche d’un(e) ingénieur(e) en apprentissage par renforcement ayant de l’expérience dans la création et l’exploitation d’environnements virtuels pour l’entraînement d’agents autonomes. Ce rôle consiste à concevoir des environnements de simulation robustes, des structures de récompense et des architectures de politiques capables d’évoluer dans des contextes complexes et multi-capteurs.

Vous jouerez un rôle clé dans le rapprochement entre simulation et performance réelle en développant des systèmes RL évolutifs et en garantissant un comportement fiable des agents dans des conditions variées.

Collaboration interfonctionnelle : Travailler avec les ingénieurs ML, les équipes d’annotation et les TPM afin de définir les besoins en données, en simulation et en entraînement.
Conception d’environnements : Développer et maintenir des environnements de simulation 2D/3D à haute fidélité à l’aide d’outils tels que Unity, Unreal ou Isaac Sim.
Ingénierie des récompenses : Concevoir et optimiser des fonctions de récompense afin d’aligner le comportement des agents avec les objectifs produit et les contraintes de sécurité.
Implémentation d’algorithmes : Développer et optimiser des algorithmes d’apprentissage par renforcement (ex. : PPO, SAC, RL hors ligne) adaptés à des espaces d’observation à haute dimension.
Stratégie sim-to-real : Réduire l’écart entre simulation et réalité à l’aide de techniques comme la randomisation de domaine et l’adaptation afin d’assurer des performances fiables en conditions réelles.

Qualifications

Education: Graduate degree (Master’s or PhD) in Robotics, Computer Science, AI, or a related field with a focus on Reinforcement Learning, Imitation Learning, or other Online Machine Learning fields.
Professional Experience: Proven experience as an RL Engineer or Research Engineer in a fast-paced environment.
Industry Context: Prior experience in industries with complex multi-disciplinary teams such as robotics, smart grids, precision agriculture, game development, or aerospace.

Technical Proficiency:

Core Tools: Fluency with Python, Git, and the Unix shell.
RL Frameworks: Deep familiarity with frameworks like Ray Rllib, Stable Baselines3, or CleanRL.
Physics & 3D Engines: Experience with physics engines (MuJoCo, Bullet) or 3D game engines.
Ecosystem: Familiarity with collaborative tools such as Jira/Confluence, Slack, a Git server, and an experiment tracking framework.

Attributes:

Strong Mathematical Background: Essential for understanding Markov Decision Processes (MDPs) and gradient-based optimization.
High Attention to Detail: Critical for debugging non-deterministic agent behaviors and ensuring environment parity.

Formation : Maîtrise ou Doctorat en robotique, informatique, intelligence artificielle ou domaine connexe avec une spécialisation en apprentissage par renforcement, imitation ou apprentissage en ligne.
Expérience : Expérience démontrée en tant qu’ingénieur(e) en apprentissage par renforcement ou en recherche dans un environnement dynamique.
Contexte industriel : Une expérience dans des secteurs multidisciplinaires tels que la robotique, les réseaux intelligents, l’agriculture de précision, les jeux vidéo ou l’aérospatiale est fortement valorisée.

Compétences techniques

Outils principaux : Excellente maîtrise de Python, Git et des environnements Unix.
Frameworks RL : Expérience avec des frameworks tels que Ray RLlib, Stable Baselines3 ou CleanRL.
Physique et simulation : Expérience avec des moteurs physiques (MuJoCo, Bullet) ou des environnements de simulation 3D.
Écosystème : Familiarité avec des outils collaboratifs tels que Jira, Confluence, Slack, les workflows Git et les plateformes de suivi d’expériences.

Qualités recherchées

Solides bases mathématiques : Bonne compréhension des processus de décision de Markov (MDP) et de l’optimisation basée sur le gradient.
Rigueur et précision : Capacité à déboguer des systèmes non déterministes et à assurer la cohérence et la précision des environnements de simulation.

Additional Information

As part of our selection process, external candidates may be required to attend an in-person interview with an NBCUniversal employee at one of our locations prior to a hiring decision. NBCUniversal's policy is to provide equal employment opportunities to all applicants and employees without regard to race, color, religion, creed, gender, gender identity or expression, age, national origin or ancestry, citizenship, disability, sexual orientation, marital status, pregnancy, veteran status, membership in the uniformed services, genetic information, or any other basis protected by applicable law.

If you are a qualified individual with a disability or a disabled veteran and require support throughout the application and/or recruitment process as a result of your disability, you have the right to request a reasonable accommodation. You can submit your request to View email address on jobs.smartrecruiters.com.

Apply

Vacancy posted 2 days ago

Similar jobs that could be interesting for youBased on the Reinforcement Learning Engineer - Ingénieur(e) en apprentissage par renforcement in Montréal, QC vacancy

Staff Deep Learning Engineer - Ingénieur(e) principal(e) expert(e) en apprentissage profond (niveau Staff)
...notre service de streaming premium financé par la publicité. Nous produisons et... ...Description We are seeking a Staff Deep Learning Engineer with experience manipulating large 2D... ...d'un(e) ingénieur(e) principal(e) en apprentissage profond ayant de l'expérience dans la...
Apprenticeship
Full time
Internship
Local area
Remote work
NBCUniversal
Montréal, QC
2 days ago
Architecte de solutions, Applications d’Apprentissage Automatique // Solution Architect, Machine Learning Applications
...bout en bout d'applications d'apprentissage automatique hautement... ...une rigueur absolue avec les ingénieur·euse·s. En ce qui concerne... ...aux outils de revenus utilisés par plus de 575 partenaires dans... ...architectural cornerstone of our machine learning ecosystem, transforming...
Apprenticeship
Full time
Work at office
Remote work
Worldwide
Flexible hours
plusgrade
Montréal, QC
7 days ago
Specialiste de l'apprentissage / Learning Specialist
$22 per hour
...créant des programmes et des expériences d'apprentissage ayant un impact sur les jeunes et leurs... ...d'observation et de retour d'information par les pairs; Communiquer avec les éducateurs... ...: We are currently looking to hire a Learning Specialist Intern working in a hybrid...
Apprenticeship
Hourly pay
Permanent employment
Contract work
Temporary work
Summer work
Internship
Work from home
Flexible hours
Weekend work
Afternoon shift
Digital Moment
Montréal, QC
13 days ago
Ingénieur en IA/AI Engineer
$118k - $152k per year
...intelligentes. Le poste À titre d’ingénieur en IA, vous concevrez et... ...l’amélioration continue par l’expérimentation, les tests... ...la formation continue, à de l’apprentissage et à des certifications de l’... .... The Role As an AI Engineer, you will design and develop...
Apprenticeship
Internship
Immediate start
Capco
Montréal, QC
10 days ago
Ingénieur en Données Géospatiales / Geospatial Data Engineer
...privilégions la capacité de résolution de problèmes et l’agilité d’apprentissage plutôt que la vérification de toutes les cases. Note :... ...We want to hear from you! We value problem-solving ability and learning agility over checking every box. Note : Only candidates who...
Apprenticeship
Shearwater
Montréal, QC
2 days ago
Ingénieur en automatisation et contrôle\Automation Controls Engineer
...des régulateurs de température et d'autres instruments électriques. 5. Former et guider l'installation et la configuration du logiciel par le technicien. 6. Résoudre les problèmes électriques et le support des départements de la production, des services, des achats et des...
ATS Automation
Montréal, QC
1 hour ago
Ingénieur.e sénior en apprentissage automatique distribué
...Nous recherchons un.e ingénieur.e sénior en apprentissage automatique distribué (distributed ML) pour rejoindre notre équipe travaillant sur un agenda... ...Un diplôme dans un domaine pertinent de l'informatique (par exemple, informatique, génie informatique, génie logiciel)...
Apprenticeship
Work at office
LoiZéro
Montréal, QC
13 hours ago
Ingénieur·e principal·e en apprentissage automatique - Rendu neuronal
$160.8k - $212.3k per year
...neuronal et génératifs pour le simulateur guidé par les données de Torc. Les données de... .... Travailler dans l’écosystème d’apprentissage automatique en nuage avec d’autres départements... ...le consensus. Mentore et guide les ingénieur·e·s du groupe. Points bonus! Expérience...
Apprenticeship
Full time
Work at office
Torc Robotics
Montréal, QC
2 days ago
Ingénieur Logiciel en Autonomie / Autonomy Software Engineer
...valorisons la capacité à résoudre des problèmes et l’agilité d’apprentissage avant le fait de cocher toutes les cases. Remarque : Seuls... ...We want to hear from you! We value problem-solving ability and learning agility over checking every box. Note: Only candidates with...
Apprenticeship
Work visa
Shearwater
Montréal, QC
13 hours ago
Data Engineer | Ingénieur de données
...Data Engineer – Investment Analytics, Data Solutions & Innovation Based in Montreal, PineStone... ...for an interview will be contacted. Ingénieur de données – Analytique d’investissement,... ...dollars canadiens d’actifs et est dirigée par Nadim Rizk, un gestionnaire de portefeuille...
Daily paid
Full time
Contract work
Worldwide
PineStone Asset Management Inc.
Montréal, QC
14 days ago
Ingénieur mécanique / Mechanical Engineer
$72.5k - $96k per year
...Nous sommes des étudiants permanents obsédés par l’amélioration des choses pour obtenir des... ..., vous interagirez quotidiennement avec l’ingénieur système tout au long du processus de... ...you will interact daily with the systems engineer throughout the entire project development...
Permanent employment
Full time
Contract work
Work at office
Remote work
Flexible hours
Wabtec
Montréal, QC
22 days ago
Staff MLOps Engineer - Ingénieur(e) MLOps expert(e) (niveau Staff)
...de streaming premium financé par la publicité. Nous produisons... ...We are seeking a Staff MLOps Engineer with experience building and... ...the backbone of our machine learning lifecycle, ensuring that data... ...fondements du cycle de vie de l’apprentissage automatique, en veillant à ce...
Apprenticeship
Full time
Local area
NBCUniversal
Montréal, QC
2 days ago
Ingénieur mécanique / Mechanical Engineer
...aventure. Le poste Nous recherchons un ingénieur mécanique hands-on pour contribuer à l’... ...rapide et multidisciplinaire, passionnée par les défis d’ingénierie de précision et... ...We are seeking a hands-on Mechanical Engineer to support everything related to mechanical...
Full time
Contract work
Worldwide
Mechasys
Montréal, QC
26 days ago
Gestionnaire en apprentissage automatique
...’un ou d'une gestionnaire en apprentissage automatique (ML) pour rejoindre... ...Scientist AI » développée par Yoshua Bengio. À la fois gestionnaire... ...équipe de chercheurs et d'ingénieurs en ML hautement qualifiés et... ...profond (machine learning / deep learning). Plus de...
Apprenticeship
Work at office
LoiZéro
Montréal, QC
13 hours ago
Ingénieur - Génie du bâtiement / Building Engineer
...projets de construction. C'est par la collaboration et le... .... Le Poste : À titre ingénieur junior au sein de notre équipe... ...nouvelles, ainsi qu'un fort désir d'apprentissage continu et de partage des... ...The Role: As a Building Engineer within our Building Restoration...
Apprenticeship
Remote job
Full time
Internship
Sense Engineering
Montréal, QC
a month ago
Autonomy Software Engineer | Ingénieur Logiciel en Autonomie
...Description As an Autonomy Software Engineer, you’ll contribute to improving the robustness... ...des technologies aériennes. Inspirés par les oiseaux capables de voler pendant des... ...vol. Description du poste En tant qu’ingénieur logiciel en autonomie, vous contribuerez à...
Work visa
Day shift
Shearwater
Montréal, QC
6 days ago
Learning & Development Advisor - Internship Fall 2026 Conseiller·ère en Apprentissage & Développement
...looking for an enthusiastic and curious Learning & Development Advisor intern to join our... ...Expérience en développement de modules d’apprentissage en ligne, un atout. Ce poste nécessite... ...présence au bureau de Montréal trois jours par semaine ! Nous recherchons un·e...
Apprenticeship
Full time
Internship
Work at office
Flexible hours
3 days per week
Montréal, QC
1 day ago
Learning & Development Advisor - Internship Fall 2026 Conseiller·ère en Apprentissage & Développement
...This position requires you to be in the office in Montréal three days a week! We’re looking for an enthusiastic and curious Learning & Development Advisor intern to join our team and help enhance our overall learning experience. You’ll have the opportunity to discover...
Apprenticeship
Full time
Internship
Work at office
Flexible hours
3 days per week
bhvr
Montréal, QC
7 hours ago
Ingénieur(e) concepteur(trice) - Structure / Structural Design Engineer
...projets de construction. C'est par la collaboration et le... ...Le Poste : En tant qu'ingénieur(e) en conception structurale,... ...de solutions innovantes et l'apprentissage continu, tout en favorisant une... ...Role: As a Structural Design Engineer, you will play a pivotal role...
Apprenticeship
Remote job
Full time
Contract work
Internship
Sense Engineering
Montréal, QC
a month ago
Ingénieur en automatisation et contrôle\Automation Controls Engineer
ATS Company: ATS Corporation
ATS Corporation
Montréal, QC
4 days ago
Ingénieur(e) technique expérimenté(e) - Simulation (Houdini) / Simulation (Houdini) - Senior Technical Engineer
...visuels et d'animation récompensé par un Oscar® et réputé pour ses... .... Nous recherchons un(e) ingénieur(e) technique hautement compétent... ...en science des données, apprentissage automatique ou techniques de... ...highly proficient Technical Engineer to focus on the development and...
Apprenticeship
Full time
Work at office
Shift work
Sony Pictures Imageworks
Montréal, QC
13 hours ago
Chercheur.se en apprentissage automatique sénior
...recherchons un.e chercheur.se en apprentissage automatique (ML) sénior pour... ...des modèles avec les ingénieur.e.s ML pour assurer l'utilisation... ...apprentissage profond (deep learning), en particulier avec des modèles... ...complexes impliquant, par exemple, l'apprentissage par...
Apprenticeship
Work at office
Flexible hours
Day shift
LoiZéro
Montréal, QC
13 hours ago
Ingénieur(e) en stress Statiques / Stress Engineer - Static
$75.82k - $118.35k per year
...vétéran, de l'état civil ou de toute autre caractéristique protégée par la loi. Il s'agit d'une description générale des tâches,... ...en tant que candidat - Long Description Job Title: Stress Engineer Static – Aerospace Location: Mirabel – 3 days a week on-site...
Permanent employment
Full time
Local area
3 days per week
Capgemini
Montréal, QC
14 days ago
Ingénieur structure (DTA) / DTA Stress Engineer
$100.2k - $138.94k per year
...the same. Long Description Job Title Ingénieur structure (DTA) Lieu- Mirabel Québec 3... ...de toute autre caractéristique protégée par la loi. Il s'agit d'une description générale... ...Long Description Job Title Stress Engineer DTA Location - Mirabel, Quebec 3 days a...
Permanent employment
Full time
Work at office
Local area
Relocation
3 days per week
Capgemini
Montréal, QC
25 days ago
Spécialiste bilingue en apprentissage et perfectionnement, temporaire
$80k - $90k per year
...vacant d’une ou d’un Spécialiste bilingue en apprentissage et perfectionnement qui se joindra à... ...du client . Vous étes partisan du service par l’excellence et travaillez a fournir des... ...en ligne, Qtrade Investissement directMD, renforce le pouvoir des investisseurs autonomes, et...
Apprenticeship
Daily paid
Full time
Temporary work
Work at office
Aviso Wealth
Montréal, QC
11 days ago
Ingénieur principal de systèmes de charge utile numérique/ Digital Payload Principal System Engineer
...automotive, healthcare, and industrial automation. En tant qu’ingénieur principal de systèmes de charge utile numérique, vos principales... ...utiles numériques. As a Digital Payload Principal System Engineer, your main responsibilities will include the architecture, design...
Daily paid
Full time
syntronic
Montréal, QC
7 days ago
Spécialiste en Apprentissage Automatique
...intégrité, d'innovation et de volonté de remettre en question le consensus. Notre équipe travaille sur une variété de projets d’apprentissage automatique à fort impact, et nous cherchons un spécialiste en apprentissage automatique pour se joindre à nous. Dans ce rôle,...
Apprenticeship
Work at office
Worldwide
DRW Montreal
Montréal, QC
1 day ago
Chercheur.se en apprentissage automatique (inférence probabiliste)
...Nous recherchons un.e chercheur.se en apprentissage automatique pour rejoindre notre équipe travaillant... ...supérieur dans un domaine pertinent (par exemple, informatique, mathématiques).... ...modèles causaux) Apprentissage par renforcement Contrôle optimal. Solides...
Apprenticeship
Work at office
Flexible hours
Day shift
LoiZéro
Montréal, QC
2 days ago
Ingénieur(e) Stress Cabine
...QUE VOUS ALLEZ ACCOMPLIR L'ingénieur(e) stress sera amené à effectuer... ...des rapports effectués par d’autres membres de l’équipe.... ...WILL ACCOMPLISH The Stress Engineer will be responsible for performing... ...expertise au-delà des frontières, renforçant ainsi sa capacité à innover et...
Full time
Temporary work
Work at office
Worldwide
SOGECLAIR
Montréal, QC
4 days ago
Architecte en Apprentissage Automatique et Technologies de Jeu
$180.1k - $247.6k per year
...CD PROJEKT RED est à la recherche d’un·e Architecte en Apprentissage Automatique et Technologies de Jeu afin de rejoindre notre équipe... ...en modélisation du comportement humain et en apprentissage par renforcement sont un fort atout. Des compétences solides en C, C++, Rust...
Apprenticeship
Full time
Local area
Remote work
Flexible hours
Day shift
CD PROJEKT RED
Montréal, QC
28 days ago

Do you want to receive more vacancies?

Subscribe and receive similar vacancies to Reinforcement Learning Engineer - Ingénieur(e) en apprentissage par renforcement. Be the first to apply!