MÉCANICIEN MACHINES INDUSTRIELLES

$90k - $140k per year

Principal Site Reliability Engineering specialist (SRE)

Principal Site Reliability Engineer (SRE)

Languages: Bilingual (French & English)

We are hiring a Principal Site Reliability Engineering specialist (SRE) to support the design, evolution, and operation of mission critical technology platforms. In this strategic and handson role, you will lead the adoption of SRE best practices, shape cloud and application architectures, and drive the reliability, performance, and availability of client services. You will influence engineering standards, strengthen operational excellence, and collaborate across development, operations, security, and business teams to deliver resilient, scalable, and modern cloud solutions.

You are an experienced SRE professional with deep technical expertise and a strong ability to improve reliability at scale. You communicate effectively with technical and business stakeholders, collaborate naturally across teams, and consistently drive continuous improvement. Recommend reliability focused solutions based on business and technical needs.

Define and influence cloud and application architectures aligned with performance, availability, and resilience goals.
Build, enhance, and maintain monitoring, logging, and alerting capabilities.

Develop and improve observability frameworks (monitoring, alerting, logging).

Automate operational and reliability processes using Python, Bash, Ansible, and cloud native tooling.
Integrate reliability automation into CI/CD pipelines and optimize delivery workflows.

Incident Management & Continuous Improvement

Lead major incident response, root cause analysis, and post mortem activities.
Collaboration & Technical Leadership
Partner with development, DevOps, architecture, security, and business stakeholders.
Act as a technical authority and trusted advisor on service reliability.
Promote knowledge sharing and foster continuous improvement in engineering practices.

Bachelor’s degree in Computer Science, Software Engineering, or related field—or equivalent experience.

Bilingual (French/English)
5+ years of experience in SRE, DevOps, operations, or distributed systems.
Strong experience with cloud platforms (AWS, Azure, or GCP) and modern architectural patterns.
Proficiency in Linux, automation scripting (Python, Bash), and Infrastructure as Code (Terraform, CloudFormation).
Ability to influence stakeholders and provide strategic technical guidance.
French proficiency required; English proficiency considered an asset or required based on client context.

________________________________________

Core: SRE, DevOps, Incident Management, Observability, SLIs/SLOs/SLAs

Cloud: AWS / Azure / GCP
Infrastructure: Linux, Terraform, CloudFormation
Automation: Python, Bash, Ansible
The determination of this range includes factors such as skill set level, geographic market, experience and training, and licenses and certifications. At CGI, we value the strength that diversity brings and are committed to fostering a workplace where everyone belongs. Spécialiste principal(e) en ingénierie de la fiabilité des sites (SRE)

Langues : Bilingue (français et anglais)

Type d’emploi : Temps plein

Nous recrutons un(e) Principal Ingénieur Site Reliability (SRE) pour soutenir la conception, l’évolution et l’exploitation de plateformes technologiques critiques. Dans ce rôle stratégique et très opérationnel, vous dirigerez l’adoption des meilleures pratiques SRE, façonnerez les architectures cloud et applicatives, et piloterez la fiabilité, la performance et la disponibilité des services clients. Vous influencerez les normes d’ingénierie, renforcerez l’excellence opérationnelle et collaborerez avec les équipes de développement, d’exploitation, de sécurité et métiers afin de livrer des solutions cloud résilientes, évolutives et modernes.

Vous êtes un(e) professionnel(le) SRE expérimenté(e), doté(e) d’une expertise technique approfondie et d’une forte capacité à améliorer la fiabilité à grande échelle. Vous communiquez efficacement avec les parties prenantes techniques et métiers, collaborez naturellement entre les équipes et favorisez en permanence l’amélioration continue. Recommander des solutions axées sur la fiabilité en fonction des besoins métiers et techniques.

Définir et influencer les architectures cloud et applicatives alignées sur les objectifs de performance, de disponibilité et de résilience.
Concevoir, améliorer et maintenir les capacités de supervision, de journalisation et d’alerte.

Développer et améliorer les cadres d’observabilité (supervision, alerting, journalisation).

Automatiser les processus opérationnels et de fiabilité à l’aide de Python, Bash, Ansible et d’outils cloud natifs.
Intégrer l’automatisation de la fiabilité dans les pipelines CI/CD et optimiser les flux de livraison.

Gestion des incidents et amélioration continue

Diriger la gestion des incidents majeurs, l’analyse des causes profondes et les activités de post mortem.
Collaboration et leadership technique
Travailler en partenariat avec les équipes de développement, DevOps, d’architecture, de sécurité et les parties prenantes métiers.
Agir en tant qu’autorité technique et conseiller de confiance en matière de fiabilité des services.
Encourager le partage de connaissances et promouvoir l’amélioration continue des pratiques d’ingénierie.

Baccalauréat en informatique, en génie logiciel ou dans un domaine connexe — ou expérience équivalente.

Plus de 5 ans d’expérience en SRE, DevOps, exploitation ou systèmes distribués.
Forte expérience avec les plateformes cloud (AWS, Azure ou GCP) et les architectures modernes.
Maîtrise de Linux, des scripts d’automatisation (Python, Bash) et de l’infrastructure en tant que code (Terraform, CloudFormation).
Capacité à influencer les parties prenantes et à fournir une orientation technique stratégique.
Maîtrise du français requise ; la maîtrise de l’anglais est considérée comme un atout ou requise selon le contexte client.

Principales : SRE, DevOps, gestion des incidents, observabilité, SLI/SLO/SLA

Cloud : AWS / Azure / GCP
Infrastructure : Linux, Terraform, CloudFormation
Automatisation : Python, Bash, Ansible
Le calcul de cette fourchette dépend de divers facteurs, notamment le niveau de compétence, le marché géographique, l’expérience, la formation ainsi que les licences et certifications professionnelles. Principal Site Reliability Engineering specialist (SRE)