Refine Reset All
Sort by
Employer/Recruiter
Experience
Salary Estimate
Date Posted
Job Title
Location
Job Type
Employer/Recruiter
Experience
Salary Estimate
All Filters

Prometheus Jobs In China - 47 Job Positions Available

Top Cities:
1 – 20 of 47 jobs
Bjak jobs

About BJAK BJAK is building the next-generation insurance and financial services platform - designed to be intuitive, intelligent and personalised. Presently we are the largest insurance platform in Southeast Asia, and expanding globally with a strong

Bjak  28 days ago
BOKE Technology Co., Ltd jobs

运维工程师 上海 全职 互联网 / 电子 / 网游 职位描述 我们是一个成熟稳重的团队,大部分时间跟机器设备打交道,机器只认规则,我们主旨是规则为先,凡事先想好再做。团队大部分是大老爷们,干脆利落,氛围不会差,日常活动主要是吃吃玩玩。岗位职责:1. 负责线上游戏、WEB等应用系统的监控、优化、更新维护以及故障处理;2. 负责日常运维工具的开发及优化;3. 负责管理并完善运维监控平台及发布平台;4. 参与全球项目及各大云服务商平台的日常运维工作;5. 参与公司自动化运维体系的建设,应用新技术,优化运维架构,提升运维效率;6. 根据领导安排,完成其他相关工作内容。任职资格:1. 全日制大学本科及以上学历,计算机相关专业;2. 熟练使用Shell/Python/Go中的一种或者多种,拥有良好的linux性能tuning能力,具备独立排错的能力和意识;3. 熟悉k8s基础架构,了解云原生工具链如Rancher、Argocd、istio、Higress或者各类ingress controller等,有生产业务应用经验优先;3. 熟练操作Linux操作系统,熟悉Linux下常见运维工具和服务的安装配置及使用,包括但不限于Tomcat、Nginx、Rsync、Ansible、Zabbix、Prometheus、ELK等;4. 熟悉CI/CD流程以及常用工具链,如Gitlab、Jenkins等,至少一年以上游戏及WEB应用的运维工作经验;5. 英语读写熟练,熟悉自动化运维开发,Devops者优先;6. 工作认真负责,有较强的沟通协调能力,具备团队协作精神,能承受一定的工作压力,偶尔需要夜间维护。我们秉承“BE WILD. BE FREE.”的品牌主张,坚持始终创业、简单务实、开放包容、勇于担当的文化理念。在这里——【态度】我们讲求自驱,不设边界,没有人能定义你的舞台和天花板;【氛围】内部真·扁平,新人的意见、不同的观点都有可能成为波克前行的关键;【成长】入职即有指导人和成长伙伴双cover,内部分享+外聘大神助你突破自我;【生活】一日三餐下午茶,房补公寓任你选,节日社团境外游.让游戏不只是工作,更是你的生活! 投递...

Premium Full-time
BOKE Technology Co., Ltd  26 days ago
得物App jobs

【技术保障】业务SRE专家 上海 全职 互联网 / 电子 / 网游 - 研发 技术类 职位描述 1. 负责公司业务系统运维工作,提升业务稳定性和工程效率,与业务方保持高效沟通,建立良好合作关系;2. 负责应用上线评审、上线交付、配置变更、状态监控、容量管理、故障应急响应工作;3. 参与业务服务端架构的高可用设计和性能优化,保证高效、可靠的业务迭代;4. 负责线上重大问题排查,紧急事故处理,后续事故分析与优化;5. 负责应用故障演练、应急预案、SOP手册编写工作,确保故障时业务能快速恢复;6. 负责应用高可用建议及管理,包括限流、降级,容错、容灾,同城多活,确保应用质量;7. 建立SLA评估标准,计算故障对SLA影响,并对SLA后续改进措施进行跟进;8. 负责运维规范、流程文档编制,并将其工具化、平台化,确保运维安全,提升运维效率。 职位要求 1. 至少5年以上互联网公司运维相关经验;2. 熟悉JVM虚拟机的内存机制、GC机制,能进行JAVA进程异常的故障定位及排查;3. 熟悉Nginx,Zookeeper, Kafka, RocketMQ等常用WEB中间件的维护与使用;4. 熟悉常见监控系统,如Zabbix,Grafana,Prometheus等;5. 熟悉Memcache、Redis、Twemproxy等开源缓存解决方案;6. 有丰富的系统故障排查和解决经验,突出的分析和解决问题的能力;7. 良好的troubleshooting思路与经验,能够快速解决线上事故;8. 至少能掌握Python/Shell/GO等一至两种语言,有项目开发经验者优先;9. 熟悉SRE运维体系者优先;10. 熟悉高并发、高可用、微服务系统架构运维者优先。 投递...

Premium Full-time
得物App  26 days ago
BOKE Technology Co., Ltd jobs

2026届秋招-运维工程师 上海 正式 互联网 / 电子 / 网游 技术 职位描述 职位描述1. 业务全生命周期管理:负责全球业务系统(包含容器化应用及传统应用)的部署上线、变更配置、扩缩容及版本回滚;2. 全球化CI/CD建设:维护并优化基于 GitLab/Jenkins 的自动化发布流水线,确保在不同网络环境下的构建与分发效率;3. 多云资源管理:负责全球各大云厂商(AWS/Google/阿里/腾讯等)的资源申请、网络规划(VPC/CDN/专线)及成本控制;4. 稳定性保障与排障:利用 Prometheus、ELK、ebpf 等工具建立立体化监控体系,负责线上故障(Web应用、数据库、网络层)的快速响应与根因定位;5. 自动化提效:使用 Shell/Python/GOLANG等语言 开发运维小工具,屏蔽异构环境差异,提升日常运维工作的自动化水平。 职位要求 职位要求1. 学历背景:985/211院校全日制统招本科及以上学历,计算机、网络工程、通信等相关专业2026届毕业生;2. Linux 基础:理解 Linux 操作系统原理,能操作常用命令,并对系统性能(CPU/内存/磁盘IO)进行基本分析;3. 网络协议:因涉及全球业务,需理解 TCP/IP、HTTP/HTTPS、DNS、CDN 原理,具备网络抓包分析能力;4. 技术栈认知: 1. 混合架构:既了解 Docker/Kubernetes 等云原生技术,也对

BOKE Technology Co., Ltd  24 days ago
Saalex jobs

Saalex is seeking an Computer Software Engineer in China Lake, CA. Saalex is an Engineering and Information Technology Services company with a focus on Test Range Operations and Management, Engineering and Logistics Services, Data Analytics and

Saalex  24 days ago
Pony.ai jobs

存储开发工程师 - 海外项目 广州 全职 职位描述 负责自动驾驶项目的存储功能开发以及持续交付 职位要求 1. 计算机相关专业本科或以上学历2. 了解常见的开源存储(ceph,hdfs等等)以及日志监控系统(ELK, Prometheus, Grafana等)3. 熟练掌握 C++、Java、Python 中至少一门编程语言,具备良好的编码与调试能力;4. 有责任心,沟通积极,有良好的文档习惯,能使用英语进行书面的沟通加分项:1. 熟悉至少一家公有云厂商及其存储/监控组件(阿里云、腾讯云、Azure、AWS 等);2. 具备存储相关运维或开发经验,有分布式存储或大数据存储项目经验者优先;3. 有容器化(Docker、Kubernetes)和云原生实践经验。 投递...

Premium Full-time
Pony.ai  23 days ago
Crypto.com jobs

The exchange team develops and maintain a cutting-edge trading platform. With a global presence across APAC, EMEA and North America, the team has since grown with the goal to provide a seamless and secure trading experience

Crypto.com  22 days ago
Xiaomi jobs

AI基础设施研发工程师(Sandbox / 容器化)-MiMo 北京 社招 全职 职位 ID:A229573 职位描述 MiMo 大模型团队正在寻找熟悉 sandbox、容器化和云原生基础设施的研发工程师,一起建设面向大规模强化学习训练的基础设施能力。随着大模型 Agent 和代码能力训练进入大规模 RL 阶段,我们需要构建稳定、安全、可扩展的任务执行环境。你将参与设计和实现 sandbox 执行系统、容器调度平台、训练任务环境、隔离与资源管理机制,为大规模 Agent 任务、代码执行任务和 RL 训练提供底层 infra 支撑。工作职责1. 设计和建设面向 RL 训练的 sandbox 执行环境,支持代码运行、工具调用、浏览器自动化、文件系统操作、网络访问控制等能力。2. 基于 Docker、Kubernetes 等技术,构建可大规模调度的容器化任务运行平台,支持高并发、多租户、可观测、可恢复的训练任务执行。3. 参与大规模 RL 训练 infra

Xiaomi  21 days ago
Transsion jobs

高级运维开发工程师 上海 社招 全职 互联网 / 电子 / 网游 职位描述 1.负责运维自动化工具、监控平台及巡检系统的设计与开发、测试及迭代,替代人工重复操作,提升运维效率、降低成本。2.参与搭建全链路监控体系,开发自定义监控指标、告警规则及联动脚本,实现系统异常早发现、早处置,保障业务高可用。3.使用Shell、Python、Go等语言开发脚本,解决批量操作、故障恢复等重复性运维工作,提升操作准确性。4.对接研发、测试等团队,提供运维开发技术支持;沉淀最佳实践,编写技术及操作文档。5.参与线上故障应急响应,开发工具辅助排查恢复;定期巡检、优化运维工具及平台,保障其稳定运行。6.了解AI相关技术,探索其在运维场景的应用,参与AI运维工具的调研与落地,提升运维智能化水平。7.关注云原生、DevOps等前沿技术,开展调研与试点,将合适方案落地,提升团队技术水平。 职位要求 1.熟练掌握Python/Go等至少一门主流开发语言,能独立开发运维工具及脚本;遵循代码规范,熟练使用Git版本控制。2.熟悉Ansible、Prometheus、ELK Stack等运维工具,能进行二次开发及插件定制,适配自动化需求。3.精通Linux/Unix系统及常用命令,能排查系统故障;掌握TCP/IP等网络基础,了解Nginx、MySQL等服务运维。4.熟练掌握MySQL、Redis等至少一种数据库的运维与优化;了解RabbitMQ、Kafka等中间件的使用与运维。加分项1.具备Docker、Kubernetes等云原生技术实战经验,能开发适配云原生场景的运维工具。2.熟练使用主流AI Coding工具,辅助脚本开发,提升编码效率与质量,有AI运维(AIOps)技术落地实践经验。3.能独立负责复杂运维开发项目的推进与落地。 投递...

Premium Full-time
Transsion  19 days ago
Z.ai jobs

AI院-GLM团队-AI-Native 全栈工程师(偏后端) 北京 全职 研发 - 后端开发 职位描述 1、探索并创造基于大模型的工程级代码生成服务和产品,助力开发者迎接更高效的提效体验;2、关注AI领域的最新动态和趋势,结合开发者的实际需求,为我们提供高性能、适应性强的技术解决方案;3、对产品的稳定性和性能极致的追求,深入理解并致力于优化和重构,确保系统高效、稳定运作; 职位要求 1、本科及以上学历,计算机相关专业,有三年及以上相关工作经验;2、对前端或者后端至少精通一个方向:2.1)前端开发:熟悉 HTML、CSS、JavaScript、TypeScript 等 Web 前端技术;掌握 React/Vue 等 MDV 前端框架;熟悉基于 Next.js/Nuxt.js 等脚手架的项目开发;掌握 HTTP 协议、浏览器原理、性能优化等Web 前端核心知识;有扎实的 Node.js 基础,能解决前端工程化问题。2.2)后端开发:对 Python、Java、Go 等后端开发语言有深度的理解和实践经验,包括但不限于数据处理、服务器搭建和维护、数据库操作、API的设计和实现;对微服务架构、分布式计算,以及云服务等领域有了解或实际操作经验者优先;3、对探索大模型有极大热性,有大模型相关领域研发经验者优先。4、熟练使用 Linux,熟悉 Docker、Kubernetes 等容器技术的使用,了解其原理;熟悉云原生下的服务开发部署流程,熟悉 Prometheus + Grafana 的使用; 投递...

Z.ai  19 days ago
Z.ai jobs

MaaS-SRE/DBA 北京 全职 互联网 / 电子 / 网游 职位描述 【岗位职责】1. 稳定性保障(核心):负责MySQL、Redis等核心存储组件的稳定性,建设全方位的监控告警体系(Prometheus/Grafana),实现故障的早发现、快止损,保障MaaS平台在高并发场景下的99.99%可用性。2. 架构治理与演进: 主导数据库架构升级,包括读写分离、冷热分离、分库分表及异地多活(双活)容灾体系的建设。3. 深度调优与质量管控: 建立标准化的SQL审核与发布流程,负责慢 SQL 治理、大表治理及数据库参数深度调优,解决数据库性能瓶颈。4. 自动化平台建设: 基于SRE理念,开发数据库自动化运维平台(Python/Go),实现备份恢复、高可用切换、自动扩缩容及账号权限管理的自动化。5. 应急响应与预案: 负责突发故障(如宕机、带宽拥塞)的应急响应,制定并定期演练标准化恢复预案(SOP),降低故障平均恢复时间(MTTR)。6. 容量规划与成本管理: 结合业务增长模型进行容量预测与压测,优化资源利用率,制定降本增效策略。【岗位要求】1. 学历与经验: 本科及以上学历,计算机相关专业;3 年以上大规模互联网数据库管理(DBA)或 SRE 经验,有高并发、大流量系统保障经验者极佳。2. 数据库精通: 精通 MySQL 原理(InnoDB 引擎、事务锁机制、索引优化、主从复制),精通 Redis(集群模式、缓存一致性、热 Key/大 Key 处理);熟悉其高可用架构(MHA/Orchestrator/Sentinel/Cluster)。3.

Z.ai  19 days ago
Z.ai jobs

测试实习生 深圳 实习 互联网 / 电子 / 网游 职位描述 1.对接产品经理和开发,参与系统联调测试工作,保障产品质量;2.根据产品的功能规范和项目的时间节点,制定测试计划、设计测试用例并提交测试报告和问题清单,并做好各个阶段输出成果物的评审和释放;3.负责自动化测试工具和用例开发,提高测试效率和质量。 职位要求 1.本科及以上学历, 通信、电子、计算机等相关专业;2.掌握各种软件测试方法和测试用例设计方法,掌握系统测试、接口测试、性能测试等测试手段;2.熟悉接口测试(Postman、Swagger、JMeter、RestAssured)U自动化(Selenium/Playwright)、性能测试(JMeter、LoadRunner)-熟悉微服务架构、分布式系统测试(如Dubbo、Spring Cloud、K8s)熟悉C//CD流程,有Jenkins、GitLab Cl、ArgcCD等工具使用经验 3.熟练使用测试管理工具(TestLink、Zephyr、TestRail)-熟悉日志分析工具(ELK、Splunk)、监控平台(Prometheus、Grafana))4.熟悉Python/C++等一种或多种编程语言,熟悉linux基本操作命令; 投递...

Premium Full-time
Z.ai  19 days ago
Z.ai jobs

AI院-GLM团队-SRE运维工程师 北京 全职 研发 - 运维 职位描述 岗位职责:1.负责TOC相关业务的稳定性建设,包括但不限于Web服务、APP后端、API网关2.负责Kubernetes集群的建设与稳定性保障,包括版本升级、故障排查、资源利用率优化3.设计高可用架构,解决APIServer性能瓶颈、etcd存储压力等大规模集群特有问题。4.主导容器化架构调优(如Pod调度策略、网络插件选型、存储方案设计),优化资源请求/限制配置以减少资源争用。5.建立容器安全防护体系,包括漏洞扫描、运行时安全监控(如Falco)、合规审计。5.深度参与自动化运维工具链建设,CI/CD流水线混沌工程测试、智能扩缩容(HPA/VPA)推动Al0ns落地,其于时字数据合析预洲售群负裁并实现自愈。7. 解决生产环境疑难问题(如 OOM、网络延迟、存储性能瓶颈),输出标准化SOP文档车8.协同研发团队优化微服务架构,推动ServiceMesh等新技术落地, 职位要求 1.教育背景-统招本科及以上学历,计算机、软件工程、云计算相关专业优先。2.工作经验-3年以上容器运维经验,主导或深度参与过千级 Pod规模的集群维护。-熟悉生产环境容器化全生命周期管理,包括部署、监控、扩缩容、故障恢复等场景。-有多云环境/混合云管理经验-头部互联网/云计算大厂优先3.技术能力精通Kubernetes架构及生态工具(如Etcd、Calico、Istio),具备集群性能调优经验(如APIServer负载均衡、节点调度优化);熟练使用Docker、Prometheus、Grafana、ELK、CI/CD等工具链,熟悉云原生安全体系(如镜像扫描、RBAC策略、网络策略);具备运维开发能力,能使用Python/Go开发自动化工具(如自定义Operator、监控告警脚本)。 投递...

Z.ai  19 days ago
上海创智学院 Shanghai Innovation Institute jobs

AI基础架构工程师-大规模集群方向 上海 工程类 本科及以上 5-7 年 职位描述 1.大规模集群管理: 负责千卡/万卡级 GPU 集群(如 NVIDIA A100/H100)的日常运维、稳定性保障及容量规划,确保高可用性和高资源利用率。2.容器化平台建设: 基于 Kubernetes (K8s) 构建和优化 AI 训练平台,负责调度系统(Scheduler)的优化,解决资源隔离、优先级调度及断点续训(Checkpointing)等问题。3.故障排查与性能优化: 深入排查分布式训练过程中的疑难杂症(如 NCCL Timeout、GPU 掉卡、网络拥塞等),针对训练任务进行软硬件层面的性能调优。4.底层环境维护: 维护底层驱动(CUDA, cuDNN)、NCCL 通信库及异构硬件的监控体系(Prometheus/Grafana),实现对 GPU、RDMA 网络和存储系统的全链路监控。5.框架支持与对接: 支持主流深度学习框架(PyTorch, TensorFlow, Megatron-LM 等)在集群上的高效运行,优化 Dataloader 和分布式训练启动流程。 职位要求 1. 基础架构与容器技术:精通

上海创智学院 Shanghai Innovation Institute  19 days ago
VAST jobs

高级 SRE 工程师 (AI-INF-基础设施) Beijing、Shanghai Experienced Full-time Responsibilities 岗位职责1、多云架构管理与业务落地:负责公司在 AWS、阿里云等主流公有云上的基础设施规划、建设与日常运维;能够独立对接业务团队,完成复杂业务系统的架构设计、资源规划、部署上线及全生命周期管理。2、K8s 集群稳定性保障:负责公司海量/大规模Kubernetes集群的构建、稳定性优化、容量规划与调度策略调优;负责服务容器化改造及网络、存储等云原生组件的疑难问题排查。3、AI 算力基础设施运维:保障大模型训练和推理任务的稳定运行,熟悉异构算力(如 NVIDIA GPU)服务器的驱动、网络(InfiniBand/RoCE)及监控排障,优化GPU资源调度与利用率。4、CI/CD 与自动化流水线:设计并优化持续集成与持续交付(CI/CD)流水线(如 GitHub Actions, GitLab CI, ArgoCD),推动基础设施即代码(IaC,如Terraform)的落地,提升研发交付效率。5、可观测性系统建设:负责构建和优化全链路监控与告警体系,深入应用 Prometheus、Grafana、Alertmanager等开源工具,制定核心业务的SLI/SLO/SLA,建立高效的故障应急响应流程。6、运维平台自研开发:深入研发团队痛点,能够使用Python或Go语言独立设计并开发运维自动化平台、底座工具或 AI-Agent 智能巡检系统,用工程化手段消除组织内的“脏活累活”(Toil)。7、应急响应与 On-Call:参与生产环境的On-Call值班,对线上突发事件进行快速响应、定位、止血与复盘,沉淀故障知识库。 Qualifications 任职要求1、教育背景与经验:计算机或相关专业本科及以上学历,5年以上SRE、DevOps或运维开发经验(有AI算力集群或大规模 K8s 运维经验者优先)。2、公有云专长:熟练掌握AWS、阿里云等至少两家主流公有云厂商的架构体系,熟悉其 IAM、VPC、EKS/ACK、RDS等核心服务及跨云互联方案。3、云原生深度掌握:深入理解 Kubernetes 架构与底层原理,熟练掌握常用组件(Ingress, CoreDNS, Flannel/Calico等),具备强大的Pod/Node级别排错、性能调优和网络抓包能力。4、AI / 算力经验(硬性加分项):熟悉大模型分布式训练(如 Megatron-LM, DeepSpeed)或模型推理(如

VAST  17 days ago
Tiger Brokers jobs

DBA工程师 Beijing Full-time Internet / Electronics / Games Responsibilities - 负责公司核心 MySQL 集群的部署、监控、备份、扩容、高可用架构设计与日常运维;- 快速定位并解决线上 MySQL 性能瓶颈、慢查询、锁冲突、主从延迟、复制异常等复杂问题;- 深度优化 SQL 与索引,参与数据库设计评审,推动开发写出“不炸库”的 SQL;- 运维 Redis 集群(主从、哨兵、Cluster),保障缓存高可用与数据一致性;- 熟悉 Kafka / RabbitMQ 等消息中间件,能排查消息积压、消费异常、集群故障等运维问题;- 编写自动化脚本(Shell/Python/Go),提升数据库部署、巡检、故障自愈效率;- 参与数据库容量规划、灾备演练、压测方案设计,保障业务 7x24 稳定运行;- 对线上突发数据库故障能快速响应、冷静处理、复盘改进,形成知识沉淀;- 保持对数据库新技术的好奇心,主动研究源码、内核机制、性能调优技巧,乐于分享。 我们希望你:- 不满足于“重启解决”

Tiger Brokers  17 days ago
Tiger Brokers jobs

云原生开发工程师 Beijing Full-time R&D - Back-end development Responsibilities 作为云原生CI/CD方向高级工程师/专家,您将深度参与公司级CI/CD平台的设计、构建、优化和推广。您需要运用您在CI/CD领域的多年经验和对云原生技术的深刻理解,结合平台工程的理念,打造自动化、智能化、自助化的研发交付流水线和开发者平台,赋能业务快速迭代和创新。主要职责:1. CI/CD平台建设与优化: - 负责设计、开发、部署和维护公司级CI/CD平台及相关工具链(如Jenkins, GitLab CI, Argo CD, Tekton, Spinnaker等)。 - 持续优化CI/CD流程,提升构建、测试、部署的自动化水平、速度和稳定性。 - 集成代码质量扫描、安全扫描、自动化测试等工具,确保交付质量。2. 云原生技术实践与推广: - 将云原生理念(如微服务、容器化、不可变基础设施、声明式API)融入CI/CD流程和平台设计。 - 深入研究和应用Kubernetes、Docker、Service Mesh、Serverless等云原生技术,提升资源利用率和系统弹性。 - 推动云原生最佳实践在研发团队中的落地。3. 平台工程理念落地: - 基于平台工程理念,设计和构建内部开发者平台(IDP),提供标准化的开发、测试、部署环境和工具。 - 为开发者提供自助服务能力,降低认知负荷,提升开发者体验(Developer Experience)。

Tiger Brokers  17 days ago
清程极智 Qingcheng.ai jobs

运维工程师(云原生与数据库方向) 北京 全职 本科及以上 职位描述 1. 云平台管理:负责阿里云日常运维与架构优化,深度使用 ACK、CEN、ECI、ACR、ECS、VPC、SLB、OSS 等产品;构建操作审计与合规追踪体系。2. 容器化运维:管理 ACK 集群生命周期,掌握核心组件原理;编写高质量 Dockerfile 及 K8s YAML/Helm Charts;负责容器资源调优、启动加速及底层问题排查。3. 数据库与缓存:维护 TiDB 集群的扩容、备份及 SQL 调优,理解 TiKV 机制;维护 Redis 高可用架构,处理性能瓶颈与持久化策略。4. CI/CD 与 GitLab:维护自托管 GitLab 及 Runner,设计并优化多阶段 CI/CD 流水线,管理代码库权限与分支策略。5. 系统与网络排查:精通 Linux

清程极智 Qingcheng.ai  17 days ago
Renesas Electronics jobs

Job Description Have clear and solid relationships with software development departments. Plan and document work and projects. Build and continuously optimize CI/CD process and streamline automation effort for server provisioning and applications deployment. Build a resilient

Renesas Electronics  16 days ago
极兔速递 (J&T Express) jobs

【集团】资深运维工程师(GOC) 上海 全职 职位描述 一、岗位概述作为企业IT系统应急保障核心技术专家,负责7×24小时、Oncall团队技术赋能与应急体系优化,持续推动运维工作,支撑业务连续性与系统稳定性目标达成;二、核心职责。1、设计并迭代Oncall应急响应流程、故障分级标准与复盘机制,主导监控体系(Prometheus/Grafana等)深度优化,构建覆盖业务全链路的智能告警与预警模型;2、负责故障案例复盘分享、实战演练组织,提升团队整体故障处置能力与技术水平;3、推动运维自动化工具(Shell/Python/Ansible)与自愈能力落地,编写核心系统应急处置预案(DRP)并定期演练,沉淀《重大故障处置手册》与技术知识库;4、与开发、架构、业务、安全团队建立常态化沟通机制,提前识别系统潜在风险(如架构瓶颈、容量不足等),推动风险整改与性能优化,参与核心系统架构评审; 职位要求 三、任职要求1、本科及以上学历,计算机、软件工程等相关专业,,有互联网、电商、物流等行业背景者优先;2、精通Linux/Unix系统内核级运维,深入掌握网络协议(TCP/IP/HTTP/HTTPS)、数据库(MySQL/Redis/MongoDB)、中间件(Nginx/Kafka/RabbitMQ)原理与调优,具备分布式系统问题排查能力;3、熟练掌握容器化(Docker/Kubernetes)、云平台(AWS/Azure/阿里云/腾讯云)运维技术,能独立设计云原生环境下的应急保障方案;4、具备(如大规模服务雪崩、数据丢失、网络攻击等),能在高压环境下快速决策,主导跨团队协作攻坚;5、精通监控告警工具(Prometheus/Grafana/Zabbix/ELK),具备日志分析、指标建模能力,能编写自动化脚本(Shell/Python)实现故障自愈或效率提升;6、具备优秀的技术视野与问题拆解能力,良好的沟通协调与团队管理意识,能接受轮班/夜班及节假日值班,对系统稳定性有极致追求。 投递...

Premium Full-time
极兔速递 (J&T Express)  16 days ago

Subscribe for job alerts and resources to make your job search easier!

Confirmation email sent to

Check your email and click on the link to start receiving your job alerts

Receive the latest job openings for:

prometheus

You also might be interested in:

Devops Engineer

运维工程师

Kubernetes

GitLab

DevOps

Python

GitHub

Automation

AI

Microservices

Confirmation email sent to

Check your email and click on the link to start receiving your job alerts

All Filters Apply
Sort by
Employer/Recruiter
Experience
Salary Estimate