About BJAK BJAK is building the next-generation insurance and financial services platform - designed to be intuitive, intelligent and personalised. Presently we are the largest insurance platform in Southeast Asia, and expanding globally with a strong
运维工程师 上海 全职 互联网 / 电子 / 网游 职位描述 我们是一个成熟稳重的团队,大部分时间跟机器设备打交道,机器只认规则,我们主旨是规则为先,凡事先想好再做。团队大部分是大老爷们,干脆利落,氛围不会差,日常活动主要是吃吃玩玩。岗位职责:1. 负责线上游戏、WEB等应用系统的监控、优化、更新维护以及故障处理;2. 负责日常运维工具的开发及优化;3. 负责管理并完善运维监控平台及发布平台;4. 参与全球项目及各大云服务商平台的日常运维工作;5. 参与公司自动化运维体系的建设,应用新技术,优化运维架构,提升运维效率;6. 根据领导安排,完成其他相关工作内容。任职资格:1. 全日制大学本科及以上学历,计算机相关专业;2. 熟练使用Shell/Python/Go中的一种或者多种,拥有良好的linux性能tuning能力,具备独立排错的能力和意识;3. 熟悉k8s基础架构,了解云原生工具链如Rancher、Argocd、istio、Higress或者各类ingress controller等,有生产业务应用经验优先;3. 熟练操作Linux操作系统,熟悉Linux下常见运维工具和服务的安装配置及使用,包括但不限于Tomcat、Nginx、Rsync、Ansible、Zabbix、Prometheus、ELK等;4. 熟悉CI/CD流程以及常用工具链,如Gitlab、Jenkins等,至少一年以上游戏及WEB应用的运维工作经验;5. 英语读写熟练,熟悉自动化运维开发,Devops者优先;6. 工作认真负责,有较强的沟通协调能力,具备团队协作精神,能承受一定的工作压力,偶尔需要夜间维护。我们秉承“BE WILD. BE FREE.”的品牌主张,坚持始终创业、简单务实、开放包容、勇于担当的文化理念。在这里——【态度】我们讲求自驱,不设边界,没有人能定义你的舞台和天花板;【氛围】内部真·扁平,新人的意见、不同的观点都有可能成为波克前行的关键;【成长】入职即有指导人和成长伙伴双cover,内部分享+外聘大神助你突破自我;【生活】一日三餐下午茶,房补公寓任你选,节日社团境外游.让游戏不只是工作,更是你的生活! 投递...
【技术保障】业务SRE专家 上海 全职 互联网 / 电子 / 网游 - 研发 技术类 职位描述 1. 负责公司业务系统运维工作,提升业务稳定性和工程效率,与业务方保持高效沟通,建立良好合作关系;2. 负责应用上线评审、上线交付、配置变更、状态监控、容量管理、故障应急响应工作;3. 参与业务服务端架构的高可用设计和性能优化,保证高效、可靠的业务迭代;4. 负责线上重大问题排查,紧急事故处理,后续事故分析与优化;5. 负责应用故障演练、应急预案、SOP手册编写工作,确保故障时业务能快速恢复;6. 负责应用高可用建议及管理,包括限流、降级,容错、容灾,同城多活,确保应用质量;7. 建立SLA评估标准,计算故障对SLA影响,并对SLA后续改进措施进行跟进;8. 负责运维规范、流程文档编制,并将其工具化、平台化,确保运维安全,提升运维效率。 职位要求 1. 至少5年以上互联网公司运维相关经验;2. 熟悉JVM虚拟机的内存机制、GC机制,能进行JAVA进程异常的故障定位及排查;3. 熟悉Nginx,Zookeeper, Kafka, RocketMQ等常用WEB中间件的维护与使用;4. 熟悉常见监控系统,如Zabbix,Grafana,Prometheus等;5. 熟悉Memcache、Redis、Twemproxy等开源缓存解决方案;6. 有丰富的系统故障排查和解决经验,突出的分析和解决问题的能力;7. 良好的troubleshooting思路与经验,能够快速解决线上事故;8. 至少能掌握Python/Shell/GO等一至两种语言,有项目开发经验者优先;9. 熟悉SRE运维体系者优先;10. 熟悉高并发、高可用、微服务系统架构运维者优先。 投递...
2026届秋招-运维工程师 上海 正式 互联网 / 电子 / 网游 技术 职位描述 职位描述1. 业务全生命周期管理:负责全球业务系统(包含容器化应用及传统应用)的部署上线、变更配置、扩缩容及版本回滚;2. 全球化CI/CD建设:维护并优化基于 GitLab/Jenkins 的自动化发布流水线,确保在不同网络环境下的构建与分发效率;3. 多云资源管理:负责全球各大云厂商(AWS/Google/阿里/腾讯等)的资源申请、网络规划(VPC/CDN/专线)及成本控制;4. 稳定性保障与排障:利用 Prometheus、ELK、ebpf 等工具建立立体化监控体系,负责线上故障(Web应用、数据库、网络层)的快速响应与根因定位;5. 自动化提效:使用 Shell/Python/GOLANG等语言 开发运维小工具,屏蔽异构环境差异,提升日常运维工作的自动化水平。 职位要求 职位要求1. 学历背景:985/211院校全日制统招本科及以上学历,计算机、网络工程、通信等相关专业2026届毕业生;2. Linux 基础:理解 Linux 操作系统原理,能操作常用命令,并对系统性能(CPU/内存/磁盘IO)进行基本分析;3. 网络协议:因涉及全球业务,需理解 TCP/IP、HTTP/HTTPS、DNS、CDN 原理,具备网络抓包分析能力;4. 技术栈认知: 1. 混合架构:既了解 Docker/Kubernetes 等云原生技术,也对
Saalex is seeking an Computer Software Engineer in China Lake, CA. Saalex is an Engineering and Information Technology Services company with a focus on Test Range Operations and Management, Engineering and Logistics Services, Data Analytics and
存储开发工程师 - 海外项目 广州 全职 职位描述 负责自动驾驶项目的存储功能开发以及持续交付 职位要求 1. 计算机相关专业本科或以上学历2. 了解常见的开源存储(ceph,hdfs等等)以及日志监控系统(ELK, Prometheus, Grafana等)3. 熟练掌握 C++、Java、Python 中至少一门编程语言,具备良好的编码与调试能力;4. 有责任心,沟通积极,有良好的文档习惯,能使用英语进行书面的沟通加分项:1. 熟悉至少一家公有云厂商及其存储/监控组件(阿里云、腾讯云、Azure、AWS 等);2. 具备存储相关运维或开发经验,有分布式存储或大数据存储项目经验者优先;3. 有容器化(Docker、Kubernetes)和云原生实践经验。 投递...
The exchange team develops and maintain a cutting-edge trading platform. With a global presence across APAC, EMEA and North America, the team has since grown with the goal to provide a seamless and secure trading experience
AI基础设施研发工程师(Sandbox / 容器化)-MiMo 北京 社招 全职 职位 ID:A229573 职位描述 MiMo 大模型团队正在寻找熟悉 sandbox、容器化和云原生基础设施的研发工程师,一起建设面向大规模强化学习训练的基础设施能力。随着大模型 Agent 和代码能力训练进入大规模 RL 阶段,我们需要构建稳定、安全、可扩展的任务执行环境。你将参与设计和实现 sandbox 执行系统、容器调度平台、训练任务环境、隔离与资源管理机制,为大规模 Agent 任务、代码执行任务和 RL 训练提供底层 infra 支撑。工作职责1. 设计和建设面向 RL 训练的 sandbox 执行环境,支持代码运行、工具调用、浏览器自动化、文件系统操作、网络访问控制等能力。2. 基于 Docker、Kubernetes 等技术,构建可大规模调度的容器化任务运行平台,支持高并发、多租户、可观测、可恢复的训练任务执行。3. 参与大规模 RL 训练 infra
高级运维开发工程师 上海 社招 全职 互联网 / 电子 / 网游 职位描述 1.负责运维自动化工具、监控平台及巡检系统的设计与开发、测试及迭代,替代人工重复操作,提升运维效率、降低成本。2.参与搭建全链路监控体系,开发自定义监控指标、告警规则及联动脚本,实现系统异常早发现、早处置,保障业务高可用。3.使用Shell、Python、Go等语言开发脚本,解决批量操作、故障恢复等重复性运维工作,提升操作准确性。4.对接研发、测试等团队,提供运维开发技术支持;沉淀最佳实践,编写技术及操作文档。5.参与线上故障应急响应,开发工具辅助排查恢复;定期巡检、优化运维工具及平台,保障其稳定运行。6.了解AI相关技术,探索其在运维场景的应用,参与AI运维工具的调研与落地,提升运维智能化水平。7.关注云原生、DevOps等前沿技术,开展调研与试点,将合适方案落地,提升团队技术水平。 职位要求 1.熟练掌握Python/Go等至少一门主流开发语言,能独立开发运维工具及脚本;遵循代码规范,熟练使用Git版本控制。2.熟悉Ansible、Prometheus、ELK Stack等运维工具,能进行二次开发及插件定制,适配自动化需求。3.精通Linux/Unix系统及常用命令,能排查系统故障;掌握TCP/IP等网络基础,了解Nginx、MySQL等服务运维。4.熟练掌握MySQL、Redis等至少一种数据库的运维与优化;了解RabbitMQ、Kafka等中间件的使用与运维。加分项1.具备Docker、Kubernetes等云原生技术实战经验,能开发适配云原生场景的运维工具。2.熟练使用主流AI Coding工具,辅助脚本开发,提升编码效率与质量,有AI运维(AIOps)技术落地实践经验。3.能独立负责复杂运维开发项目的推进与落地。 投递...
AI院-GLM团队-AI-Native 全栈工程师(偏后端) 北京 全职 研发 - 后端开发 职位描述 1、探索并创造基于大模型的工程级代码生成服务和产品,助力开发者迎接更高效的提效体验;2、关注AI领域的最新动态和趋势,结合开发者的实际需求,为我们提供高性能、适应性强的技术解决方案;3、对产品的稳定性和性能极致的追求,深入理解并致力于优化和重构,确保系统高效、稳定运作; 职位要求 1、本科及以上学历,计算机相关专业,有三年及以上相关工作经验;2、对前端或者后端至少精通一个方向:2.1)前端开发:熟悉 HTML、CSS、JavaScript、TypeScript 等 Web 前端技术;掌握 React/Vue 等 MDV 前端框架;熟悉基于 Next.js/Nuxt.js 等脚手架的项目开发;掌握 HTTP 协议、浏览器原理、性能优化等Web 前端核心知识;有扎实的 Node.js 基础,能解决前端工程化问题。2.2)后端开发:对 Python、Java、Go 等后端开发语言有深度的理解和实践经验,包括但不限于数据处理、服务器搭建和维护、数据库操作、API的设计和实现;对微服务架构、分布式计算,以及云服务等领域有了解或实际操作经验者优先;3、对探索大模型有极大热性,有大模型相关领域研发经验者优先。4、熟练使用 Linux,熟悉 Docker、Kubernetes 等容器技术的使用,了解其原理;熟悉云原生下的服务开发部署流程,熟悉 Prometheus + Grafana 的使用; 投递...
MaaS-SRE/DBA 北京 全职 互联网 / 电子 / 网游 职位描述 【岗位职责】1. 稳定性保障(核心):负责MySQL、Redis等核心存储组件的稳定性,建设全方位的监控告警体系(Prometheus/Grafana),实现故障的早发现、快止损,保障MaaS平台在高并发场景下的99.99%可用性。2. 架构治理与演进: 主导数据库架构升级,包括读写分离、冷热分离、分库分表及异地多活(双活)容灾体系的建设。3. 深度调优与质量管控: 建立标准化的SQL审核与发布流程,负责慢 SQL 治理、大表治理及数据库参数深度调优,解决数据库性能瓶颈。4. 自动化平台建设: 基于SRE理念,开发数据库自动化运维平台(Python/Go),实现备份恢复、高可用切换、自动扩缩容及账号权限管理的自动化。5. 应急响应与预案: 负责突发故障(如宕机、带宽拥塞)的应急响应,制定并定期演练标准化恢复预案(SOP),降低故障平均恢复时间(MTTR)。6. 容量规划与成本管理: 结合业务增长模型进行容量预测与压测,优化资源利用率,制定降本增效策略。【岗位要求】1. 学历与经验: 本科及以上学历,计算机相关专业;3 年以上大规模互联网数据库管理(DBA)或 SRE 经验,有高并发、大流量系统保障经验者极佳。2. 数据库精通: 精通 MySQL 原理(InnoDB 引擎、事务锁机制、索引优化、主从复制),精通 Redis(集群模式、缓存一致性、热 Key/大 Key 处理);熟悉其高可用架构(MHA/Orchestrator/Sentinel/Cluster)。3.
测试实习生 深圳 实习 互联网 / 电子 / 网游 职位描述 1.对接产品经理和开发,参与系统联调测试工作,保障产品质量;2.根据产品的功能规范和项目的时间节点,制定测试计划、设计测试用例并提交测试报告和问题清单,并做好各个阶段输出成果物的评审和释放;3.负责自动化测试工具和用例开发,提高测试效率和质量。 职位要求 1.本科及以上学历, 通信、电子、计算机等相关专业;2.掌握各种软件测试方法和测试用例设计方法,掌握系统测试、接口测试、性能测试等测试手段;2.熟悉接口测试(Postman、Swagger、JMeter、RestAssured)U自动化(Selenium/Playwright)、性能测试(JMeter、LoadRunner)-熟悉微服务架构、分布式系统测试(如Dubbo、Spring Cloud、K8s)熟悉C//CD流程,有Jenkins、GitLab Cl、ArgcCD等工具使用经验 3.熟练使用测试管理工具(TestLink、Zephyr、TestRail)-熟悉日志分析工具(ELK、Splunk)、监控平台(Prometheus、Grafana))4.熟悉Python/C++等一种或多种编程语言,熟悉linux基本操作命令; 投递...
AI院-GLM团队-SRE运维工程师 北京 全职 研发 - 运维 职位描述 岗位职责:1.负责TOC相关业务的稳定性建设,包括但不限于Web服务、APP后端、API网关2.负责Kubernetes集群的建设与稳定性保障,包括版本升级、故障排查、资源利用率优化3.设计高可用架构,解决APIServer性能瓶颈、etcd存储压力等大规模集群特有问题。4.主导容器化架构调优(如Pod调度策略、网络插件选型、存储方案设计),优化资源请求/限制配置以减少资源争用。5.建立容器安全防护体系,包括漏洞扫描、运行时安全监控(如Falco)、合规审计。5.深度参与自动化运维工具链建设,CI/CD流水线混沌工程测试、智能扩缩容(HPA/VPA)推动Al0ns落地,其于时字数据合析预洲售群负裁并实现自愈。7. 解决生产环境疑难问题(如 OOM、网络延迟、存储性能瓶颈),输出标准化SOP文档车8.协同研发团队优化微服务架构,推动ServiceMesh等新技术落地, 职位要求 1.教育背景-统招本科及以上学历,计算机、软件工程、云计算相关专业优先。2.工作经验-3年以上容器运维经验,主导或深度参与过千级 Pod规模的集群维护。-熟悉生产环境容器化全生命周期管理,包括部署、监控、扩缩容、故障恢复等场景。-有多云环境/混合云管理经验-头部互联网/云计算大厂优先3.技术能力精通Kubernetes架构及生态工具(如Etcd、Calico、Istio),具备集群性能调优经验(如APIServer负载均衡、节点调度优化);熟练使用Docker、Prometheus、Grafana、ELK、CI/CD等工具链,熟悉云原生安全体系(如镜像扫描、RBAC策略、网络策略);具备运维开发能力,能使用Python/Go开发自动化工具(如自定义Operator、监控告警脚本)。 投递...
AI基础架构工程师-大规模集群方向 上海 工程类 本科及以上 5-7 年 职位描述 1.大规模集群管理: 负责千卡/万卡级 GPU 集群(如 NVIDIA A100/H100)的日常运维、稳定性保障及容量规划,确保高可用性和高资源利用率。2.容器化平台建设: 基于 Kubernetes (K8s) 构建和优化 AI 训练平台,负责调度系统(Scheduler)的优化,解决资源隔离、优先级调度及断点续训(Checkpointing)等问题。3.故障排查与性能优化: 深入排查分布式训练过程中的疑难杂症(如 NCCL Timeout、GPU 掉卡、网络拥塞等),针对训练任务进行软硬件层面的性能调优。4.底层环境维护: 维护底层驱动(CUDA, cuDNN)、NCCL 通信库及异构硬件的监控体系(Prometheus/Grafana),实现对 GPU、RDMA 网络和存储系统的全链路监控。5.框架支持与对接: 支持主流深度学习框架(PyTorch, TensorFlow, Megatron-LM 等)在集群上的高效运行,优化 Dataloader 和分布式训练启动流程。 职位要求 1. 基础架构与容器技术:精通
高级 SRE 工程师 (AI-INF-基础设施) Beijing、Shanghai Experienced Full-time Responsibilities 岗位职责1、多云架构管理与业务落地:负责公司在 AWS、阿里云等主流公有云上的基础设施规划、建设与日常运维;能够独立对接业务团队,完成复杂业务系统的架构设计、资源规划、部署上线及全生命周期管理。2、K8s 集群稳定性保障:负责公司海量/大规模Kubernetes集群的构建、稳定性优化、容量规划与调度策略调优;负责服务容器化改造及网络、存储等云原生组件的疑难问题排查。3、AI 算力基础设施运维:保障大模型训练和推理任务的稳定运行,熟悉异构算力(如 NVIDIA GPU)服务器的驱动、网络(InfiniBand/RoCE)及监控排障,优化GPU资源调度与利用率。4、CI/CD 与自动化流水线:设计并优化持续集成与持续交付(CI/CD)流水线(如 GitHub Actions, GitLab CI, ArgoCD),推动基础设施即代码(IaC,如Terraform)的落地,提升研发交付效率。5、可观测性系统建设:负责构建和优化全链路监控与告警体系,深入应用 Prometheus、Grafana、Alertmanager等开源工具,制定核心业务的SLI/SLO/SLA,建立高效的故障应急响应流程。6、运维平台自研开发:深入研发团队痛点,能够使用Python或Go语言独立设计并开发运维自动化平台、底座工具或 AI-Agent 智能巡检系统,用工程化手段消除组织内的“脏活累活”(Toil)。7、应急响应与 On-Call:参与生产环境的On-Call值班,对线上突发事件进行快速响应、定位、止血与复盘,沉淀故障知识库。 Qualifications 任职要求1、教育背景与经验:计算机或相关专业本科及以上学历,5年以上SRE、DevOps或运维开发经验(有AI算力集群或大规模 K8s 运维经验者优先)。2、公有云专长:熟练掌握AWS、阿里云等至少两家主流公有云厂商的架构体系,熟悉其 IAM、VPC、EKS/ACK、RDS等核心服务及跨云互联方案。3、云原生深度掌握:深入理解 Kubernetes 架构与底层原理,熟练掌握常用组件(Ingress, CoreDNS, Flannel/Calico等),具备强大的Pod/Node级别排错、性能调优和网络抓包能力。4、AI / 算力经验(硬性加分项):熟悉大模型分布式训练(如 Megatron-LM, DeepSpeed)或模型推理(如
DBA工程师 Beijing Full-time Internet / Electronics / Games Responsibilities - 负责公司核心 MySQL 集群的部署、监控、备份、扩容、高可用架构设计与日常运维;- 快速定位并解决线上 MySQL 性能瓶颈、慢查询、锁冲突、主从延迟、复制异常等复杂问题;- 深度优化 SQL 与索引,参与数据库设计评审,推动开发写出“不炸库”的 SQL;- 运维 Redis 集群(主从、哨兵、Cluster),保障缓存高可用与数据一致性;- 熟悉 Kafka / RabbitMQ 等消息中间件,能排查消息积压、消费异常、集群故障等运维问题;- 编写自动化脚本(Shell/Python/Go),提升数据库部署、巡检、故障自愈效率;- 参与数据库容量规划、灾备演练、压测方案设计,保障业务 7x24 稳定运行;- 对线上突发数据库故障能快速响应、冷静处理、复盘改进,形成知识沉淀;- 保持对数据库新技术的好奇心,主动研究源码、内核机制、性能调优技巧,乐于分享。 我们希望你:- 不满足于“重启解决”
云原生开发工程师 Beijing Full-time R&D - Back-end development Responsibilities 作为云原生CI/CD方向高级工程师/专家,您将深度参与公司级CI/CD平台的设计、构建、优化和推广。您需要运用您在CI/CD领域的多年经验和对云原生技术的深刻理解,结合平台工程的理念,打造自动化、智能化、自助化的研发交付流水线和开发者平台,赋能业务快速迭代和创新。主要职责:1. CI/CD平台建设与优化: - 负责设计、开发、部署和维护公司级CI/CD平台及相关工具链(如Jenkins, GitLab CI, Argo CD, Tekton, Spinnaker等)。 - 持续优化CI/CD流程,提升构建、测试、部署的自动化水平、速度和稳定性。 - 集成代码质量扫描、安全扫描、自动化测试等工具,确保交付质量。2. 云原生技术实践与推广: - 将云原生理念(如微服务、容器化、不可变基础设施、声明式API)融入CI/CD流程和平台设计。 - 深入研究和应用Kubernetes、Docker、Service Mesh、Serverless等云原生技术,提升资源利用率和系统弹性。 - 推动云原生最佳实践在研发团队中的落地。3. 平台工程理念落地: - 基于平台工程理念,设计和构建内部开发者平台(IDP),提供标准化的开发、测试、部署环境和工具。 - 为开发者提供自助服务能力,降低认知负荷,提升开发者体验(Developer Experience)。
运维工程师(云原生与数据库方向) 北京 全职 本科及以上 职位描述 1. 云平台管理:负责阿里云日常运维与架构优化,深度使用 ACK、CEN、ECI、ACR、ECS、VPC、SLB、OSS 等产品;构建操作审计与合规追踪体系。2. 容器化运维:管理 ACK 集群生命周期,掌握核心组件原理;编写高质量 Dockerfile 及 K8s YAML/Helm Charts;负责容器资源调优、启动加速及底层问题排查。3. 数据库与缓存:维护 TiDB 集群的扩容、备份及 SQL 调优,理解 TiKV 机制;维护 Redis 高可用架构,处理性能瓶颈与持久化策略。4. CI/CD 与 GitLab:维护自托管 GitLab 及 Runner,设计并优化多阶段 CI/CD 流水线,管理代码库权限与分支策略。5. 系统与网络排查:精通 Linux
Job Description Have clear and solid relationships with software development departments. Plan and document work and projects. Build and continuously optimize CI/CD process and streamline automation effort for server provisioning and applications deployment. Build a resilient
【集团】资深运维工程师(GOC) 上海 全职 职位描述 一、岗位概述作为企业IT系统应急保障核心技术专家,负责7×24小时、Oncall团队技术赋能与应急体系优化,持续推动运维工作,支撑业务连续性与系统稳定性目标达成;二、核心职责。1、设计并迭代Oncall应急响应流程、故障分级标准与复盘机制,主导监控体系(Prometheus/Grafana等)深度优化,构建覆盖业务全链路的智能告警与预警模型;2、负责故障案例复盘分享、实战演练组织,提升团队整体故障处置能力与技术水平;3、推动运维自动化工具(Shell/Python/Ansible)与自愈能力落地,编写核心系统应急处置预案(DRP)并定期演练,沉淀《重大故障处置手册》与技术知识库;4、与开发、架构、业务、安全团队建立常态化沟通机制,提前识别系统潜在风险(如架构瓶颈、容量不足等),推动风险整改与性能优化,参与核心系统架构评审; 职位要求 三、任职要求1、本科及以上学历,计算机、软件工程等相关专业,,有互联网、电商、物流等行业背景者优先;2、精通Linux/Unix系统内核级运维,深入掌握网络协议(TCP/IP/HTTP/HTTPS)、数据库(MySQL/Redis/MongoDB)、中间件(Nginx/Kafka/RabbitMQ)原理与调优,具备分布式系统问题排查能力;3、熟练掌握容器化(Docker/Kubernetes)、云平台(AWS/Azure/阿里云/腾讯云)运维技术,能独立设计云原生环境下的应急保障方案;4、具备(如大规模服务雪崩、数据丢失、网络攻击等),能在高压环境下快速决策,主导跨团队协作攻坚;5、精通监控告警工具(Prometheus/Grafana/Zabbix/ELK),具备日志分析、指标建模能力,能编写自动化脚本(Shell/Python)实现故障自愈或效率提升;6、具备优秀的技术视野与问题拆解能力,良好的沟通协调与团队管理意识,能接受轮班/夜班及节假日值班,对系统稳定性有极致追求。 投递...