一年一度的实习招聘启动啦，今年招收容器调度、AI Infra 相关的以下 2 个岗位，HC 目前充足，欢迎交流～

阿里云/ATH-AI Infra 工程师-容器方向

岗位职责

你将成为大模型技术落地的“算力内核设计者”。你将深入 Kubernetes 生态，参与构建支撑超大规模 AI 集群的容器化基础设施，通过对调度、存储、网络等核心组件的深度定制与优化，打破大模型训练与推理的工程瓶颈。你的代码将直接优化 Agent 的冷启动速度，提升 GPU 集群的吞吐量与资源利用率，为 AI 时代的算力底座注入极致性能。

具体的职责包括以下相关方向的一项或多项：

AI 容器调度与编排优化：

深度优化 Kubernetes 调度器，实现面向 GPU 拓扑感知的算力分配，解决大规模分布式训练任务的资源碎裂问题。
设计并实现面向 AI Agent 的弹性调度策略，通过多级缓存、预加载等手段，实现分钟级到秒级的 Agent 快速拉起与自动伸缩。

AI 高性能存储与网络底座：

针对 AI 大规模 checkpoint 与数据读取场景，优化容器存储挂载性能，通过存储卸载与并行化技术，解决分布式训练中的 I/O 阻塞问题。
优化容器网络性能（如 RDMA/RoCE 深度集成），通过内核态路径优化，降低推理请求的网络传输延迟。

AI 工程平台架构设计与效率提升：

负责大型 AI 项目工程平台的架构设计与规划，通过构建标准化的云原生技术底座，确保复杂计算场景下的系统高可用性与可扩展性。
针对大规模 AI 任务执行过程中的痛点进行架构级优化，通过降低系统开销与资源冗余，显著提升系统运行效率。
定义面向 AI 场景的资源管控标准与作业管理规范，解决大规模并行任务下的资源争抢与隔离难题，确保高负载生产环境的稳定性。

AI 基础设施极致加速：

研发面向 AI 推理与 Agent 运行的轻量化容器运行时，实现计算资源的极致弹性与高密部署。
构建 AI 场景下的监控与调优平台，深度剖析容器化环境下的性能瓶颈，实现从底层硬件到应用层的全链路性能优化。
负责容器镜像基础服务设计与研发，针对 AI 业务特征及需求，深度优化产品架构及技术实现，为 AI 业务大规模使用等场景提供高效极致的产品能力。
设计研发基于 AI 的智能应用弹性及资源弹性产品能力，推动对 AI 应用场景的端到端弹性伸缩优化。
设计研发自主智能运维 Agent ，通过自动故障感知根因定位与自愈决策闭环，提升运维效率。

岗位要求

毕业起止时间要求

2026-11-01 - 2027-10-31

基础条件：

计算机、软件工程等相关专业优先。
热衷于数据结构和算法，在 ACM/ICPC 等竞赛中成绩优异者优先；有 K8s 或容器相关开源社区贡献（ Kubernetes/KubeFlow/Volcano/OpenKruise 等）或高性能存储/网络开发经验者加分。

专业能力：

系统工程与编程能力：具备扎实的 Linux 系统底层基础（熟悉网络栈、文件系统、进程管理等），熟练掌握 Go 语言（核心）、Java 、Python 或 C++，具备复杂的分布式系统调试能力。
容器与编排生态：对 Kubernetes 架构有深入理解，熟悉容器 Runtime （ Docker/containerd/CRI ）原理，有 K8s 自定义 Controller/Scheduler 开发经验者优先。
AI 系统领域专业知识：
- 理解 AI 推理/训练的资源特征（如显存、带宽、通信模式）。
- 熟悉容器化环境下 AI /Agent 任务的架构及部署链路，了解如何通过容器技术优化模型加载、Checkpoint 保存、Memory 管理等环节。
- 对大规模分布式工程架构有一定理解，关注系统的高可用性、可观测性及研发效能的提升。

能力特质：

极致的性能追求：乐于挑战“毫秒级”的延迟瓶颈，具备良好的性能分析工具（如 ebpf, perf, flamegraph 等）使用与系统调优能力。
工程化思维：具备良好的系统抽象与架构设计能力，能够将复杂的 AI 场景痛点转化为高可用、高可靠的系统工程方案。
跨域协同：具备良好的技术视野，能够与模型算法工程师高效沟通，理解算力对业务的支撑逻辑，从底层视角拆解并解决 AI 工程挑战。
极客精神：对 AI 大模型技术充满热情，渴望在分布式系统与大规模算力平台的交汇处实现技术突破。

工作地点

北京/杭州

构建 AI Agent 下一代调度与计算引擎-阿里星

岗位职责

构建既能实现极致性能（百毫秒唤醒）又能做到极致成本效益（资源利用率提升 XX%）的 Agent 基础设施底座；
主导设计和实现融合了 Agent Sandbox 、容器与虚拟化的统一调度系统。

岗位要求

毕业起止时间要求：2026-11-01 - 2027-10-31
计算机科学或相关专业背景，具备深厚的操作系统、分布式系统理论基础；
精通 Go/C++/Rust 中至少一种，具备大型、复杂底层系统或分布式调度系统的设计与开发经验；
熟悉 Kubernetes 架构，特别是其调度器（ kube-scheduler ）和资源管理机制；有二次开发或重度使用经验者优先；
深入理解 Linux 内核机制（如 cgroups 、namespaces 、内存管理、内核调度）或虚拟化技术（ KVM, QEMU ）；
对解决复杂系统中的性能瓶颈与稳定性问题充满热情，并具备体系化的方法论；
有强烈技术热情和好奇心，自驱力和学习力强；具备良好的分析与解决问题的能力、沟通以及团队合作能力；喜欢挑战性的技术研发工作，善于攻坚克难，有创新热情，积极乐观，坚韧抗压，结果导向，能够持续推动问题的解决和突破。

加分项：

有分布式系统调度算法（如 Borg 、Omega 、Mesos ）的设计或研究经验；
有 eBPF 、CRIU 、gVisor 、Kata Containers 等云原生前沿技术的实践经验；
有 Hypervisor （ KVM/Xen ）开发或性能优化经验；
在 Linux Kernel 、Kubernetes 、Docker 等顶级开源社区有活跃贡献；
掌握 AI 基础知识，掌握基础提示词工程，会使用 Al 专业工具，集成 AI 到个人工作流；有 AI 相关开发工具应用研发经验者优先，持有阿里云 ACA/ACP/ACE 认证证书者优先。

工作地点：

北京/杭州

（ ps. 阿里星岗位和常规岗位实习统一招聘，根据面试评级调整，大家不要担心因为从常规岗位的内推而无法参与 A star 评级）

投递方式

发送简历到邮箱，并等待内推邮件确认：

mailto: rougang.hrg@alibaba-inc.com

或者扫描以下内推二维码：

https://uploadfiles.nowcoder.com/compress/mw1000/images/20260406/702387425_1775483579918/95299E308A1FB7120110DBF6EB2BA29F

有疑问也欢迎私信交流～

saintube

5 月 7 日

顶一下，阿里星岗位仍在热招中～

我们团队新开的通义 ATH 的暑期实习岗位也欢迎投递：

# 通义 ATH-AI Infra 工程师（实习）

## 基础信息

- 毕业起止时间要求：2026-11-01 - 2027-10-31
- 笔试方向：阿里巴巴集团 27 届 - 工程方向

## 职位描述

在这里，你将成为大模型技术落地的“幕后推手”。你将参与构建支撑千卡/万卡规模的 AI 计算基础设施，通过软硬件协同优化，解决大模型在训练、推理、调度全链路中的工程挑战。你的代码将直接决定大模型训练的效率、推理的响应速度以及集群资源的利用率，为 AI 时代的算力底座注入核心动力。

具体的职责包括以下相关方向的一项或多项：

1. 算力基建与分布式训练：
- 深入分布式训练架构，优化通信与底层算子性能，解决大规模集群通信瓶颈，提升模型训练的吞吐量与计算效率。参与研究新的训练框架和模式。
极致推理加速：
- 针对大规模推理场景，研发高性能推理引擎，通过 kernel 、框架、与算法结合的有损优化等手段，实现极致的低延迟与高并发。
2. 智能化资源调度与系统：
- 构建大规模 GPU 集群的统一调度与编排系统，实现算力资源的弹性分配与自动化调度，设计与优化面向 AI 计算场景的高性能通信、存储系统，保障海量任务的极致的效率。
3. 工程效率与平台化建设：
- 打造一体化的平台，覆盖大模型研发和迭代的全流程，降低模型迭代门槛，提升研发效能。

## 职位要求

1. 基础条件：
- 计算机、软件工程等相关专业优先。
- 热衷于数据结构和算法、在 ACM 大赛成绩优异者优先；有顶会论文/高影响项目/开源贡献者加分。
2. 专业能力：
- 系统工程与编程能力：具备良好的系统工程基础，熟悉 Linux 开发环境，掌握 Python 、Go 、Java 等至少一门编程语言，具备扎实的工程实现能力。
- 分布式系统：了解分布式系统基本原理（如一致性、容错、扩展性等）。
- AI 系统领域专业知识：对于以下领域中的一项或者多项具备专业能力
- 了解 AI 的基本原理与常见算法，理解模型训练任务的基本流程及其资源需求。
- 了解主流训练推理框架（如 PyTorch 、TensorFlow 、vLLM 、sglang ）的基本使用方式及训练流程。
- 了解异构计算或高性能计算体系，有 GPU 相关优化经验者优先。
3. 能力特质：
- 沟通能力：能与跨域岗位，如：算法、产品等，进行良好的沟通。
- 跨域视野：有较宽的技术视野与知识面，对算法研发流程、数据、GPU 调度、训练、推理等相关领域的技术逻辑都有涉猎。
- 系统思维：乐于挑战复杂系统的性能极限，具备良好的性能分析与调优能力，喜欢从底层视角拆解并解决问题。
- 极客精神：对 AI 大模型技术充满热情，具备快速学习新技术的能力，渴望在高性能计算领域实现技术突破。

阿里云/ATH-容器 AI Infra-2027 届暑期实习/阿里星招聘

阿里云/ATH-AI Infra 工程师-容器方向

岗位职责

岗位要求

构建 AI Agent 下一代调度与计算引擎-阿里星

岗位职责

岗位要求

投递方式