25年底、26年毕业的同学们看过来,如果你对大模型算法、Java云原生开发,请将简历发至kuailedeyv@126.com
【高性能计算岗位】
1、针对大模型推理、训练等场景,优化和扩展vLLM、SGLang等框架的核心模块,提升计算效率与资源利用率;
2、能够使用Profiler手段,分析训练瓶颈,使用分布式策略调优、算子优化等手段来提升训练性能;
3、提升分布式推理下模型并行(ModelParalleism)、数据并行(Data Paralelism)等场景下的性能;
4、支撑异构AI芯片上的调度框架设计与优化,提升系统的实时性、吞吐率、算力利用率等指标;
5、针对不同端侧设备的硬件特性(CPU、GPU、NPU 等)进行镜像和训推框架适配,针对特定硬件架构和推理引擎进行性能优化;
6、深入分析GPU硬件架构特性(如Tensor Core、显存带宽、通信机制等),设计并实现高性能算子与算法;
7、探索前沿技术方向(如混合专家模型MoE、强化学习算法等),推动AI工程化落地的效率提升。
【算法岗位】
数据处理:数据格式化、文本序列处理、文本进行分词(Tokenization)、数据预处理:数据增强、分割;
Transformer 架构:结合自注意力机制、多头注意力(Multi-Head Attention)特点,另外并行计算的优化(DP、TP)对推理/训练框架做优化
分布式训练/推理:内存优化、多节点间的GPU通信优化、混合精度配置;结合deepspeed/vllm等框架和不同GPU,软硬一体化提升能力;模型SFT、RL资源调度的算法,提升资源利用率。
【开发岗位】
1、专业要求:计算机基础知识扎实,熟悉计算机操作系统、计算机网络、数据结构、数据库、常用算法等。熟练掌握至少一门编程语言,如Java、Python。熟悉Linux环境开发、测试、调优、脚本。了解Docker、kubernetes等容器技术。
2、Java基础:扎实的Java编程能力,熟悉io、多线程、集合等基础框架。
主流框架与技术:熟练使用Spring、MVC等框架,熟悉Linux常用命令,MySQL等数据库。
设计模式:掌握常用设计模式。
3、有大型系统研发经验优先(存储、中间件、数据库、虚拟化、大数据等)。
4、有OpenStack、Vmware、虚拟专有网络等云计算相关研发经验优先。
一、关于我们
我们是【阿里云智能-政企事业部-智算开发管理平台团队】一支充满激情与创造力的团队,致力于打造领先的全栈AI智算服务平台。在这里,你将与顶尖的技术人才并肩作战,共同探索前沿的AI技术。
团队工作职责:
● 一站式AI工程化: 从数据集管理、模型开发、训练到推理,我们提供覆盖AI工程化全流程的平台能力,尤其专注于大模型的开发、管理、调优和应用。
● 强大的算力引擎: 平台支持多种异构算力的管理和调度,提供交互式、可视化等多种模型训练方式,并支持单机多卡、多机多卡并行训练,以及自动弹缩、断点续训等容错恢复能力。
● 极致的性能优化: 我们在数据处理、并行计算、数据传输内存优化、GPU通信优化、资源利用率优化等方面,结合不同GPU机器硬件进行软硬件深度优化,显著提升不同模型框架在不同算力上的训练和推理性能。
● 前沿技术应用:我们基于云原生,紧跟AI领域的前沿科技,例如,针对火爆的DeepSeek,我们提供了蒸馏版、满血版和动态量化版等多个推理版本,满足不同场景需求。
--
修改:wanlxp FROM 59.82.59.*
FROM 59.82.59.*