
大模型开发实习生岗位职责:
基于PyTorch框架与HuggingFace生态,参与大语言模型(LLaMA4、Qwen3、DeepSeek-R1等)及多模态模型(Qwen-VL、mLlama)的适配、优化与部署
探索图像/视频生成模型(Stable Diffusion、Flux)在自研芯片上的高效推理方案
实现模型算子融合、量化(INT8/FP16)及精度验证,确保模型在自研硬件上的性能与精度达标
完成开源模型与自研芯片的兼容性验证及性能对比
岗位要求:
熟悉主流大模型架构(Transformer/MoE)及计算原理(注意力机制、位置编码、扩散过程)
熟练使用PyTorch、Transformers、Diffusers库,具备HuggingFace模型部署、微调实战经验
掌握模型优化技术:算子融合、ONNX静态图导出等
理解多模态模型(视觉-语言对齐)或生成式模型(Diffusion/自回归)的工作机制
精通Python,具备CUDA/OpenCL等异构计算基础者优先
加分项:
参与过LLM/Multimodal开源项目
熟悉ONNX/TensorRT等模型编译工具链
了解芯片架构(如NPU/GPU)
每周保证4天以上,实习周期3个月及以上
我们提供:
深入自研AI芯片与大模型协同优化的前沿战场
导师1v1指导,接触业界最新大模型技术
表现优异者,可签订正式合同。
大模型推理框架实习生岗位职责:
基于 vLLM/SGLang/LMDeploy 等开源推理框架,进行自研推理引擎的功能对比测试
基于前沿推理加速技术,在自研推理框架上做功能验证:
动态批处理优化(Continuous Batching)
PageAttention 显存管理
推测解码(Speculative Decoding)
块预填充(Chunk Prefill)
Prefix Caching 优化
对 Qwen3 Moe/DeepSeek-R1/Qwen-VL 等模型进行算子级精度验证,确保自研框架输出精度达标
编写技术文档,输出自研推理框架在自研硬件上的精度Benchmark报告
岗位要求:
深入理解至少1个开源推理框架(vLLM/LMDeploy/SGLang 核心机制)
熟悉大模型推理全流程:Tokenization→Prefill→Decoding→Sampling
掌握 PageAttention/KV Cache 等显存优化原理,了解 FlashAttention 加速技术
具备PyTorch CUDA扩展开发能力,能调试模型计算图
加分项:
参与过vLLM、SGLang等实际开发部署项目
了解芯片架构(如NPU/GPU)
每周保证4天以上,实习周期3个月及以上
我们提供:
深入自研AI芯片与大模型协同优化的前沿战场
导师1v1指导,接触业界最新大模型推理优化技术
表现优异者,可签订正式合同。
联系人:WX:LaCie_S
邮箱:lily0917song@126.com
团队介绍:欢迎加入谦合益邦AI计算框架团队。团队目标是为公司自研AI芯片打造分布式AI计算框架,主要负责分布式AI计算框架的开发和建设工作,构建大规模集群算力管理和监控能力、集群故障发现和恢复能力、集群任务分发和负载管理能力;负责完成AI模型在云计算场景下的推理和训练部署,研究AI模型的分布式优化技术,提升AI模型的计算效率;负责完成分布式计算框架对主流AI框架(Pytorch、vLLM等)的适配和调优工作,提供业界领先的AI模型推理、训练能力;负责跟踪、调研、评估和实现业界最新的分布式优化技术,持续优化自研AI芯片在云计算场景下的AI推理和训练性能;负责为分布式AI计算框架用户提供技术支持与维护保障。
--
修改:zhuikonger FROM 221.219.212.*
FROM 221.219.212.*