工作职责
1.计算机视觉、深度学习等算法在 CPU/GPU/DSP 上的高性能实现与调优;
2.引导算法团队设计性能/功耗兼顾的算法;
工作要求
1.熟悉 C++,熟练掌握常用数据结构与算法,良好的编程动手能力、逻辑思维和快速学习能力;
2.有以下一种或多种高性能计算、编译框架深入的研究和实践经验:
1)精通现代 ARM/x64 体系结构与ISA/微架构以及 SIMD 指令集。能够从指令流水线/存储器层次结构 等级别量化分析性能瓶颈,并做出极致的优化。熟悉 DS-5/VTune 等 profiler。熟悉 ARM 多核缓存一致性与高性能异构计算;
2)精通 Nvidia/AMD/Adreno/Mali/PowerVR 等现代 GPU 体系结构与微架构;精通 OpenCL/Metal;熟悉现代 GPU 驱动的行为;熟悉 SASS/GCN 等一个或多个 GPU ISA(或者有 GPU 逆向的经验)。能够从指令流水线/存储器层次结构/驱动调度 等级别量化分析性能瓶颈,并做出极致的优化。熟悉现代 GPU 渲染管线;
3)精通 Cadence/CEVA/Hexagon/Movidius 等 DSP 或 NPU 的体系结构与指令集,有 VLIW 指令集的优化经验,熟悉常用模拟器,能做到 cycle 级别的性能分析,熟悉 DMA/RPC 操作;
4)对常用计算/带宽密集型算子(如:GEMM/Conv/Resize)实现做过面向 延迟/吞吐/功耗 的极致优化,性能超过开源或商业高性能计算库(如:Paddle-Lite/MNN/SNPE/CoreML/ARM-Compute-Library/MKL/OpenVINO/tensorRT 等);
5) 有 AI 相关编译器(如:TVM/Halide/XLA)开发经验;熟悉现代编译器框架(如:LLVM/gcc)
3.熟悉常见深度学习算法和模型,熟悉主流机器学习平台框架(如 Caffe/TensorFlow/PyTorch),熟悉模型量化、压缩等技术;
4.良好的团队合作意识,优秀的沟通和学习能力。
简历投递:
rainkerdang@tencent.com
--
FROM 111.206.145.*