诚招爬虫工程师,base北京,JD如下
职位描述
1. 结合大模型应用需求,设计和优化高效、智能化的爬虫系统,进行多源数据采集。
2. 逆向分析目标网站及接口,绕过反爬机制,如验证码、动态加载、JS加密、IP封锁等,确保数据采集稳定性。
3. 针对大模型数据预处理要求,优化爬虫数据格式和质量,提升爬取的数据对训练和推理的适用性。
4. 结合大模型场景,自动化处理反爬机制变化,并提供灵活的技术解决方案。
5. 与大模型研发团队紧密合作,确保爬虫采集的数据能够有效支持模型训练与应用。
6. 跟进最新的反爬技术与反制策略,持续优化爬虫架构和性能。
职位要求
1. 本科及以上学历,计算机科学、人工智能、网络安全等相关专业。
2. 3年以上爬虫开发及逆向工程经验,有大模型或AI相关领域的爬虫应用经验者优先。
3. 熟悉并能绕过常见的反爬技术(如动态网页加载、验证码、JS加密等)。
4. 精通Python或其他编程语言,熟悉爬虫框架(如Scrapy、Selenium、Playwright等)。
5. 熟悉大模型训练和数据处理流程,能够根据模型需求调整数据抓取策略。
6. 熟悉常见网络协议(HTTP/HTTPS)和接口抓取,能够对复杂数据进行高效提取和清洗。
7. 具备良好的分析能力和解决问题的能力,能够应对复杂的反爬挑战。
加分项:
1. 有大规模数据抓取与处理经验,尤其是针对大模型训练数据的采集和优化。
2. 熟悉数据加密与解密技术,能够破解复杂的加密算法。
3. 具备AI或大模型领域的技术背景,能够理解和支持模型数据需求。
我们提供:
1. 具有竞争力的薪资待遇与丰富的福利。
2. 与顶尖AI团队合作的机会,参与大模型应用开发与优化。
3. 灵活的工作环境与技术创新的空间。
4. 完善的职业发展和培训机会,助力技能提升和成长。
投递邮箱:sundawei3@xiaomi.com
投递格式:水木社区+姓名+应聘岗位
可添加微信咨询职位详情:1035892905
--
FROM 1.202.162.*