【python + scrapy】 网络爬虫兼职/实习生招聘
数据堂(www.datatang.com)成立于2010年,是一家专注于大数据的互联网公司,公司拥有核心的大数据挖掘技术。2014年初完成千万美元级别的融资,且自身业务已经产生规模可观的利润。目前公司已经于2014年9月份向新三板提交上市申请,预计将在11月份在新三板挂牌上市。良好的平台期望专业的您加入,共同创造大数据事业,并一起分享成果。
公司地处海淀五道口宇宙中心,比邻清华大学东门,人才和智慧在这里碰撞。
大量的数据积累工作需要强大的网络爬取能力和智慧投入,期待你的加入。
有意者投递简历至:hr@datatang.com。
职位描述:
1、参与核心爬虫系统架构设计、数据库设计;
2、负责网络爬虫的核心技术研究和开发,参与各种核心搜索策略、算法、数据聚类、重组的设计与开发;
3、设计策略和算法,提升网页抓取的效率和质量;
4、分析爬虫系统的技术缺陷,对策略架构做出合理地调整和改进。
岗位要求:
1、python + scrapy 开发经验,熟悉常用的信息抓取策略和数据重组算法;
2、精通信息抓取和整合技术,从结构化的和非结构化的数据中获取信息,掌握正则表达式;
3、熟悉大规模网页爬取,深度网页爬取,熟悉Nutch、Lucene、Heritrix、Solr、Sphinx等工具优先考虑;
4、了解Mongodb、HBase、HIVE、mysql等数据库,并至少精通一种关系型数据库的开发;
5、熟悉网络爬虫相关技术,如有分词、spider、分类、聚类、索引、检索等相关开发经验者优先。
--
FROM 119.255.44.*