工作职责:
1)参与核心爬取系统架构设计、数据存储设计,构建高可用、可扩展的网络信息搜集服务平台
2)参与设计爬取调度策略和算法,提升网页抓取的效率和质量
3)参与核心爬取算法、数据聚类、数据重组、数据存储的设计与开发
职位要求:
1)计算机或者相关专业,本科及以上学历(在读研究生优先)
2)熟悉JAVA网络编程,熟悉HTTP传输协议,能模拟浏览器操作爬虫
3) 熟悉网页抓取原理及技术,正则表达式,从结构化的和非结构化的数据中获取信息
4) 扎实的数据结构与算法基础,至少阅读和分析过一个成熟开源项目的代码
5)熟悉Linux操作系统,熟练使用Linux相关命令
6)熟悉Nutch、Scrapy、Lucene、Solr等开源工具优先考虑
7)具有良好的人际沟通能力,团队协作能力
简历发送至 xieyeshan[at]ucredit.com
请将[at]替换成@
--
修改:xieys FROM 115.182.210.*
FROM 115.182.210.*