岗位职责
1、负责网络爬虫系统平台的架构设计与开发;
2、研究给到既定网站的爬虫策略和防屏蔽规则,解决封账号、封IP、验证码、混淆加密,算法还原,实现JS逆向,加密参数的破解,以及实现js模拟登录获取cookie,构造cookie池,能够使用协议破解完成资源的抓取和存储。
岗位要求:
1、熟练使用正则表达式、css path、xpath等,能够从结构化的和非结构化的数据中获取信息;
2、熟练使用MySQL数据库,掌握redis、mongodb、hive等常用nosql技术并具有实战经验;
3、熟悉各种抓取技术,包括代理、PhantomJS/selenium、验证码处理;
4、熟悉整个爬虫的设计及实现流程,有从事网络爬虫、网页信息抽取开发经验,5、熟悉反爬虫技术,有分布式爬虫架构经验;
5、具有数据挖掘、自然语言处理、信息检索、机器学习背景者优先;
6、快速学习能力,工作积极主动,为人热情,热衷挑战困难的工作,拥有良好的团队协助和沟通能力;
7、有大量数据爬取以及高难度反爬经验优先。