1、负责分布式网络爬虫系统平台的架构设计与开发(如抓取调度,多样化抓取,页面解析和结构化抽取,海量数据存储和读取等)、技术选型;
2、研究爬虫策略和防屏蔽规则,解决封账号、封IP、验证码、页面跳转等难点攻克,提升网页抓取的效率和质量;
3、利用主流的大数据相关技术,对抓取后的网页数据进行清洗、存储等;并持续优化平台,以便满足各种爬取业务需求;
4、把握网络爬虫核心技术研究方向,研究优化算法,提升爬虫系统的稳定性、可扩展性;
职位要求:
1、熟悉scrapy框架,分布式系统,python爬虫。
2、熟悉http协议,kafka,linux基本命令,金融基础知识。
3、熟悉javascript .熟悉css.xpath.正则提取,mysql增删改差,sql优化,js逆向,redis,mongodb。
4、精通爬虫和反爬技术,精通http底层协议;精通深度抓取、动态网页技术抓取、浏览器模拟抓取、APP抓取等技术;
5、有很强的学习能力和技术钻研能力,积极主动,思维灵活开放,有良好的沟通能力,善于跨团队合作。
职位福利:定期体检、员工旅游、节日福利、带薪年假、五险一金、弹性工作、定期团建