更新于 3月19日

Python爬虫工程师

1.5-2.5万
  • 深圳福田区
  • 3-5年
  • 本科
  • 全职
  • 招1人

职位描述

Python数据挖掘爬虫开发Hive分布式爬虫数据采集PhantomJSMySQL
岗位职责
1、负责网络爬虫系统平台的架构设计与开发;
2、研究给到既定网站的爬虫策略和防屏蔽规则,解决封账号、封IP、验证码、混淆加密,算法还原,实现JS逆向,加密参数的破解,以及实现js模拟登录获取cookie,构造cookie池,能够使用协议破解完成资源的抓取和存储。

岗位要求:
1、熟练使用正则表达式、css path、xpath等,能够从结构化的和非结构化的数据中获取信息;
2、熟练使用MySQL数据库,掌握redis、mongodb、hive等常用nosql技术并具有实战经验;
3、熟悉各种抓取技术,包括代理、PhantomJS/selenium、验证码处理;
4、熟悉整个爬虫的设计及实现流程,有从事网络爬虫、网页信息抽取开发经验,5、熟悉反爬虫技术,有分布式爬虫架构经验;
5、具有数据挖掘、自然语言处理、信息检索、机器学习背景者优先;
6、快速学习能力,工作积极主动,为人热情,热衷挑战困难的工作,拥有良好的团队协助和沟通能力;
7、有大量数据爬取以及高难度反爬经验优先。

工作地点

华强电子世界(深圳一店)2号楼07号门6层
以担保或任何理由索要财物,扣押证照,均涉嫌违法。一经发现,
我要招人

职位发布者

林小姐/HR

刚刚活跃
立即沟通
深圳华强
深圳华强实业股份有限公司创建于1979年,是一家以高科技产业为主导的大型投资控股企业集团。(股票代码:000062)网址:http://www.szhq000062.com/公司秉承“诚信、创新、和谐、共赢”的企业精神,经过三十多年的发展,形成了以文化科技产业、电子信息高端服务业、高科技电子制造业等为主导的多元化产业格局。文化科技产业主要从事主题公园、影视娱乐、媒体网络等文化科技产品的创意、研究、生产与销售。电子信息高端服务业包括电子专业市场连锁经营、电子商务平台、物流供应链等多样化业务。商业地产业以商业地产开发运行为核心,综合发展商业运营、酒店经营、物业管理等相关业务。高科技电子制造业主要从事精密电子元器件、数码产品的设计生产。目前,华强集团拥有70多家投资企业,拥有多家国家级高新技术企业及国家级技术开发中心。公司连续多年被评为“中国500强企业”、“中国企业集团竞争力500强企业”、“中国制造业500强企业”、“中国电子信息100强企业”、“全国高出口创汇企业”、“广东省50强企业”、“广东省大型企业竞争力50强企业”、“广东省质量效益型企业”、“深圳100强企业”;多次被评为“广东省双文明建设先进集体”、“重信誉、守合同单位”和广东省、深圳市“纳税大户”、“文明单位”。
公司主页

上智联,你更值3.74亿+ 职场人的选择 780万+ 高新职位精准推荐