更新于 12月23日

数据采集工程师

1万-1.6万
  • 北京海淀区
  • 5-10年
  • 大专
  • 全职
  • 招1人

职位描述

数据爬虫分布式爬虫反爬虫数据抽取数据埋点
工作职责:
1.配置火车头采集任务,从互联网采集数据并入库,涉及数据种类包含但不限于新闻/论坛/博客等。
2.维护火车头采集脚本,保证站点架构变动后数据的正常采集。
3.搜集站点以及评测站点的可采集性,依据客户及产品需求。
4.设计采集源数据库(MySQL/Oracle),对数据清洗关联及简单分析,包含建表/存储过程/触发器/事件等。
5.日常监测数据采集相应服务的正常运行。
6.编码采集网站内容。

任职要求:
1.熟练使用火车头采集器。
2.熟悉html标签。
3.熟悉javascript相关内容。
4.熟练使用json数据解析以及提取。
5.熟练使用xpath,正则表达式等提取内容。
6.熟悉http协议。
7.熟练使用mysql或者oracle数据库。
8.至少会java或者python其中一门语言。
9.了解数据采集原理以及代理等。

工作地点

龙岗路51号院

职位发布者

王女士/HR

立即沟通
公司Logo宸瑞股份
北京宸瑞科技股份有限公司创立于2009年,是一家聚焦于大数据应用、全球网络资源监测、开源信息分析、人机智能交互等核心技术,为军警政企行业提供技术+信息+服务的科技型研发企业。多年来,宸瑞股份围绕核心业务进行持续不断的研发创新,研发出多个自己的核心大数据产品,获得了国家高新技术企业、中关村高新技术企业、北京市专精特新技术企业等多个荣誉资质。在数据采集、建仓、建模、应用、后期综合信息能力供给等方面,获得70余项发明专利和创新著作权登记,先后取得软件能力成熟度集成模型三级证书CMMI-3、ISO9001等多个国家相关认证。
公司主页