该职位已失效,看看其他机会吧

爬虫工程师

1.1-1.8万
  • 北京朝阳区
  • 国展
  • 5-10年
  • 大专
  • 全职
  • 招2人

职位描述

PythonJava数据采集分布式爬虫反爬虫云计算/大数据网络/信息安全
工作职责: 1.配置火车头采集任务,从互联网采集数据并入库,涉及数据种类包含但不限于新闻/论坛/博客等。 2.维护火车头采集脚本,保证站点架构变动后数据的正常采集。 3.搜集站点以及评测站点的可采集性,依据客户及产品需求。 4.设计采集源数据库(MySQL/Oracle),对数据清洗关联及简单分析,包含建表/存储过程/触发器/事件等。 5.日常监测数据采集相应服务的正常运行。 6.编码采集网站内容。
任职要求: 1.熟练使用火车头采集器。 2.熟悉html标签。 3.熟悉javascript相关内容。 4.熟练使用json数据解析以及提取。 5.熟练使用xpath,正则表达式等提取内容。 6.熟悉http协议。 7.熟练使用mysql或者oracle数据库。 8.至少会java或者python其中一门语言。 9.了解数据采集原理以及代理等。
查看全部

工作地点

北京朝阳区静安中心
以担保或任何理由索要财物,扣押证照,均涉嫌违法。一经发现,

职位发布者

王女士/HR

三日内活跃
立即沟通
宸瑞股份
北京宸瑞科技股份有限公司创立于2009年,是一家聚焦于大数据应用、全球网络资源监测、开源信息分析、人机智能交互等核心技术,为军警政企行业提供技术+信息+服务的科技型研发企业。多年来,宸瑞股份围绕核心业务进行持续不断的研发创新,研发出多个自己的核心大数据产品,获得了国家高新技术企业、中关村高新技术企业、北京市专精特新技术企业等多个荣誉资质。在数据采集、建仓、建模、应用、后期综合信息能力供给等方面,获得70余项发明专利和创新著作权登记,先后取得软件能力成熟度集成模型三级证书CMMI-3、ISO9001等多个国家相关认证。
公司主页