更新于 12月30日

数据采集工程师

7千-9千
  • 北京丰台区
  • 3-5年
  • 大专
  • 全职
  • 招1人

职位描述

数据爬虫分布式爬虫数据抽取PythonPyppeteerPySpiderrequestsHadoopFlask
岗位职责:
1.熟练使用Python高效、可靠的开发网络爬虫程序,在不同数据源抓取信息。
2.使用相关的库和工具,如Beautiful Soup、Scrapy等,解析和处理网页内容,从HTML结构中提取所需数据。
3.对抓取数据进行清洗、转换和整理,确保数据质量。
4.理解网站的反爬虫机制,开发应对策略,确保持续稳定地抓取数据。
5.实现自动化的爬取任务调度,定时触发爬虫程序,确保数据的及时更新和同步。
6.领导安排的其他工作。
任职资格:
1. 熟练应用python、Js,熟悉前端开发的相关领域知识,熟悉XPath、正则表达式。熟悉MySql/MongoDB/Redis/ES,对数据库有一定的了解。
2.熟悉相关的库和框架,如Requests、Beautiful Soup、Scrapy等,用于网络请求、网页解析和爬虫开发。
3.理解HTTP、HTTPS等网络协议,了解Cookie、Session、User-Agent等HTTP头的作用。
4.了解常见的反爬虫机制,能够应对IP封禁、验证码、User-Agent检测等问题。
5.熟悉服务器,能够在Linux环境下进行开发和部署,熟悉基本的命令行操作。
6.具有相关爬虫经验优先,本科及以上学历,懂php开发者优先。

工作地点

汉威国际广场1区东塔东二塔14-16

职位发布者

蔺茹/人事经理

刚刚活跃
立即沟通
公司Logo中科伊诺(北京)国际医学研究院有限公司
中科伊诺(北京)国际医学研究院是中科建兰旗下的中国临床医学研究智库(简称“中科伊诺”),以中国科学院生物物理研究所医学免疫诊断研究中心为支撑,围绕科学研究基础需求布局科研合作、国际出版、知识产权、国际人才交流与培养为主的科研促进平台,致力于打造科学研究与技术创新同步发展并相结合的创新性发展体系,为来自全全球的科研机构、医院、企业提供各类个性化科研服务和全链式整体解决方案,促进生命科学领域的国际化合作水平和技术创新。品牌优势:1、权威科研机构:中科伊诺源自中国科学院生物物理研究所的创新科技成果、由中国科学院生物物理研究所医学免疫诊断研究中心为支撑,联合国内外多家知名科研机构专家资源共同成立。2、完善的研发技术平台:围绕科学研究基础需求,布局科研合作、国际出版、知识产权、国际人才交流与培养为主的科研促进平台,加速全球前沿科技研究成果转移转化,建立科研协作运营机制。3、优质服务项目:中科伊诺拥有丰富的科研资源,整合医院、科研院所、国际科研团队,通过国际科研联合研究、创新成果转化与研究、国际人才交流与培养、临床研究基地建设为全球科研机构、医院、企业提供个性化科研服务和全链式整体解决方案。4、著名专家团队智库:中科伊诺汇集了来自伊朗、巴拿马、马来西亚、美国、荷兰等全球多国家具有丰富研究经验的科学团队以及来自中国科研机构、学院及大学的科研专家形成中科伊诺强大的专家智囊团。5、强大学术及专业支持:中科伊诺依托于中国科学院生物物理研究所免疫诊断研究中心的学术力量,有新加坡万仕WHIOCE出版社、伊诺科学出版社、澳大利亚百图科学出版社三大出版社为国际出版保驾护航;并有北京智客联合知识产权事务所提供知产专业支持,形成强有力的学术及专业支持。
公司主页