职位关键词
实习6个月
投递时间:2026年01月22日-2026年04月22日
职位描述:
岗位职责:
1、参与设计和开发分布式网络爬虫系统,进行多平台信息的抓取和分析工作;2、参与各类新闻网站数据抓取、清洗、消重等工作,提升平台的抓取效率;3、参与爬虫核心算法和策略优化,熟悉采集系统的调度策略;4、实时监控爬虫的进度和警报反馈。
岗位要求:
1、熟悉Linux系统,熟练掌握Python语言;2、熟练掌握scrapy框架,了解多线程、多进程、网络通信编程相关知识,有分布式爬虫架构,数据挖掘经验;3、掌握网页抓取原理及技术,了解基于Cookie的登录原理;4、熟悉各种反爬机制,掌握Selenium,APP破解技术;5、做过数据处理、ETL等相关工作优先;6、对大数据相关技术感兴趣;7、有过爬虫系统开发经验。