职位关键词
实习6个月在校/应届
投递时间:2026年06月03日-2026年09月01日
职位描述:
岗位职责:
1、参与设计和开发分布式网络爬虫系统,进行多平台信息的抓取和分析工作; 2、参与各类新闻网站数据抓取、清洗、消重等工作,提升平台的抓取效率; 3、参与爬虫核心算法和策略优化,熟悉采集系统的调度策略; 4、实时监控爬虫的进度和警报反馈。
岗位要求:
1、熟悉Linux系统,熟练掌握Python语言; 2、熟练掌握scrapy框架,了解多线程、多进程、网络通信编程相关知识,有分布式爬虫架构,数据挖掘经验; 3、掌握网页抓取原理及技术,了解基于Cookie的登录原理; 4、熟悉各种反爬机制,掌握Selenium,APP破解技术; 5、做过数据处理、ETL等相关工作优先; 6、对大数据相关技术感兴趣; 7、有过爬虫系统开发经验。