职业经历
三年python经验,静态,动态网页爬取,数据分析,常用机器学习算法及图像处理算法的使用,工作认真,有责任感。
工作经历
爬虫工程师
·
北京智物筑科技有限公司
2020年11月 — 2022年12月
技术,数据,爬虫工程师
负责爬虫系统的核心技术研究、架构设计、系统规划;负责爬虫核心算法的策略优化,提升网页抓取的效率和质量;负责设计和开发分布式的网络爬虫应用,进行互联网相关信息的抓取和分析;负责网络爬虫或数据采集软件的优化改进以及采集规则编写,数据清理。
教育经历
中国石油大学
土木工程
2010年09月 — 2014年06月
项目经历
瓜子二手车
2022年08月 — 2022年09月
1、瓜子二手车有反爬,需携带cookie进行访问 2、requests底层没有封装url去重的方法,手动实现利用redis集合构造url去重(注:如果公司没有redis,可以利用python集合set,保存请求的url,再读取set中的内容写入本地文件,后面每次运行程序的时候,再将本地文件中的url读取到set集合中,可以实现简易的url去重) 3、选择md5加密,尽可能少的占用redis内存 4、请求中加延时,考虑网站能否打开和打开时间问题,一般需要加异常判断、超时、retry等减少报错 5、增量式爬虫,将数据保存到数据库,对重复的字段对应的数据更新操作 6、构建USER-AGENT池,使用随机代理,随机IP采用阿布云动态IP 7、使用logging模块编写监控程序进行爬虫监控,并根据日期定向输出日志到log文件
TA 的技能服务
该人才共 2 项技能服务,可在 技能服务 中搜索「江山」查看。