优化 | 结合关键词定向抓取BOSS直聘全国岗位信息
评论
收藏

优化 | 结合关键词定向抓取BOSS直聘全国岗位信息

经验分享
l
luol_
2025-09-10 16:58·浏览量:467
l
luol_
影刀中级开发者
发布于 2025-09-03 15:23更新于 2025-09-10 16:58467浏览

优化说明

获取的岗位数量非0的URL的占比越高,对比旧版写入效率提升就越明显,例如参数配置为 全国373个地级市/县/区(区域选择全选)、关键词为‘大数据’、其余参数均为‘不限’,那么

           URL数量 =  373 × 1(求职类型) × 1(薪资待遇) × 10(页码)= 3730

众所周知,大数据相关岗位的数量只有在较发达的城市才较可观,所以会有不少的URL获取的数据为0,但好在占比不是太极端,在这样的情况下测试显示旧版平均每分钟有效写入17.28条,新版则是29.85条,效率提高72.7%

但若区域选择仅为浙江,即下属11市,情况会好很多。旧版平均每分钟有效写入是13.1条,新版则是59条,效率提高350.3%

用户可自行的优化:优化参数配置,尽量避免无效URL形成,例如 实习+月薪50k以上 这样的参数组合。

新的计算公式

最大数据量:所有区域选择的下属地级市/县/区数量的和 × 求职类型数量 × 薪资待遇数量 × 150

URL数量:所有区域选择的下属地级市/县/区数量的和 × 求职类型数量 × 薪资待遇数量 × 10

最大耗时(h):URL数量 / 5(并发数)* 55(每批平均耗时s) / 60(s) / 60(min),因为有跳批次优化,所以一般低于该时间。

经验分享

  1. 在原有的循环基础上,加上并发功能,在有效提效的情况下同时保证稳定性,并发数最终定为5个,记为1批次。
  2. 但原有循环是可以及时停止无效请求的,例如在第5页发现没有数据了,则跳出页码循环,所以最后在奇数批次(即1-5页)设置数据flag,如若奇数批次内存在空数据情况,则跳过下批次(即跳过6-10页),这样可以有效提高效率。

使用等说明

请跳转至: 基于多个限制参数定向抓取BOSS直聘全国岗位信息 | 应用分享

应用分享连接: 某直聘岗位数据获取-并发版

注意事项!!!

合规优先:严格遵守 BOSS 直聘网站协议及相关法律法规,严禁违规抓取数据。​

适度操作:控制数据获取频率与规模,避免占用过多服务器资源,影响平台正常运行。

用途规范:所获数据仅限学术分析,用于挖掘劳动力市场规律等正向研究,杜绝滥用。

收藏1
全部评论1
最新
发布评论
评论