获取的岗位数量非0的URL的占比越高,对比旧版写入效率提升就越明显,例如参数配置为 全国373个地级市/县/区(区域选择全选)、关键词为‘大数据’、其余参数均为‘不限’,那么
URL数量 = 373 × 1(求职类型) × 1(薪资待遇) × 10(页码)= 3730
众所周知,大数据相关岗位的数量只有在较发达的城市才较可观,所以会有不少的URL获取的数据为0,但好在占比不是太极端,在这样的情况下测试显示旧版平均每分钟有效写入17.28条,新版则是29.85条,效率提高72.7%。
但若区域选择仅为浙江,即下属11市,情况会好很多。旧版平均每分钟有效写入是13.1条,新版则是59条,效率提高350.3%。
用户可自行的优化:优化参数配置,尽量避免无效URL形成,例如 实习+月薪50k以上 这样的参数组合。
最大数据量:所有区域选择的下属地级市/县/区数量的和 × 求职类型数量 × 薪资待遇数量 × 150
URL数量:所有区域选择的下属地级市/县/区数量的和 × 求职类型数量 × 薪资待遇数量 × 10
最大耗时(h):URL数量 / 5(并发数)* 55(每批平均耗时s) / 60(s) / 60(min),因为有跳批次优化,所以一般低于该时间。
请跳转至: 基于多个限制参数定向抓取BOSS直聘全国岗位信息 | 应用分享
应用分享连接: 某直聘岗位数据获取-并发版
合规优先:严格遵守 BOSS 直聘网站协议及相关法律法规,严禁违规抓取数据。
适度操作:控制数据获取频率与规模,避免占用过多服务器资源,影响平台正常运行。
用途规范:所获数据仅限学术分析,用于挖掘劳动力市场规律等正向研究,杜绝滥用。