

抓了无数个微信小程序,总结下来,采集方式大致分3种:
1、影刀相似元素获取
2、抓包工具+影刀
3、协议抓取
------------------------------------------1、影刀相似元素获取------------------------------------------
以得物app为例:

优点是操作比较简单,得物这种布局规范的小程序,可以快速获取。
缺点是复杂布局的小程序,操作起来可能不会那么容易,想要获取图片只能截图,清晰度不高。
参考视频1: 学不会找我,手把手教你用影刀爬得物销量~ http://xhslink.com/o/4d7lTXfwFcC
参考视频2:用影刀采集美团商户电话的小demo http://xhslink.com/o/7VZid5OG3Et
*如果觉得链接内容质量不错,可以点个关注哦~
------------------------------------------2、抓包工具+影刀------------------------------------------

通过reqable抓包,脚本保存json到txt,后续一并用pandas解析。
优点是字段齐全、所见所不见,基本都能获取。
参考视频1:有手就会,如何抓取美团小程序 http://xhslink.com/o/2CtuiSGjPGk
*注意,这个视频只是用来看一下流程,美团小程序现在用了自己的通信协议,可能很多机器抓不了包
参考视频2:影刀+抓包 爬取沃尔玛所有sku http://xhslink.com/o/44Xq22o2ONm
------------------------------------------3、协议抓取------------------------------------------
既然已经学会了抓包,很自然就会想,是不是可以直接纯代码协议抓取呢?
这时候就可以直接复制curl,转换成requests代码看一下,是否有加密参数。
*如果没有加密参数
恭喜你,直接把requests代码发给豆包,让豆包给你写一个for循环。然后直接就可以把把所有数据导出到excel。


参考链接1:轻松3步爬取杜蕾斯小程序 http://xhslink.com/o/ADIVeTYoGlJ
*文字内容有较为详细的步骤
参考链接2:奥乐齐数据爬取工具 1分钟3700条 http://xhslink.com/o/2cu1uf7uFof
参考链接3:让维多利亚没有秘密 协议获取维密小程序 http://xhslink.com/o/A906dVDQz1Z
*如果有加密参数
这种就没怎么简单了,每一个请求可能都会有加密的sign。
sign是通过各种加密算法计算出的,发送请求的时候,如果sign不对,服务器不会给你返回数据。
想要解决这个问题,需要你有一定的js逆向基础。具体到微信小程序,还需要你用开源工具WeChatOpenDevTools开启F12调试。


参考链接1:逆向永辉超市 http://xhslink.com/o/9rmCxHYv9K3
参考链接2:逆向瑞幸咖啡 http://xhslink.com/o/467MtEU6OGQ
参考链接3:逆向大润发优鲜,制作批量抓取工具 http://xhslink.com/o/4xP7X6QfGve
协议抓取的好处就不多说了,理论上应该是最优解。纯代码、最快最稳定。
最后,总体来说,一线头部互联网大厂的小程序,建议绕道。整体的趋势就是风控越来越严格,各种反爬层出不穷。
但是欺负欺负非头部的小程序,还是机会挺多的。
更多技术细节,欢迎沟通讨论+v:
shendeju