本文内容截取自上佰数据负责人YiYuan(一元)在直播节当天实录部分观点。
嘉宾:一元,上佰数据负责人
作者:卢云
以下内容为YiYuan分享实录:
我是上佰数据负责人YiYuan(一元),非常开心能和大家在直播间相聚,我将基于自身工作经验和工作场景,围绕数据自动化操作思路、实操案例解析、自动化经验建议、工作经验等方面和大家沟通交流,希望大家有所收获。
我们在做数据工作中,一般会用到多种工具软件,所以本次分享我会以工具软件种类、工具软件实际应用、工具软件解决哪些问题等干货内容为主。
首先,为了更好的理解数据自动化,我们先看一下我的工作场景之一,基于影刀RPA自动获取生意参谋数据场景、获取店铺数据场景、获取监控店铺数据场景等。(报名参加618直播节,查看所有回放视频),本次分享大纲如下:
1.数据自动化操作思路
2.行业数据案例讲解
3.数据自动化操作思路
我们首先要思考,我们的数据自动化该怎么入手?我们不如用逆向思维的方式去思考和拆解,细化成小颗粒度,这样大家再去做框架和执行时,能更好地入手。
1.输出报表要做成什么样子
2.用什么方法清洗数据
3.数据源怎么存放
4. 数据源批量移动到指定文件夹
5.数据从哪里获取,数据怎么获取
目前我们常用的报表形式有二维表、透视表、BI等,大部分时间会以表格形式为主,只有在一些特定场景会使用到BI。
条条大路通罗马,不要用一个软件(方法)处理所有的事情。在做数据工作过程中,我建议大家遇事不钻牛角尖,人也舒坦心也舒坦,不要只是专注于一种形式或一种工具。
例如影刀RPA功能很强大,但是我不会用它去清洗数据,优秀的清洗数据工具很多,所以我会用影刀RPA做我们需要的那部分工作就可以了。
1.输出报表要做成什么样子?
我们一些常用的表格形式,相比于其他形式,即使BI的交互能力更强,可视化程度更高,但其使用率低。
2.用什么方法清洗数据?
目前常见的清洗数据方法有:复制黏贴、公示函数、第三方插件、Power query、VBA、python、影刀RPA等方式。
无论用什么方法,什么工具,都需要先将数据源合并,然后对合并的数据进一步处理,得到我们想要的数据。下面,我们为大家介绍使用Power query从文件夹合并数据场景。

数据场景(部分)
这里需要重点标出来,office和WPS的区别,office有power query和power pivot两个模板,这些功能WPS是没有的,但是WPS有其他个性功能。如果是做数据专员,我建议一定要安装office。
Power query是office自带模块学习成本相对较低,动态刷新功能特别好用,建议用文件夹+表格/数据库的方式存放数据。
3.数据源怎么存放,移动到指定文件夹?
我按照公司规模:大公司、一般公司、小公司去做了存放形式分析,如下所示:
大公司一般是数据库存放形式,这是最好的,但是对个人技能要求很高,专人专岗,按照数据清洗、建模、可视化,三种方式去做配置人员(起码3人)。
一般公司一般是以文件夹+表格形式,专人专岗(1人独揽)去做。
小公司一般按照表格形式形式,数据人员往往身兼多职。
4.数据从哪里获取,怎么获取?
我们基于影刀RPA去获取数据。我和影刀RPA之间还有一些故事,在影刀RPA没有商业化之前,我就在使用这款产品。
当时,我需要下载非常多的历史数据,如果一个点一个点去下载,有时候还需要花费很多时间去做按钮点击,这耗时耗力,我非常不愿意干这些工作。后来影刀RPA出现了,产品简单易上手,用它干了平时最累,我们最不愿意干的活,去完成那些重复性高的下载、等待、处理工作。
我为大家列出一组数据和图,你就能发现它能为我带来什么。
数据:4个店铺数据下载,需要3个小时;导入3分钟;刷新10分钟;输出20分钟。

各端口数据,数据下载100张表

各端口数据,数据整理输出27张报表
下面我会手把手带大家使用影刀RPA搭建一个案例。
1.怎么搭建一个稳定的自动化流程?
01.以行业TOP品牌数据获取为例,先理清思路

02.思路1:模拟人工依次点击操作

03.思路2:构造类目链接直接下载

思路1的缺点都可以避免,数据准确,速度也不算很慢,这个思路可以同时运用到竞品流量结构,热销产品等取数渠道。
04.思路3:直接获取数据包,解密入库


优点:快准狠
缺点:学习成本很高
2.以下为类目&应用展示:
01.下载一个类目一天数据

能用键盘输出的,不用使用元素操作(网页更新插件更新都会影响元素的稳定性),多加随机延时,随机点击,不要怕慢(可有效避免网页加载不全,和官方的反扒监管)。建议能用键盘输出的,不用使用元素操作(网页更新插件更新都会影响元素的稳定性)。
02.下载多个类目一天数据
能用excel表格做网页获取的,不使用循环网页元素(更稳定,可随时调整)。


03.下载多类目多天数据
多日下载,处理休息天不上班的情况(建议在家没事打开影刀运营一遍,周一会很轻松)。


3.搭建行业数据流程踩过的坑
01.不要太快,不要太久,容易被警告(多加延时和随机点击)
02.表格下载,数据出错是缓存没有更新引起的(建议重新打开网页下载)
03.表格名字下载不全,一般是刷新后报错的(要在网页刷新后加等待)
4.触发器的使用
个人喜欢文件触发(不受时间的限制),触发文件的名称最好和流程名称一直,后期便于维护。




以上,如果公司会以工作时间来衡量工作标准,希望大家能和公司沟通好。