上佰 | 数据自动化案例解析
评论
收藏

上佰 | 数据自动化案例解析

官方资讯
行痴
2021-07-02 22:54·浏览量:1947
行痴
发布于 2021-07-02 22:541947浏览

本文内容截取自上佰数据负责人YiYuan(一元)在直播节当天实录部分观点。


嘉宾:一元,上佰数据负责人

作者:卢云


以下内容为YiYuan分享实录:


我是上佰数据负责人YiYuan(一元),非常开心能和大家在直播间相聚,我将基于自身工作经验和工作场景,围绕数据自动化操作思路、实操案例解析、自动化经验建议、工作经验等方面和大家沟通交流,希望大家有所收获。


我们在做数据工作中,一般会用到多种工具软件,所以本次分享我会以工具软件种类、工具软件实际应用、工具软件解决哪些问题等干货内容为主。


首先,为了更好的理解数据自动化,我们先看一下我的工作场景之一,基于影刀RPA自动获取生意参谋数据场景、获取店铺数据场景、获取监控店铺数据场景等。(报名参加618直播节,查看所有回放视频),本次分享大纲如下:


1.数据自动化操作思路

2.行业数据案例讲解

3.数据自动化操作思路


|数据自动化操作思路


我们首先要思考,我们的数据自动化该怎么入手?我们不如用逆向思维的方式去思考和拆解,细化成小颗粒度,这样大家再去做框架和执行时,能更好地入手。


1.输出报表要做成什么样子

2.用什么方法清洗数据

3.数据源怎么存放

4. 数据源批量移动到指定文件夹

5.数据从哪里获取,数据怎么获取


目前我们常用的报表形式有二维表、透视表、BI等,大部分时间会以表格形式为主,只有在一些特定场景会使用到BI。


条条大路通罗马,不要用一个软件(方法)处理所有的事情。在做数据工作过程中,我建议大家遇事不钻牛角尖,人也舒坦心也舒坦,不要只是专注于一种形式或一种工具。


例如影刀RPA功能很强大,但是我不会用它去清洗数据,优秀的清洗数据工具很多,所以我会用影刀RPA做我们需要的那部分工作就可以了。


1.输出报表要做成什么样子?


我们一些常用的表格形式,相比于其他形式,即使BI的交互能力更强,可视化程度更高,但其使用率低。


2.用什么方法清洗数据?


目前常见的清洗数据方法有:复制黏贴、公示函数、第三方插件、Power query、VBA、python、影刀RPA等方式。


无论用什么方法,什么工具,都需要先将数据源合并,然后对合并的数据进一步处理,得到我们想要的数据。下面,我们为大家介绍使用Power query从文件夹合并数据场景。


数据场景(部分)


这里需要重点标出来,office和WPS的区别,office有power query和power pivot两个模板,这些功能WPS是没有的,但是WPS有其他个性功能。如果是做数据专员,我建议一定要安装office。


Power query是office自带模块学习成本相对较低,动态刷新功能特别好用,建议用文件夹+表格/数据库的方式存放数据。


3.数据源怎么存放,移动到指定文件夹?


我按照公司规模:大公司、一般公司、小公司去做了存放形式分析,如下所示:


大公司一般是数据库存放形式,这是最好的,但是对个人技能要求很高,专人专岗,按照数据清洗、建模、可视化,三种方式去做配置人员(起码3人)。


一般公司一般是以文件夹+表格形式,专人专岗(1人独揽)去做。


小公司一般按照表格形式形式,数据人员往往身兼多职。


4.数据从哪里获取,怎么获取?


我们基于影刀RPA去获取数据。我和影刀RPA之间还有一些故事,在影刀RPA没有商业化之前,我就在使用这款产品。


当时,我需要下载非常多的历史数据,如果一个点一个点去下载,有时候还需要花费很多时间去做按钮点击,这耗时耗力,我非常不愿意干这些工作。后来影刀RPA出现了,产品简单易上手,用它干了平时最累,我们最不愿意干的活,去完成那些重复性高的下载、等待、处理工作。


我为大家列出一组数据和图,你就能发现它能为我带来什么。


数据:4个店铺数据下载,需要3个小时;导入3分钟;刷新10分钟;输出20分钟。


各端口数据,数据下载100张表


各端口数据,数据整理输出27张报表


| 案例讲解


下面我会手把手带大家使用影刀RPA搭建一个案例。


1.怎么搭建一个稳定的自动化流程?


01.以行业TOP品牌数据获取为例,先理清思路


02.思路1:模拟人工依次点击操作



  • 缺点1:点击循环元素过多,容错流程复制
  • 缺点2:整个循环中有不想要的类目,需要添加列表判断,难度系数增加
  • 缺点3:日期类目切换,缓存没有加载出来, 数据错乱


03.思路2:构造类目链接直接下载


思路1的缺点都可以避免,数据准确,速度也不算很慢,这个思路可以同时运用到竞品流量结构,热销产品等取数渠道。


04.思路3:直接获取数据包,解密入库



优点:快准狠

缺点:学习成本很高


2.以下为类目&应用展示:


01.下载一个类目一天数据



能用键盘输出的,不用使用元素操作(网页更新插件更新都会影响元素的稳定性),多加随机延时,随机点击,不要怕慢(可有效避免网页加载不全,和官方的反扒监管)。建议能用键盘输出的,不用使用元素操作(网页更新插件更新都会影响元素的稳定性)。


02.下载多个类目一天数据


能用excel表格做网页获取的,不使用循环网页元素(更稳定,可随时调整)。



03.下载多类目多天数据


多日下载,处理休息天不上班的情况(建议在家没事打开影刀运营一遍,周一会很轻松)。



3.搭建行业数据流程踩过的坑


01.不要太快,不要太久,容易被警告(多加延时和随机点击)

02.表格下载,数据出错是缓存没有更新引起的(建议重新打开网页下载)

03.表格名字下载不全,一般是刷新后报错的(要在网页刷新后加等待)


4.触发器的使用


个人喜欢文件触发(不受时间的限制),触发文件的名称最好和流程名称一直,后期便于维护。





以上,如果公司会以工作时间来衡量工作标准,希望大家能和公司沟通好。

收藏
全部评论1
最新
发布评论
评论