陆拾肆- 时序数据的特征化
一、前期大数据状况
进行客户域
大数据运营时,一般是在当前
状态计算客户的行为特征。
如会建立特征为
- 近7天是否有登录
- 昨天是否有登录
- 近7天销售情况
- 点击主页后是否有点击下层页面
- 哪个页面点击购买
- 总浏览电子产品的次数占访问次数占比
- 不进行商品浏览,只进行游戏化活动访问次数占比
- ….
利用上述特征进行建模,对目前
应该对哪些客户进行哪些操作(如推荐哪种商品、是否给与优惠折扣)的确是足够
的,而且也是较为容易简单的
二、目前建模的客户的特征
对于当前对客户的操作运营,使用上述简单的办法是可以的
但对于商业模式
的深入挖掘,简单的利用机器学习
能力是不足够的,还必须考虑不同人群对公司商业模式的整体贡献以及针对人的运营。
例如例子:
当我们占在某个时点去提取特征
的时候,我们会很明显的对客户进行一个历史行为的缺漏
如上面的例子,如果针对促活的目的来看,我们很容易把这两个用户当作是同一类的人,这明显是会有误导
的,可以看出客户 A是有频率的在游戏上进行游玩的
三、时序大数据的痛点
对于有时序数据
,即使简单的把每天的数据,以及每天的行为
进行特征化
,也会生成非常大量的特征。
如对上述客户 A 来说,短短 32 天就会产生 32 * N 个特征
(进行游戏、充值、购物、充值金额、购物金额等等)。如果考虑转化如图片等视觉机器学习
方式去进行,还需要考虑相邻特征之间的相关性。
甚至如果还考虑小时分钟
的当天内的操作顺序
,这个会更大。
这在以前简单的机器学习
方式是接近不可能的任务,就更没必要讨论建模是选用有监督
还是无监督
了。
四、特征的选取方式
在特征选择
前必须考虑,什么是有意义的特征,这时候需要让人根据实际对商业模式
有意义(可执行不同的运营策略的客户)的例子
,然后对比不同客户的在整个商业模式
中的特征(如初次注册前一周是否有进行充值、充值间隔、第几天开始一周内不登陆等)。
五、根据实际独特客户抽取特征后
实际上这一步之后,以无所谓无监督学习
与有监督学习
了,在特征
是服从于前期抽取的例子时,无监督分类
与有监督分类
区别是不大的。
六、仍需进行机器学习的意义
有人有疑问,既然已经抽取出独特的客户后,为什么仍需进行机器学习
。
- 分类意义
如果仅根据我们抽取的特征去进行硬性区分,可能会有得出未必绝对正确的区分结果(如果硬性规定充值7天内有购物是一类人,那第8天才购物呢?)
- 统计意义
我们可以抽取部分来人工分辨独特客户,但没办法对所有人进行分类
- 结合传统大数据运营
当我们可以把目前抽取的特征融入前期正在运营的机器学习系统里面,丰富目前的机器学习判别维度