陆拾肆- 时序数据的特征化

一、前期大数据状况

进行客户域大数据运营时,一般是在当前状态计算客户的行为特征

如会建立特征为

利用上述特征进行建模,对目前应该对哪些客户进行哪些操作(如推荐哪种商品、是否给与优惠折扣)的确是足够的,而且也是较为容易简单的

二、目前建模的客户的特征

对于当前对客户的操作运营,使用上述简单的办法是可以的

但对于商业模式的深入挖掘,简单的利用机器学习能力是不足够的,还必须考虑不同人群对公司商业模式的整体贡献以及针对的运营。

例如例子:

客户行为


特征

当我们占在某个时点提取特征的时候,我们会很明显的对客户进行一个历史行为缺漏

如上面的例子,如果针对促活的目的来看,我们很容易把这两个用户当作是同一类的人,这明显是会有误导的,可以看出客户 A是有频率的在游戏上进行游玩的

三、时序大数据的痛点

对于有时序数据,即使简单的把每天的数据,以及每天的行为进行特征化,也会生成非常大量的特征。

如对上述客户 A 来说,短短 32 天就会产生 32 * N 个特征(进行游戏、充值、购物、充值金额、购物金额等等)。如果考虑转化如图片等视觉机器学习 方式去进行,还需要考虑相邻特征之间的相关性。

甚至如果还考虑小时分钟的当天内的操作顺序,这个会更大。

这在以前简单的机器学习方式是接近不可能的任务,就更没必要讨论建模是选用有监督还是无监督了。

四、特征的选取方式

特征选择前必须考虑,什么是有意义的特征,这时候需要让人根据实际对商业模式意义可执行不同的运营策略的客户)的例子,然后对比不同客户的在整个商业模式中的特征(如初次注册前一周是否有进行充值、充值间隔、第几天开始一周内不登陆等)。

五、根据实际独特客户抽取特征后

实际上这一步之后,以无所谓无监督学习有监督学习了,在特征是服从于前期抽取的例子时,无监督分类有监督分类区别是不大的。

六、仍需进行机器学习的意义

有人有疑问,既然已经抽取出独特的客户后,为什么仍需进行机器学习

如果仅根据我们抽取的特征去进行硬性区分,可能会有得出未必绝对正确的区分结果(如果硬性规定充值7天内有购物是一类人,那第8天才购物呢?)

我们可以抽取部分来人工分辨独特客户,但没办法对所有人进行分类

当我们可以把目前抽取的特征融入前期正在运营的机器学习系统里面,丰富目前的机器学习判别维度