BI 不可能三角

alt text

alt text

alt text

为什么称为 BI 不可能三角

因为在 BI 的工作场景时,这三点是不可能同时达到的,只能在这三个追求中选择一个偏重

其中如电商等简单的业务,虽然数据维度少,可是其数据量大,也是必须偏重往右下角的靠

alt text

  1. 其实 BI 如果数据量少,在个人计算机上装个社区版数据库也是可以完成的,但如果需要在成规模的业务上进行数据洞察,机器成本的投入可谓重中之重
  2. 与机器投入一样,好的数据库、数据计算框架、数据流管理软件等也是一笔非常大的开销
  3. 如果软硬件资源足够,数据基建人员可以不必那么多,且分析人员可以有更大的算力冗余去进行更复杂的分析,能得出更好的洞察

alt text

  1. 数据量大少跟业务量级以及业务属性有关,越是偏向线上型 ( 因为会产生大量日志型数据 ) 、to C 型 的业务数据量会越大
  2. 业务渠道越单一、业务越简单 ( 如只是做堂食、只负责外卖、只做交易平台等 )、业务上下游识别类型越少 ( 例如顾客及供应商有统一识别ID、生产资料有统一识别编号等 )、业务单元统一 ( 单一业务由单一部门、单一系统处理 ) 等等,这些都可以减少数据维度,反而就会增加数据维度
  3. 如果一个业务流有多个部门、多个层级等,均会增加数据维度

alt text

  1. 就是决策者在下钻、更换维度、更换单元 ( 如时间、生产线、区域 ) 等的响应速度
  2. 例如 T+1 的 8点前需要输出前一天的所有数据,例如我需要实时数据要在几分钟之内统计出来
  3. 当业务节点太多时,且数据并非同时发生,而且各业务节点并非强相关,往往很难统计简单的业务逻辑结果。举个例子:顾客在A电商平台购买了一部电瓶车,两天后商家备好货准备出货,这时顾客取消原订单,同时在 B 平台再下一单。这个例子对于商家会有多个不同的统计结果,例如用户数2、订单数2、出货1、取消1,例如用户数1、订单数1、出货1 等等..

alt text

过度的数据挖掘有时候反而会模糊对分析数据目的

在当下现有的条件下对重点问题的分析

还是为了某个问题加大对数据建设的投入

这是一个很重大的命题,毕竟,投入是可见的,而洞察是否充足,短期内并不可见