优惠
我的
收藏
网站
客服
售前:0592-2525289 售后:0592-2525289
您的位置:首页>资讯动态>数据告诉你不能说的秘密
    • 数据告诉你不能说的秘密
      • 发布时间2012-07-23 09:51:57
      • 阅读(4419)
    •         数据能带给我什么呢?通过数据我们可以知道过去发生了什么,通过数据我们可以推测接下去即将发生什么,通过数据我们可以知道自己现在要做什么?那究竟怎么挖掘数据,那什么又是数据挖掘呢?这里我们先讨论数据挖掘,在此,尝试用三个通俗的例子,抛砖引玉的介绍数据挖掘:

        1. 甲每天中午都到同一个餐馆吃饭,连续吃了一周,每次都点同样的一道菜,当他再一次来到这餐馆时,突然换了另外一道菜。那么等这位顾客再一次光顾时,是应该推荐他之前每天都点的呢?还是推荐另外那道?抑或是其他什么?

        解读:数据挖掘可以理解为在获取更多资讯的同时,进行下一步的预测。然而,对于数据并不丰富的情况,数据挖掘则会因为资讯不足而难以实现。如同上例那样,这位顾客点什么菜,很有可能取决于天气、用餐时间、甚至是否存在特价菜等情况,而上述例子的描述中(实际的数据)显然没有提供这些要素,做出统计推断的风险过大,不能做出判断。

        2. 有一个暗箱,里面有若干个黑球和白球,某人从箱子中无放回的抽取了3次,每次都是黑球,这人想干什么?A.该人就是喜欢黑球,想收藏;B.该人一心想拿到白球,不信自己点背拿不到。该选择哪一个答案呢?

        解读:显然,对上题做出个选择最好的方式就是——随机的一猜。我们完全不知道这哥们为什么要拿球,更不知道他后面会不会再取,何谈判断?如果,存在着一种用户场景假设:连续抽取颜色一样的球会中奖,用户在碰运气。那么,显而易见可以判断出:该用户不会再抽取,因为对他而言,一切都已经结束。数据挖掘是基于场景假设,由目标进行驱动的统计分析,没有场景假设,即便能有数据上面的线索(如上例中连续3次同样结果),也不能得出对业务有帮助的推论。

        3. 有位朋友A很喜欢看电影,他罗列了自己喜欢看的50部电影。像这样的朋友有1000个,当然他们各自所罗列的电影不同。那么,该为A君推荐什么样的电影呢?思路(1):每部电影都有一个分类,基于某个枚举表,为用户推荐喜欢类型的电影。思路(2):用户所罗列的电影分别聚类,A君喜欢的可能会分成10类,而其他1000人所喜欢也会分类。为A君推荐其他1000人中分类与A最接近,且A没有观赏过的电影。你选择哪一个?

        解读:数据挖掘是一个利用大规模数据的动态过程,在大数据集下,模型不断的自我学习,使得算法精度不断提高,诚如上述所言的电影分享,1000个用户分别贡献的数据,在大数据集下进行分类模型的迭代更新,当精度达到并超过某一水准时,为用户提供同类别或类别接近的电影。人工维护的枚举表虽然会无比精准,但成本远非机器那样高效。如果把数据挖掘当做枚举表的对接,那么从根源上就有了偏差,没有发挥出大数据的功效。

        通过上述三个例子,我们可以如此总结数据挖掘:利用大数据集,在场景假设明确的情况下,动态的利用数据自学习来完善统计推断模型,以达到某一精度水平。

        当然,在更多时候,我们的数据基础是给定的,我们也要迫于管理层的压力或市场的压力,在没有把场景假设想明确就要开始干活,更有可能产品来不及迭代,来不及自学习就要为人民服务。 如此情况下,小数据集的尝试就变得非常有必要。用小规模数据下的模型,去说服管理层耐心的让团队找好铁锹,慢慢挖掘。

    • — END —