匹克官方网店|新闻数据告诉你不能说的秘密

您的位置：首页>资讯动态>数据告诉你不能说的秘密

- 数据告诉你不能说的秘密
- - 发布时间2012-07-23 09:51:57
  - 阅读(4419)
- 数据能带给我什么呢？通过数据我们可以知道过去发生了什么，通过数据我们可以推测接下去即将发生什么，通过数据我们可以知道自己现在要做什么？那究竟怎么挖掘数据，那什么又是数据挖掘呢？这里我们先讨论数据挖掘，在此，尝试用三个通俗的例子，抛砖引玉的介绍数据挖掘：
  　　1. 甲每天中午都到同一个餐馆吃饭，连续吃了一周，每次都点同样的一道菜，当他再一次来到这餐馆时，突然换了另外一道菜。那么等这位顾客再一次光顾时，是应该推荐他之前每天都点的呢？还是推荐另外那道？抑或是其他什么？
  　　解读：数据挖掘可以理解为在获取更多资讯的同时，进行下一步的预测。然而，对于数据并不丰富的情况，数据挖掘则会因为资讯不足而难以实现。如同上例那样，这位顾客点什么菜，很有可能取决于天气、用餐时间、甚至是否存在特价菜等情况，而上述例子的描述中（实际的数据）显然没有提供这些要素，做出统计推断的风险过大，不能做出判断。
  　　2. 有一个暗箱，里面有若干个黑球和白球，某人从箱子中无放回的抽取了3次，每次都是黑球，这人想干什么？A.该人就是喜欢黑球，想收藏；B.该人一心想拿到白球，不信自己点背拿不到。该选择哪一个答案呢？
  　　解读：显然，对上题做出个选择最好的方式就是——随机的一猜。我们完全不知道这哥们为什么要拿球，更不知道他后面会不会再取，何谈判断？如果，存在着一种用户场景假设：连续抽取颜色一样的球会中奖，用户在碰运气。那么，显而易见可以判断出：该用户不会再抽取，因为对他而言，一切都已经结束。数据挖掘是基于场景假设，由目标进行驱动的统计分析，没有场景假设，即便能有数据上面的线索（如上例中连续3次同样结果），也不能得出对业务有帮助的推论。
  　　3. 有位朋友A很喜欢看电影，他罗列了自己喜欢看的50部电影。像这样的朋友有1000个，当然他们各自所罗列的电影不同。那么，该为A君推荐什么样的电影呢？思路（1）：每部电影都有一个分类，基于某个枚举表，为用户推荐喜欢类型的电影。思路（2）：用户所罗列的电影分别聚类，A君喜欢的可能会分成10类，而其他1000人所喜欢也会分类。为A君推荐其他1000人中分类与A最接近，且A没有观赏过的电影。你选择哪一个？
  　　解读：数据挖掘是一个利用大规模数据的动态过程，在大数据集下，模型不断的自我学习，使得算法精度不断提高，诚如上述所言的电影分享，1000个用户分别贡献的数据，在大数据集下进行分类模型的迭代更新，当精度达到并超过某一水准时，为用户提供同类别或类别接近的电影。人工维护的枚举表虽然会无比精准，但成本远非机器那样高效。如果把数据挖掘当做枚举表的对接，那么从根源上就有了偏差，没有发挥出大数据的功效。
  　　通过上述三个例子，我们可以如此总结数据挖掘：利用大数据集，在场景假设明确的情况下，动态的利用数据自学习来完善统计推断模型，以达到某一精度水平。
  　　当然，在更多时候，我们的数据基础是给定的，我们也要迫于管理层的压力或市场的压力，在没有把场景假设想明确就要开始干活，更有可能产品来不及迭代，来不及自学习就要为人民服务。如此情况下，小数据集的尝试就变得非常有必要。用小规模数据下的模型，去说服管理层耐心的让团队找好铁锹，慢慢挖掘。
- — END —

男鞋

女鞋

男装

女装

配件/装备

儿童

儿童

鞋类

服装

科技

热门

男子跑步

女子跑步

明星系列

热门