zheng

用户主页 » 文章列表 » 阅读文章

玩转数据挖掘

已有 699 次阅读  2010-08-04 05:39   标签数据  挖掘 

作为未来信息产业的重要技术,数据挖掘在商业上的应用正在普及,并开始成为一门独立的专业学科。

将尿布与啤酒两种看似不相干的商品摆放在一起,竟能大幅增加其销售额。

沃尔玛公司在对顾客的购物行为进行分析时发现,“跟尿布一起购买最多的商品竟是啤酒。”针对这一现象,沃尔玛对消费数据进行了调查分析。分析的结果揭示了隐藏在“尿布与啤酒”背后的美国人的消费行为倾向——美国的太太们经常叮嘱她们的丈夫为小孩买尿布,一些年轻的父亲下班后到超市购买婴儿尿布时,其中30%~40%的人同时也会为自己购买啤酒。既然尿布与啤酒放在一起会增加购买的机会,于是沃尔玛开始将众多门店的尿布与啤酒并排摆放,结果是两类商品的销售量均大大增长。

上面的例子,源于《财富》杂志报道的沃尔玛案例,从这一例子中,人们看到了对消费者行为模式的准确把握。实际上,沃尔玛能够找到这样的规律,是基于对原始交易数据进行深入分析的结果,而这都要归功于一项特殊的工作——数据挖掘。

所谓数据挖掘,是指寻找隐藏在海量数据中有价值的信息,进而支持决策的过程。“挖掘”的目标包括趋势、特征及相关性等多个方面的信息。

在计算机与信息技术普及的今天,人们的消费需求、行为和习惯都可以化为海量的用户数据,进而被银行、电信运营商、信用卡公司等机构进行“挖掘”。而这样的数据挖掘成果,正逐步为公众所分享。

例如,在网上购买一本小说时,不少网站都会自动推荐相关度极高的另一本书籍;查询电话话费时,电信运营商也往往根据用户通话数据,给出更省钱的套餐作为参考。这些都是数据挖掘呈现的效应,一方面给企业带来了更好的营销方式,另一方面也让用户享受到了便利。

商业支撑

除了较早介入该领域的电信运营商和银行之外,数据挖掘正被应用在零售、金融服务、制造业、电话销售、保险等更多行业中。

在商业领域,数据挖掘尤其具有巨大的潜在价值。通过分析用户消费行为和交易纪录,数据挖掘可用于帮助企业回答较为复杂的问题。比如大客户的特征是什么?应该给这些客户提供什么样的促销手段?客户在1个月内再次购买的可能性有多大?什么样的产品与花钱最多的客户相联系?

时下火爆的团购网站们,也将数据挖掘视为重要的运营支撑。团购网站的高管们常常把各种数据挂在嘴边。在简单同化的网站页面背后,很多公司正在数据挖掘上暗自角力,以求通过更加科学有效的方式精准匹配消费需求,在众多商家中遴选最合适的商品,进而更好地控制用户粘性。

实际上,在互联网领域,最早利用数据挖掘技术的是电子商务公司。尤其是B2C网站,比如,通过“啤酒-尿布”案例中体现的关联性规则和相应算法,商家可向买过商品的用户推荐第二件最可能消费的商品。

“目前国内数据挖掘做的比较好的是淘宝,这与公司的重视程度有很大关系。”刘毅向《财经国家周刊》记者说。

刘毅出身统计学专业,从事数据挖掘工作多年,早前曾在网络游戏公司网龙从事数据挖掘工作,如今在艾瑞咨询创新研发部进行数据产品研发。

“我看过淘宝数据魔方,个人认为,它展现出来的结果还是冰山一角,更多是一些报表分析。”刘毅表示,淘宝每天把交易数据做成数据仓库,并根据淘宝品类和关键词设置等维度进行展现,但目前也仅限于这些。

据悉,淘宝网每天产生约7000G容量的数据。3月31日,淘宝网对外宣布,面向全球开放淘宝数据,商家、企业及消费者将在未来分享到来自淘宝网的海量原始数据。

刘毅认为,对于像当当、卓越这样的B2C网站来说,更需要深入进行数据挖掘工作。一个类似数据魔方的报表只限于日常运营的需要,想要更深入地了解客户,使其获得更好的体验,或许还是自己做数据挖掘更有用。

数据挖掘流程

具体到数据挖掘的流程,大致可分为“总体规划——数据仓库——数据挖掘”的三个步骤。由于数据挖掘人员需要具有不同的知识结构,因此通常一个数据挖掘团队在5人左右。

首先,由负责总体规划的人员提出需求,即要做哪些方面的分析。接下来,有专门的人员负责收集来自不同数据源的海量数据,以统一的形式整合在数据仓库里,同时设置多个维度,形成针对不同主题的结构化数据。

此时,数据挖掘人员才开始登场,根据对业务的深入理解,在不断的测试和计算过程中,形成合理的挖掘模型。同时,对于挖掘得出的结果,还需要有对业务特别熟悉的人员反复验证。几次下来,数据模型基本固定,就可以按照例行的周期从数据仓库提取分析数据,进行数据挖掘工作了。

例如游戏公司要预测哪些玩家会在下周流失,可在数据仓库中设置在线情况、充值情况、活动参与情况等多个维度,通过相应算法进行挖掘工作。一旦发现玩家诸如上线时间变短,或者“打怪”不积极等行为,就会进行标记,同时了解他们对哪些类型的活动或任务感兴趣。接下来,运营部门会根据标记向玩家发送相应活动信息等,以维持用户粘性。

而在欧美银行业的应用中,通常是从客户的年龄、受教育程度、收入状况、信用记录等资料入手,“挖掘”出相应的社会、经济和消费特征,进而对客户进行分群和档案管理,区分大众消费群体和高端群体。具体到信用卡用户分析,还会考量持卡人用款数量、用卡频率、是否按时还款等因素,进而确定发放信用卡的人群、信用额度、风险及防范等问题。

另外,数据挖掘结果还可以整合成为营销策略,在识别客户行为优化服务,调整产品以符合客户需求,以及寻找新客户等方面,成为企业决策的好帮手。

多种技术的应用

上述三步流程是一个相对比较完整的数据挖掘过程,在要求不高、数据量不大的情况下,数据挖掘和数据分析的结果差别不是很大,很容易被混淆。

“现在数据挖掘的概念炒得很火,但是很多人做的只是针对数据的一个简单统计分析,按照标准的数据挖掘流程去运行的公司仍是少数。”刘毅说。

当然,要更好地实现数据挖掘的效果,还需要数据统计团队和调研团队的进一步配合。在进行数据挖掘之前,先要统计分析具体情况。而数据挖掘的结果,有时候也无法回答“为什么”这样的问题,解答这些问题还需要后续的调研工作作为补充。

比如要评价某个活动的效果,需要在做数据挖掘之前,先由统计人员分析市场参与度有多大,有怎样的特征规律等。而在“挖掘”出不同群体的行为偏好,对应以不同营销手段和个性化服务后,还要进行跟踪调研,通过问卷形式了解活动效果,以及何种活动愿意参加等问题。

数据统计、数据挖掘、结果调研三者作用叠加,方能构成一个完整的市场调查链条。

在刘毅看来,数据挖掘是一种结合多种专业技术的应用,但其本身并不能提供因果关系,只是呈现出某个结果,告诉人们发生这个行为的概率是多少。

“数据挖掘不是一个无所不能的魔法。”刘毅表示,“你可以通过工具从数据中发掘出各种假设,但它并不帮你查证、确认这些假设,也不帮你判断这些假设对你的价值。”

据了解,目前国内也有专门从事数据挖掘的第三方公司,例如华院分析技术(上海)有限公司、北京华通人商用信息有限公司等。不过有研究者认为,第三方公司存在对客户业务理解不深入的问题,同时由于要抽取客户自己的数据进行分析,涉及到公司运营机密问题,很难拿到合适的数据,所以很多项目到最后的效果并不好。

分享 举报