数据挖掘技术分析及其在零售行业的应用
来源:五一七教育网
溺避科羧 数据挖掘技术分析及奠在零售行业的应用 一刘[摘磊吉林工商学院 要]数据挖掘技术逐渐成为研究热点,应用也越来越广泛。本文结合零售业中各种应用需求,较详细地分忻了针对不同挖 零售业算法 挖掘频繁模式导致发现数据中有趣的关联。著名的“尿布与 啤酒 的故事就是关联规则具体应用。著名的关联规则发现方法 掘任务的数据挖掘技术 并对实施中出现的问题进行了阐述,表明了改进挖掘算法和提高计算效率的 要性。 [关键词]数据挖掘一、目f言 当美国学者奈斯伯特惊呼 人类正被大量数据所淹没,而知 识则极度匮乏 时,出现于2 0世纪8 0年代末的数据挖掘技术让 人们看到了发现知识的希望。 零售行业使最早利用数据挖掘技术的领域之一,随着时代的 发展,传统报表系统已经不能满足日益增长的业务需求了.企业 期待着更好地利用数据分析和数据挖掘这种新的技术来获得知识 或洞察力,促使企业做出更有利的决策.带来更大的商业价值。 这也成为企业生存发展的关键。 二、数据挖掘概念 1什么是数据挖掘。数据挖掘(DM)是指从大量数据中抽取隐 含的、不为人知的 有用的信息..有时也把数据挖掘等同于数据 库中的知识发现(KDD)。 从商业角度出发.数据挖掘可以描述为 按企业既定业务目 标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或 验证已知的规律性.并进一步将其模型化的先进有效的方法。 2数据挖掘及知识发现处理数据的一般过程。数据清理一数 据集成一数据选择一数据变换一汇总、聚集一数据挖掘一模式评 估一知识表示 三 零售业数据挖掘的主要技术分析 数据挖掘采用的方法综合了数据库、人工智能、统计学、模 式识别、机器学习,数据分析等领域的研究成果 1概念/类描述:特征化和区分。对含有大量数据的数据集 合进行概述性的总结并获得简明、准确的描述。 定性概念描述即数据特征化.是目标类数据的一般特性或特 征的汇总。 对比概念描述即数据区分是将目标类数据对象的一般特性与 一个或多个对比类对象的一般特性进行比较。目标类和对比类由 用户指定.而对应的数据通过数据库查询检索。例如:用户可能 希望将上一年销售增加1 0%的A产品与同一时期销售至少下降 20%的B产品进行比较。再如比较定期购买某种产品的顾客和偶 尔购买这种产品的顾客 结果描述提供顾客比较的一般轮廓 如 比较两类顾客的年龄.受教育程度.职业等等,还可以就某项深 入比较.发现两类间更多的区分特性一 两种描述使用的一些有 基于统计度量 图的简单数据汇总、 数据立方体、面向属性的归纳等。 2挖掘频繁模式、关联。频繁模式是在数据中频繁出现的模 式。包括项集 子序列和子结构 项集是指频繁地在事务数据集中一起出现的项的集合,如牛 奶和面包。如顾客先购买PC再购买数码相机然后再购买内存卡这 样的模式是一个(频繁)序列模式。 子结构涉及不同的结构形式,如图、树或格 与项集或子序 列结合在一起。如果一个子结构频繁地出现 则称它为(频繁) 结构模式 如R Ag rawaI提出的AptlOf"l算法等 3分类知识发现。所谓分类 是把给定的数据划分到一定的类 别中。分类的关键是对数据按照什么标准或什么规则进行分类。 对于分类规则的挖掘通常有以下几种方法:决策树、朴素贝 叶斯、k最近邻分类、人工神经网络、粗糙集方法和遗传算法。不 同的算法适用于不同特点的数据集合。最为典型的分类方法是基 于决策树的分类方法。 4预测型知识发现。预测型知识是根据事件序列型数据,由 历史的和当前的数据去推测未来的数据 也可以认为是以时间为 关键属性的关联知识。比如 在零售业中根据先前的销售数据 预测未来销售中每种商品的收益,这是一 (数值)预测的例子。 目前.回归分析是~种最常使用的数值预测的统计学方法. 此外还有神经网络、机器学习等多种方法。 5聚类分析。聚类分析处理的数据是无事先确定的类别归属, 是把整个数据库分成不同的群组。它的目的是要群与群之间差别 很明显,而同一个群之间的数据尽量相似。 在零售业中利用聚类可以帮助市场分析人员从客户的基本库 中发现不同的客户群,并且用购买模式来刻画不同客户群的特 征。此外.聚类分析可以作为其他算法(如特征和分类等)的预处 理步骤。聚类方法主要有两大类,包括统计方法和神经网络方法。 6离群点分析。数据集中那些不符合大多数数据对象所构成 的规律(模型)的数据对象被称为异类或离群点。 大部分数据挖掘方法很容易: 离群点视为噪声或异常而丢弃。 然而在某些特定应用场合(如商业欺诈行为的自动检测),小概率 发生的事件(数据)比经常发生的事件(数据)更有挖掘价值。 常使用异常探测方法来发现离群点,实现异常探测可以用基 于统计、基于距离、)基于偏离的方法。 四、结束语 通过研究和实际应用了解到 数据挖掘并不是万能的,在通 过数据挖掘得到一些有意思的结果之后,还要进行相应的市场分 析.用户行为分析和用户访谈 了解数据背后消费者的心理。 虽然数据挖掘在零售业中的应用有许多成功的案例(多数都 在国外),然而在具体实施中还有一些的问题 挖掘算法的改进 和计算效率提高 模型的合理性和易懂性 与其他系统的集成问 题,网络与分布式环境下的KDD问题,个人隐私问题 数据规模 超大或太小.另外还可能有观念意识问题,基础条件不成熟问题, 这些都有待于进一步研究。 参考文献: [1]Shortland R.Sc&rfe R.Digging for Gold.iEE P ̄eview.1 995(5) 41.21 5~21 7 [2]范明孟小峰(译):a Tljiawei et&i.数据挖掘:概念与技术 北京:机械工业出版社.2 0 0 7 《齑场现代化 2009年2月(下匐 总第567 ̄i 6l