基于Web挖掘的个性化网络教学系统的设计与实现
来源:五一七教育网
维普资讯 http://www.cqvip.com 第27卷 2007年6月 文章编号:1001—9081(2007)S1—0031—03 计算机应用 Computer Applications Vol-27 JuBe 2007 基于Web挖掘的个性化网络教学系统的设计与实现 鲜学丰 ,杨雪 (1.苏州市职业大学计算机工程系,江苏苏州215104; 2.南京工程学院工程实验与实训中心,江苏南京210000) (svcxxf@163.com) 摘要:设计了一种基于Web挖掘的个性化网络教学系统,该系统结合Web使用挖掘、web内 容挖掘和Web结构挖掘的挖掘结果为学生提供个性化的推荐服务,即使在使用数据比较少,或教学 内容变化比较频繁的情况下,也能为学生提供高质量的个}生化推荐服务。 关键词:个}生化教学;Web挖掘;个性化推荐 中图分类号:TP311 文献标识码:A Web结构挖掘模块。Web使用挖掘模块首先对学生学习过 程中在网络教学Web站点的Web服务器上留下的log ifles 0 引言 近年来兴起的基于Web的网络教学方式,由于采用网络 进行预处理得到的事务文件,然后对事务聚类分析获取用户 的使用特征。Web内容挖掘模块首先预处理所有教学资源 (网络教学w幽站点内容)得到内容,然后对内容聚类分析获 取页面的内容特征,Web结构挖掘模块首先预处理网络教学 Web站点内部不同页面之间的相互链接情况。然后对结构聚 技术作为支撑,在教师和学生、学生和学生之间提供了便捷快 速的通信渠道,成为远程教学的主要发展方向。 国内许多教学机构都开展了网络课程教学或学习,当前 的网络教学系统的体系结构”J一般由三部分组成(如图1), 分别是教学资源库、学习平台和学生。教育资源库是一个媒 体服务器,存储各种类型的教育资源;学习平台是一个Web 服务器,通过Web的方式把教学资源展现给学生,学生可以 自由的选择学习资源。但是这种模式在教学与学习过程中缺 乏智能性,对于不同的知识水平的学生和不同的教学内容难 类分析获取页面结构特征。Web挖掘得到的使用特征、内容 特征和结构特征供在线部分的推荐引擎直接使用。由于数据 预处理和Web挖掘的时间开销比较大,不能满足个性化网络 教学系统为学生提供推荐服务的实时性要求,所以必须将这 两个操作离线处理,在线部分的推荐引擎根据学生个人的学 习路径(当前会话)结合Web挖掘结果向其推荐个性化的学 习资料,达到因材施教的目的。 Web Serverlogs I暾学资源(Web站点内容)llWeb站点结构 以实现因材施教;难以适应各类学生各方面的个性化需求。 图1传统网络教学系统 I使用We挖b| l捌Web内容挖捌 1 .针对传统网络教学系统的缺点本文设计了一种基于Web 挖掘的个性化网络教学系统。个性化网络教学系统将传统教 学系统中的学习平台进行了改进,在此引入个性化处理引擎 = 二 内容特征 使用特征 和推荐引擎为学生提供个性化的推荐服务,使得网络教学系 统能够根据学生的个性特点有针对性的提供教学资源。在引 入个性化方法的网络教学系统中,每个学生在学习过程中会 产生不同的浏览序列,这些浏览序列反映了不同的学生有着 不同的学习进度和层次,个性化方法会根据学生个人的学习 路径向其推荐学习资料,达到因材施教的目的。 =一下。已能为学生提供高质量的个性化推荐服务。 [ 图2基于Web挖掘的个性化网络教学体系结构 基于Web挖掘的个性化网络教学系统分为离线部分和 1 体系结构 图2描述了基于Web挖掘的个性化网络教学系统的体 系结构。该体系结构主要包括两个部分:离线部分和在线部 分。离线部分由个性化处理引擎、各种教学资源和网络教学 Web站点信息组成。该部分主要对各种数据进行预处理并进 行Web挖掘获取使用特征、内容特征和结构特征。在线部分 由推荐引擎组成,其主要根据学生当前学习路径和Web挖掘 的结果为学生提供有效的个性化学习资料推荐。 个性化处理引擎是实现个性化网络教学的核心部分主要 由三部分组成:Web使用挖掘模块、Web内容挖掘模块和 收稿日期:2006—08—28 在线部分两部分。由于实现了离线部分和在线部分的分离, 从而能适应较大规模的个性化网络教学系统数据多的特点, 提高为学生推荐个性化的学习资料的实时响应速度。同时, 由于该模型集成了Web使用挖掘,Web内容挖掘和Web结 构挖掘的挖掘结果提高了为学生推荐个性化学习资料的质 量,即使在使用数据比较少,或教学内容变化比较频繁的情况 2模块分析与实现 下面主要分析该体系结构中实现对学生的个性化服务的 作者简介:鲜学丰(1980一),男,四川西充人,助教,硕士,主要研究方向:智能信息处理及应用、web挖掘;杨雪(1982一),女,云南曲靖 人,助教,硕士,主要研究方向:软件工程. 维普资讯 http://www.cqvip.com 32 计算机应用 2007血 两个关键模块:个性化处理引擎和推荐引擎。 经过上述处理,每一个聚类的使用特征都可以表示为原始页 2.1个性化处理引擎 面空间中的 维向量。 个性化处理引擎是实现个性化教学的关键,主要有三部 2.1.2 Web内容挖掘模块 分构成:Web使用挖掘模块、Web内容挖掘模块和Web结构 基于Web挖掘的个性化网络教学系统运用Web内容挖 挖掘模块。 掘 技术实现个性化的基本思路是:根据学生所访问的 2.1.1 Web使用挖掘模块 Web页面内容之间的相似性为学生提供学习资源的个性化 基于Web挖掘的个性化网络教学系统运用Web使用挖 推荐。 掘 0 技术实现个性化的基本思路是:根据学生学习过程中 Web内容挖掘预处理是从网络教学Web站点所有页面 会产生的浏览序列之间的相似性为学生提供学习资源的个性 的文本数据和元数据中抽取相关内容。本文主要对XML或 化推荐。 HTML中包含的元标记以及页面中包含的文本内容进行内容 首先对网络教学Web站点的Web服务器log ifles进行预 抽取。文本内容权重的计算方法为:元数据的权重由网络教 处理主要包括数据清理、用户识别、会话识别、路径完善和事 学Web站点的设计者提供,文本内容的权重本文采用信息检 务识别等。对Web服务器日志进行预处理最终得到在事务 索领域广泛使用的词频反文献频率决定。 数据库中出现的所有页面的集合P表示为:P={P ,P ,…, 经过预处理最终可以得到从网络教学Web站点所有页 },其中每个页面p 通过其URL地址唯一表示。用户事务集 面中抽取的内容集合F,表示为:F={ ,… }。同时,每 合 表示为:T={t ,t2,…,t },用户事务集合中的每一个事 个页面P可以表示为内容空间上的k维向量,k为从网络教学 务t T均为页面集合P的子集。为了后续的聚类挖掘,用户 Web站点所有页面中抽取的内容(包括文本内容和元数据) 事务集合中的每一个事务t T可以转换为页面空间上的n 的个数。向量的每一维表示页面在该内容维上的权重。即页面 维向量,即: P可以表示为: t=<uw(pl,t),uw(p2,t),…,uw(p ,t)> (1) P=<fw(p )oC ̄(p ),… ̄rw(p )> (5) uw(p ,t)为页面P P在事务t T上的权重,确定权重 (p )为页面P P在内容 F上的权重。最后,为 大小的方法很多。例如:如果用户访问了该页面,则其权重为 了将元数据与文本内容结合起来必须对它们进行一致化处 1,否则为0,已可以将用户在该页面的停留时间作为权重,还 理。 可以将用户在该页面的停留时间与该页面中字符数目的比值 为了与使用特征表示保持一致性,本文用向量形式表示 作为权重。从而可以表示用户对该页面感兴趣的程度。本文使 内容。在内容挖掘中,聚类过程尽量将内容比较相似的页面聚 用0—1权重表示方法,即: 集到同一个聚类中。首先,将数据预处理阶段得到的页面内容 u ( ):.f矩阵的行列互换,每一个内容看作是页面空间上的n维向量。 tO,otherwise , (p ‘ (2) 使用聚类算法对内容进行聚类分析,聚类结果可以用一个内 经对网络教学Web站点的Web服务器log ifles进行预处 容聚类集合FC表示:FC={ ,… },每一个内容聚类 理得到的事务文件可作为很多数据挖掘算法的输入。本文使 由一系列内容组成。本文中采用K.means算法对Web页面 用聚类算法对数据预处理阶段获取的事务文件进行聚类分 的内容进行聚类。每一个聚类对应一部分学生访问的兴趣模 析,得到不同的事务聚类,从而使得同一个事务聚类内学生之 式,用聚类中心表示。每个中心由一组反映学生的兴趣主题的 间的浏览兴趣尽可能相似,而不同事务聚类中的学生之间的 词构成,作为学生的兴趣模式。 浏览兴趣尽可能的不同。聚类的结果可以用一个事务聚类集 与使用特征表示类似,给定一个内容聚类 和显著性阈 合 表示:TC={tcl,tc2,…,tc },每一个事务聚类tc‘由一 值r,构造其内容特征c 的方法如下: =系列事务组成。但是事务聚类本身并不能反映该事务聚类内 {<P,weight(p, )>J P∈P,weight(p, )≥,} 学生的兴趣特征,因为一个事务聚类内可能包含数千个事务 (6) 和数百个页面,对事务进行聚类的目的是为了得到所有页面 weight(p, )为页面p在内容特征cr 中的权重,计算方 在事务聚类中的权重,页面在事务聚类中的权重表示页面对 法如下: 该事务聚类中用户的价值。 ∑ (p 目前表示事务聚类使用特征的主要方法为文献[4]提出 weight(p,c )= —~ (7) 的PACT(Profile Aggregation on Clustering Transactions)。对每 ∑ (p 一个事务聚类tc TC,计算该事务聚类的平均向量p ,从而 (p 为内容 在页面P上的权重。经过上述处理,每一 可以用 代表该事务聚类的使用特征。同时,为了保证个性 个聚类的内容特征已可以表示为原始页面空间中的 维向 化推荐的精确性,需要将支持度小于指定显著性阈值的页面 量。 过滤掉。 2.1.3 Web结构挖掘模块 给定一个事务聚类tc和指定的显著性阈值 ,事务聚类tc 基于Web挖掘的个性化网络教学系统运用Web结构挖 的使用特征p 的计算方法如下: 掘 技术实现个性化的基本思想是:如果有许多浏览页都同 pr ={<P,weight(p,pr )>l P∈P, 时链接到页面A和页面B,则可以认为页面A和页面B之间 eight(p,pr )≥ } (3) 具有一定的关联性。如果一个学生访问了浏览页A,则浏览 weight(p,pr )为页面P在事务聚类tc的使用特征p 中 页B对用户而言很可能是有价值的,从而可以给学生推荐页 的权重,其计算方法如下: 面B。 1 一 Web结构挖掘预处理是从网络教学Web站点中获取内 weight(p,pr )= uw(p,£) (4) …。“ k 部不同页面之间的相互链接情况,如果两个页面的链入情况 u (P,t)为页面P在事务聚类tc中事务t∈tc上的权重。 比较相似,则可以认为两个页面之间存在一定关联。为了计 维普资讯 http://www.cqvip.com 6月 鲜学丰等:基于Web挖掘的个性化网络教学系统的设计与实现 学生当前会话 可以表示 维向量如下: s=<uw(p1,s),uw(p2,s),…,uw(p ,s)> 33 算页面链入之间的相似性,必须对页面的链人情况给定不同 的权重。 经过预处理,设所有页面集合P表示为:P={P。,P ,…, P },则每个页面可以表示为所有页面空间上的Ⅳ维向量。即 页面P可以表示为: P=<sw(p,P1),sw(p,P2),…,sw(p,P )> (8) sw(p,P )为页面P E P在页面P E P上的权重。如果页面 (14) (15) 其中本文uw(p )的取值为: 埘(pl,s): (pi lO,otherwise 本文使用余弦相似性函数来度量c和s之间的相似性系 . p 存在一个到页面p的链接,则其权重为1,否则权重为0。用 公式表示如下: ∑w uw(p )) se(p,p, ={P1):f ,如果p链接到p (9) match(S,C)=—√∑(_==兰=埘二 =) ∑(=======uw(=二p二 )===) (16) tO,otherwise 为了便于处理,本文表示结构特征的方法和表示使用特 征以及内容特征的方法保持一致,在结构特征挖掘过程中,聚 类过程尽量将链人情况比较相似的页面聚集到同一个结构聚 类中。结构聚类本身并不能表示该结构聚类内部页面的结构 特征,对结构进行聚类的目的是为了得到所有页面在该结构 聚类中的权重,不同页面在结构聚类中的权重表示该页面对 该结构聚类中学生的价值。 对每一个结构聚类sc,计算出该结构聚类的平均向量 s ,从而可以用s 代表该结构聚类的结构特征。 与使用特征表示和内容特征表示类似,给定一个结构聚 类sc和显著性阈值 ,其结构特征s 的计算方法如下: s ={<P,weight(p,s )>J P E P,埘e ht(p,s )≥ } (10) weight(p,s )为页面P在结构特征 中的权重,其计算 方法如下: weight(p,s )= E sw(p,£) (11) I sc I sw(p,£)为页面P在页面£E P中的权重。经过上述处理, 每一个聚类的结构特征都可以表示为原始页面空间中的It维 向量。 使用特征、内容特征和结构特征均表示为原始页面空间 中的It维向量。这种一致化的表示方法使得在线的推荐引擎 可以方便的将它们集成起来以提高有效的个性化推荐服务。 2.2推荐引擎 推荐引擎是基于Web挖掘的个性化网络教学系统在线 部分的关键部件,其主要任务就是根据Web挖掘的结果和学 生当前会话产生实时的推荐集,在本文中推荐集指教学资源 网页的超链接。 一般而言,学生当前会话中的最后几个页面最能反映学 生的学习进度和层次。可以在学生当前会话中创建一个长度 为埘的滑动窗口,而滑动窗口中动态保存学生当前会话中最 后埘个页面,从而可以用这个滑动窗口代表学生的当前会话。 推荐引擎根据滑动窗口中的页面和Web挖结果产生最终的 推荐。 本文中,使用特征、内容特征和结构特征均表示为页面空 问上的n维向量;同时,学生当前会话也可以转换为页面空间 上的n维向量。下面我们以使用特征为例说明推荐集产生方 法(内容特征和结构特征与之类似):即如果c表示一个使用 特征,则c可以表示为: c={埘 ,埘;,…,埘:} (12) 其中本文埘 的取值为: c 『weight(pi,C),if(p E C) ,1¨ 埘 一10。the ise ¨ . 给定一个特征c和学生当前会话s,计算页面p的推荐系 数Rec(s,P)的方法如下: Rec(s,P)= ̄/weight(p,C) match(s,C) (17) 如果页面p在学生当前会话s中,则其推荐系数Rec(s,P) 赋值为0,给定学生当前会话s,使用特征集uP和最小推荐系 数阈值r,基于使用特征的推荐集为: REC使用(s)={埘 J c E uP,and Rec(s,埘 )≥r}(18) 同理根据学生当前会话s,内容特征集和结构特征集以及 它们各自最小推荐系数阈值得到基于内容特征推荐集 REC内容( )和基于结构特征推荐集冗 c结构( )。 合并REc使用(s),REC内容(s)和船c结杓(s)得到集合推荐 集REC(s),本文选择REC(s)中推荐系数最大的前k个作为 最终的推荐集。 3 结语 Web挖掘技术在网络教学系统中的应用提高了系统个 性化服务水平,使教学系统能根据学生知识结构、学习风格进 行个性化教学,以提高学生学习的积极性和主动性。随着 Web挖掘技术的日渐成熟,在网络教学中有着广阔的前景。 本文提出的基于Web挖掘的个性化网络教学系统集成了 Web使用挖掘,Web内容挖掘和Web结构挖掘三种方法并对 它们的挖掘结果进行了一致化处理,从而可以极大地提高网 络教学系统为学生提供个性化推荐服务的质量。 参考文献: 【1】 高鹏,高岭,胡青山,等.基于Web挖掘的个性化推荐算法及其 在网络教学平台的应用【J】.计算机应用,2005,25(5):1012— 1015. [21 MOBASHER B.Web usage mimng and personalization[MI.Chap— man Hall&CRC PI∞s,Baton Rouge,2004. 【3】MOBASHER B,DAI H,LUOT, a/.Discovery ofAggregate Us— age ProfilesforWeb Personalization[AI.In Proceedings oftheWeb Miningfor E—commerceWorkshop[C】.2000. 【41 MOBASHER B,DAI H,NAKAGAWA M,el a1.Discovery nad E— valuation of Aggregate Usage Profiles for Web Personalization【J】. Data Mimng and Knowledge Discovery.2002.6:61—82. [51 CHAKRABART S.Data Mining for Hypene)【t:A tutorila survey 【C】.ACM SIGKDD Explorations,2000. [61 MOBASHER B,DAI H,LUO T,d a1.Intergrating Web Usage and Content Mining ofr More Effective Personalization[AI.In Proceed— ings of the International conference on E—Commerce and Web Technologies[C】.2000. [71 ZHANG D,DONG Y.An Efifcient Algorithm to Rank Web Re一 8ouI ̄e[A】.In Proceedings of5 World Wide Web Conference[C】. 2000.