谱系聚类法论文三篇

2024-09-11

谱系聚类法论文篇1

决策是指人们为了达到某一目的而进行的有意识、有选择的行动。随着网络、通讯技术的发展, 人们做出决策所依赖的手段越来越发达, 同时, 人们所面对的决策对象也越来越复杂[1], 因此, 面对复杂的决策对象不能依赖某一个人的能力做出决策, 必须由多人组成决策群体对复杂问题进行决策。

由于决策对象的复杂性, 对决策问题不能只作笼统的评价, 而应该对问题进行多角度的评价, 即面对复杂问题如有多个可供选择的方案, 对方案进行评价时应从多准则进行, 现有的参考文献大多是从决策方案的单一方面进行的, 由决策群体中的个体对方案集中的每个方案做出一个评价值, 最终在评价方案中择优, 有的方法虽然给出了不同决策者不同评价的不同偏好形式, 但也只是给出了方案的笼统评价值, 然后对不同偏好形式进行一致化, 最后择优。这些方法有其科学性, 但是也存在一定的不足, 因为不同的方案在不同方面各有优缺点, 因此评价各方案应该从方案的不同角度进行评价, 然后综合评价其优劣[2]。

在群体决策者对方案择优时, 择优方法较多。本文拟采用先将群体对同一方案的多准则做出评价值, 决策者对同一方案的评价形成一个矢量, 然后将各偏好矢量进行聚集形成聚集偏好矢量, 计算聚集偏好矢量, 再计算各方案的总偏好矢量, 最后选取最优方案集。

二、问题描述

群决策问题是从一个方案集X={x1, x2, ……xn} (n>=2) 中选择最优方案, 其中xi是第I个决策方案, 选择方案的依据是决策者对决策方案的偏好信息, 设决策群体集为D={d1, d2, ……, dm} (m>=2) , 其中dk表示第k个决策者。

设方案的评价准则有L个, 决策组中的第k个成员针对第I个决策方案关于这L个评价准则的判断值为uundefined, uundefined为群决策组中第k个成员对第I个方案的偏好矢量, 其值为uundefined={uundefined, uundefined, ……, uundefined}, I=1, 2, ……, n;k=1, 2, ……, m。

群决策组中成员的偏好矢量有接近或相似的可以将其聚类成同类子群体, 设Ωiv为属于第I个方案的第v个聚集, 如果同一方案的群决策组可以聚类成w个聚集, 则undefined, 聚类的基本原则是在多个偏好矢量之间的两两距离中寻找最小值, 将其聚为一类。

定义1:两个偏好矢量之间的欧氏距离。两个偏好矢量uik1与uik2之间的欧氏距离为undefined, 其中xundefined1表示I个方案第k1决策者的偏好矢量, xundefined2表示第I个方案第k2决策者的偏好矢量, dik1k2表示第I个方案k1决策者与k2决策者之间的欧氏距离, 即表示k1、k2决策者对第I个方案偏好矢量的接近度[3]。

本文以dik1k2作为同一方案中群体聚类的基础, 将群决策组分成若干聚集, 然后计算群决策组对某一方案的偏好矢量。

三、算法

(一) 谱系聚类方法介绍。

在植物分类学中, 分类的单位是:门、纲、目、科、属、种, 其中种是分类的基本单位。分类单位越小, 它所包含的植物就越少, 植物之间的共同特征就越多。利用这种分类思想, 我们建立谱系聚类分析模型。

谱系聚类是一种逐次合并类的方法, 最后得到一个聚类的二叉树聚类图。其基本思想是[4], 对于n个观测, 先计算其两两之间的距离, 得到一个距离矩阵, 然后把离得最近的两个观测合并为一类, 于是剩了 n-1个类 (每个单独的未合并的观测作为一个类) 。计算这 n-1个类两两之间的距离, 找到离得最近的两个类将其合并, 就剩下了 n-1个类……直到剩下两个类, 把它们合并为一个类为止。

(二) 基于谱系聚类的群决策算法。

步骤1:将M个决策者对第I个方案的评价值列为偏好矩阵, 计算偏好矢量两两之间的欧氏距离。

步骤2:比较欧氏距离值, 将欧氏距离值最小的两个偏好矢量聚集为ck。

步骤3:对ck中两矢量进行线性组合, 计算聚集的偏好矢量。

定义2[5]:聚集的偏好矢量。对于第k个聚集ck, 使用矢量相加的方法来计算该聚集ck的偏好, 即undefined。

对GK进行标准化, 得单位矢量, 并记为G′k, 即undefined, 将聚集的偏好视为一个新的决策偏好矢量。重复第2、3步骤。

步骤4:计算第I个方案的综合偏好矢量值, 将L个属性值相加得第I个方案的偏好矢量值。

步骤5:计算第I+1个方案的综合偏好矢量值, 重复步骤1、2、3、4、5步骤, 直到第N个方案的综合矢量值计算完毕。

步骤6:将N个方案的综合偏好矢量值进行比较, 找出最大值, 确定其为群决策的最优方案。

四、算例

设某企业有一投资计划, 现有两个投资方案, 聘请5个专家对该两个方案进行评价, 每个方案有5个属性, 方案一的评价值如表1所示, 方案二的评价值如表2所示[6]。

根据上述算法, 其计算过程如下

(一) 第一次聚类。

undefined同样的算法计算出:d113=0.1009;d114=0.8022;d115=1.1545;d123=0.9175;d124=0.6949;d125=0.9453;d134=0.7592;d135=1.1175;d145=1.2626

其中d113值最小, 表明在第一个方案中第一次聚类时, 第一、三决策者之间的距离最小, 因此v1、v3聚集, (v1.v3) = (0.64, 0.36, 0.027, 0.64, 0.22)

(二) 第二次聚类。

d1 (1, 3) 2=0.9260; d1 (1, 3) 4=0.7684;d1 (1, 3) 5=1.1867;d124=0.6949;d125=0.9453;d134=0.7592;d135=1.1175;d145=1.2626

其中d124值最小, 表明在第一个方案中第二次聚类时, 第二、四决策者之间的距离最小, 因此v2、v4聚集, (v2.v4) = (0.71, 0.39, 0.53, 0.13, 0.23)

(三) 第三次聚类。

d1 (1, 3) (2, 4) =0.7204;d1 (1, 3) 5=1.1867; d1 (2, 4) 5=1.0953

其中d1 (1, 3) (2, 4) ;

undefined值最小, 表明在第一个方案中第三次聚类时, (v1.v3) 、 (v2.v4) 聚集, ( (v1.v3) . (v2.v4) = (0.72, 0.40, 0.30, 0.41, 0.24)

(四) 第四次聚类。

undefined

方案一的综合评价值为:2.23

同样的计算方法, 算出方案二的综合评价值为2.35。

通过计算与比较, 方案二更优。

五、结语

随着网络技术和知识经济的发展, 基于多准则的问题评价越来越多。多准则决策问题不同于单准则决策问题, 评价每一方案的准则有多个。因此, 多准则决策问题相对于单准则决策问题的要复杂得多。到目前为止, 已有很多决策理论与方法来分析该问题[7], 各种方法各有优点和不足。本文依据决策者对方案的评价值, 先将决策者进行聚类, 然后综合评价各方案的优劣。该方法先进行聚类有利于消除个别决策者的评价值太大而影响整个评价值。因此对决策评价值相对公平, 所选的方案相对较优。

摘要：决策者对方案评价值的分布不均匀不利于正确评价各候选方案。本文先将决策者进行聚类, 聚类的依据是决策者对方案评价值之间的欧氏距离, 然后计算聚类的整体偏好矢量, 再根据整体偏好矢量的综合评价值来区分各方案的相对优劣, 最后, 用了一个计算实例来说明该方法的可行性。

关键词：谱系聚类,群决策,欧氏距离

参考文献

[1].陈晓红, 周艳菊.基于层次模型法的互联网环境下的群体决策支持系统[J].中国管理科学, 2001, 9 (6) :49～57

[2].徐选华, 陈晓红.基于矢量空间的群体聚类方法研究[J].系统工程与电子技术, 2005, 27 (6) :1034～1037

[3].包剑, 冀常鹏, 李义杰.基于矢量空间模型的文本自动分类系统研究[J].计算机系统应用, 2005, 3

[4].Pondy L.Organizational conflict:concepts and models[J].Ad-ministrative Science Quarterly, 1967, 12:296～320

[5].肖四汉, 樊治平, 王梦光.群决策中两类判断矩阵的一种集成方法[J].控制与决策, 2001, 16 (5) :569～572

[6].曾爱青.基于人力资本贡献价值的统计计量.统计与决策 (理论版) , 2007, 10:147～149

谱系聚类法论文篇2

关键词：网络学习；统计学；系统聚类分析；网络学习行为

中图分类号：G434 文献标志码：A 文章编号：1673-8454（2016）08-0090-04

习近平主席2015年在致国际教育信息化大会的贺信中明确提出推动教育变革和创新并构建网络化、数字化、个性化、终身化的教育体系是人类共同面临的重大课题[1]。伴随互联网、云计算以及大数据等现代信息技术手段对人类思维和学习方式的影响，网络化、个性化的数字化学习方式在今后的教育变革中将会是一个必然的趋势。尽管网络化学习地位日益得到重视，但网络学习也面临着难以实时掌握学习者学习情况的困境，教师也就不能针对性地为学习者提供个性化服务干预，也无法真正地促进教与学。本研究旨在解决网络学习中遇到的以上问题，针对网络学习平台中学习者的相关学习行为数据进行数据挖掘并展开网络学习行为分析，从统计学视角提出系统聚类分析方法，根据不同学习者的相似特性对学习者进行聚类分析，最终分析出具有相似学习行为的学习者，为教师开展个性化教学以及协作式学习和研究型学习小组的划分提供依据，以期促进个性化网络学习更好的发展。

一、网络学习行为分析

关于网络学习行为的界定，不同研究学者对其有不同的理解，彭文辉等对网络学习行为做出以下定义：网络学习行为是指学习者在由现代信息技术所创设的、具有全新沟通机制与丰富资源的学习环境中开展的远程自主学习行为。网络学习行为活动主要依靠学习者自己控制，以学习者具备一定的信息技术能力为前提，同时受学习者内部心理因素和外部环境因素共同影响，通过充分利用网络环境进行学习和教学的一种活动[2]。网络学习行为在网络环境下发生完成，由学习者利用计算机和网络资源进行自我控制、自主学习，学习者可以根据自身内部条件和外部环境条件来自行决定学习时间、学习时长、学习频次、参与互动频次以及完成作业情况等。为促使网络学习能够真正实现个性化学习，我们需要对学习者的网络学习行为数据进一步挖掘和分析，以学习者的学习时间、学习时长、学习频次、参与互动频次以及完成作业情况等为衡量指标，展开对学习者网络学习行为的分析，以期促进网络学习更好地实现个性化发展。

二、系统聚类分析法

“物以类聚，人以群分”，为了进一步认识和研究对象，我们往往需要将事物按照各种属性和特征分成若干类别。聚类就是按照事物之间的相似性将其区分并加以分类，聚类分析是一种对事物对象进行定量分类的探索性多元统计分析方法。聚类分析一般常用来找出具有相似性质的一类群组，首先必须明确其兴趣特点，确定一个有效的衡量对象主题之间相似性和距离的措施，然后再选择一个能够将个体进行聚集并定义集群的算法[3]。

聚类分析方法经过长时间发展，已经逐渐形成了一套完整的方法体系。在聚类分析方法体系中，有比较经典的非层次聚类分析法和层次聚类分析法，以及近年来发展的一系列智能聚类分析方法，在如此众多的聚类方法中挑选出一种适合的聚类分析方法就显得尤为重要。聚类分析是一种探索性数据分析方法，针对不同的数据就有不同的适用方法，可以从聚类对象的类型、聚类的数据量的多少以及聚类的变量类型等角度考虑聚类分析方法的最佳选择[4]。鉴于本研究是针对云南大学网络与信息中心现代教育技术专业25名硕士生的网络学习行为进行聚类分析，综合考虑以上各种因素，本研究采用最为适合的系统聚类分析方法。

1.系统聚类分析概述

系统聚类分析方法就是根据样本之间的距离对样本进行分类的聚类方法[5]。系统聚类法根据其类与类之间距离的计算方法不同可以分为最短距离法、最长距离法、中间距离法、重心法、类平均法、可变类平均法、可变法以及离差平方和法。在众多方法中，与类平均法相比较，最短距离法、重心法使空间浓缩，最长距离法、离差平方和法使空间扩张。过于浓缩的方法不够灵敏，过于扩张的方法容易失真。类平均法既不太浓缩又不过于扩张，显得比较适中且聚类效果更好[6]。本研究采用类平均法进行系统聚类分析。

2.系统聚类分析过程

系统聚类分析法的基本思路是，首先将n个需要聚类的样本（或m个指标变量）均各自划分成一类，然后规定并计算样本间的距离（或变量间的相似系数）以及类与类之间的距离（或相似系数）。初始状态下，每个样本（或变量）即为一类，此时类之间的距离（或相似系数）和样本之间的距离（或变量间相似系数）是等价的。接下来合并距离最小的两类（或相似系数最大的两类）为一新类，并计算新类与当前其它各类之间的距离（或相似系数），构成新的距离（或相似系数）矩阵，再次将距离最小的两类（或相似系数最大的两类）合并成新类。每进行一次合并，类就相应的减少一个，如此重复并类，直至达到所有样本均合并为一类为止[7]。系统聚类分析流程见图1。

由图1可知，在系统聚类分析过程中，需要规定样本间距离，本研究采用的样本间距离是欧式距离（二阶Minkowski距离），欧式距离是空间中两个样本点（如样本点i和j）在m维指标变量上差值平方和的平方根，其计算过程中运用了空间点上所有的数据信息，因此反应灵敏，是聚类分析中较为常用的距离，其计算公式可以表示为：

系统聚类分析中，各类之间的距离采用的是类平均法（组间联接法），其聚类效果表现最为优异。类平均法是用两个类别间各数据点两两之间的平均平方距离来表示两类间距离的平方，其公式可以表示为：

如果类Gp和类Gq合并成新类Gr={Gp，Gq}，并且nr=np+nq，则任意类Gk与新类Gr距离公式为：

反复重复系统聚类分析流程图中的步骤5和步骤6，最后判断并类后的最终类的个数是否为1，达到所有样本最终归为一类即终止本次聚类并绘制聚类谱系图，然后决定本次聚类后的分类个数及各类成员。

三、网络学习行为分析中系统聚类分析法的应用

基于网络的在线学习，可以实现全面记录、跟踪、掌握和可视化学习者的不同学习特点、学习需求、学习基础和学习行为，为不同的学习者建立学习模型并为不同类型的学习者打造个性化的学习路径，做到因材施教，以实现真正的个性化教学[8]。本研究旨在通过收集网络教学平台中与学习者相关的网络学习行为数据，进而展开对学习者的网络学习行为分析，并通过系统聚类分析方法找出具有相似学习行为习惯的学习者，以便为教师开展个性化教学和协作式教学小组的划分提供依据。接下来本文将结合一个实际案例分析来详细说明在网络学习行为分析中如何来运用系统聚类分析方法展开分析研究。

1.案例介绍

为了更进一步说明系统聚类分析方法是如何在网络学习行为分析中加以应用的，研究采用实际案例分析的方法来进行相关的阐述和说明。本文借鉴前期的相关研究工作，选取云南大学网络综合教学平台中现代教育技术专业25个硕士研究生的网络学习行为数据作为案例分析的数据来源，为了能够收集到更加具体的网络学习行为数据，本研究仅选择这25个学生在《教学过程与资源评价技术》这门课程中的相关网络学习行为数据，首先在Excel中对数据进行预处理，然后将数据导入到IBM SPSS Statistics 19软件中进行系统聚类分析，最终根据聚类分析的结果进行相关解释，以期更加清晰地阐述系统聚类分析方法在网络学习行为分析中的应用。

2.数据分析

（1）数据提取

在云南大学网络教学综合平台数据库中收集到现代教育技术专业25名硕士研究生针对《教学过程与资源评价技术》进行网络学习行为的相关数据，所涉及到的学习者学习行为数据包括学习者平台登录频数、进入课程频次、课程讨论区交互频次、阅读课程通知频次、阅读课程教学材料频次、上交课程作业频次以及在线学习时长等，在Excel中对相关数据进行筛选和预处理，以便提取对网络学习行为分析有显著作用的数据，为后续进一步系统聚类分析提供数据源。网络教学综合平台中关于学习者网络学习行为相关数据的预处理结果见表1。

（2）聚类结果分析

在IBM SPSS Statistics 19软件中导入经Excel表格预处理的数据，以“平台登录频次”、“进入课程频次”、“课程讨论区交互频次”、“阅读课程通知频次”、“阅读课程教学材料频次”、“上交课程作业频次”、“在线学习时长”为聚类分析的目标变量，由于本研究采用的是SPSS软件进行系统聚类分析，需要对原始目标变量进行标准化转换，选择的转换标准是Z scores，聚类方法选择类平均法，计算距离选择的是欧式距离。聚类过程的结果见图2。

由图2可知，聚类过程的结果图是对每一阶段聚类结果的反映。在图2的基础上，可以绘制出聚合系数（Coefficients）随分类数变化的曲线图，如图3所示。

在系统聚类过程中，优先把距离小的两类进行合并，因此在合并类的过程中聚合系数（Coefficients）呈现出递增趋势。聚合系数越小，表明合并的两类之间的相似程度越大；聚合系数越大，说明两类之间的差异性就越大。针对分类数的确定，可以在聚合系数随分类数变化曲线图中曲线开始变得平缓的点选择合适的分类数[6]。由图3可以得知，当分类数为3或4的时候，聚合系数曲线变得比较平缓，说明可以按照学习者的网络学习行为习惯的异同将25个硕士研究生分成3类。

经过系统聚类后，相应地会生成聚类谱系图（亦叫树状聚类图），但其本身并没有具备对样本进行分类的功能，而是通过反映样本之间亲疏关系的并类过程来为样本最终的分类提供依据。聚类谱系图如图4所示。

由图4可以得知，根据分类个数可以得出分类详情。根据聚合系数随分类数变化的曲线图，最终选择分类数为3，根据图4可以选择从距离大概为15的地方进行类的划分，得到的分类详情结果如下：{1：Student4，Student7}；{2：Student2，Student8，Student11}；{3：Student1，Student3，Student5，Student6，Student9，Student10，Student12，Student13，Student14，Student15，Student16，Student17，Student18，Student19，Student20，Student21，Student22，Student23，Student24，Student25}。如果从网络学习行为的活跃度视角来考虑所做的分类的话，那么第一类的两个学习者就应该是网络学习行为较为活跃的群体，第二类的三个学习者就应该是网络学习行为活跃度较为适中的群体，第三类的二十个学习者就应该是网络学习行为较为不活跃的群体，并且每一类群体中学习者的网络学习行为习惯较为相似。从不同的角度来分析网络学习行为的系统聚类结果，则会有不同角度的理解。如果从网络学习者学习能力的强弱角度做分类的话，那么第一类的两个学习者就应该是网络学习能力比较强的群体，第二类的三个学习者就应该是网络学习能力较为一般的群体，第三类的二十个学习者就应该是网络学习能力较弱的群体，并且不同类别的学习群体中每个学习者的网络学习能力均较为相似。教学过程与资源评价技术这门课程的任课教师可以根据网络学习行为的系统聚类分析的结果，将针对网络学习行为活跃度不同的学习群体来合理安排教学策略。针对网络学习行为较为不活跃的学习群体，教师可以采取相应的措施来激励这部分学习群体开展网络学习，同时还得注意需要维持网络学习行为活跃度较强的学习群体的学习积极性，充分高效地为教师采取正确的教学策略提供指导。针对具备不同网络学习能力的学习群体，教师可以充分考虑不同学习者的网络学习能力情况，充分利用不同学习群体中每个学习者网络学习能力的差异，然后可以合理安排协作式学习并科学地划分出协作式学习小组，充分利用群体中每个学习者的优势开展个性化的协作式学习，为教学决策者高效安排科学合理的教学策略奠定基础。总之，无论选取什么角度分析网络学习行为的系统聚类结果，均可以为实施个性化教学以及协作式教学小组的划分提供一定依据。本研究由于选取的实验样本数据有限，故系统聚类分析方法在网络学习行为分析中的应用研究还需要进一步广泛的实验验证，以确保其准确性和科学性。

四、结束语

随着在线学习的地位日益提高，网络学习在未来很有可能会发展成为一种主流学习模式，伴随网络学习模式的广泛推广和使用，网络学习也将面临着种种问题，那么网络学习平台中所记录的有关学生网络学习行为的数据能否帮助解决学习者在网络学习中面临的一些问题呢？这些问题都是值得我们去思考并进一步研究解决的。本文就如何促进个性化教学和协作式教学的发展问题给出了一种网络学习行为分析的方法，将系统聚类分析方法运用在网络学习行为分析上，以期能够帮助解决网络学习中面临的一些问题，最终促进网络学习更好的发展。

参考文献：

[1]习近平.习近平致国际教育信息化大会的贺信[EB/OL].http：//www.moe.gov.cn/publicfiles/business/htmlfiles/moe/moe_176/201505/187832.html.

[2]彭文辉，杨宗凯，黄克斌.网络学习行为分析及其模型研究[J].中国电化教育，2006（10）：31-35.

[3]Julia Y. K. Chan， Christopher F. Bauer.Identifying At-Risk Students in General Chemistry via Cluster Analysis of Affective Characteristics[J].Chemical Education Research， 2014，91（9）： 1417-1425.

[4]张文彤，董伟. SPSS统计分析高级教程（第二版）[M].北京：高等教育出版社，2013：305-306.

[5]李玉叶，胡静波.利用系统聚类分析方法研究内蒙古各行业就业形势[J].内蒙古民族大学学报（自然科学版），2015（2）：99-101，173.

[6]何晓群.多元统计分析（第四版）[M].北京：中国人民大学出版社，2015：59-61.

[7]王孝玲.教育统计学（第五版）[M].上海：华东师范大学出版社，2015：268-269.

[8]姜强，赵蔚，等.基于大数据的个性化自适应在线学习分析模型及实现[J].中国电化教育，2015（1）：85-92.