多分类问题十篇

2024-09-12

多分类问题 篇1

1.串联式

这种问题涉及的几个过程是先后出现的, 一般涉及一个物体的运动.解题的方法是按时间先后顺序将整个过程拆成几个子过程, 然后对每个子过程运用规律列式求解.

例1 (2007年全国II) 如图1所示, 在坐标系Oxy 的第一象限中存在沿 y 轴正方向的匀强电场, 场强大小为E.在其它象限中存在匀强磁场, 磁场方向垂直于纸面向里.A是y轴上的一点, 它到坐标原点O的距离为 h ;C是 x 轴上的一点, 到O的距离为L.一质量为 m, 电荷量为 q 的带负电的粒子以某一初速度沿 x 轴方向从A点进入电场区域, 继而通过C点进入磁场区域.并再次通过A点, 此时速度方向与 y 轴正方向成锐角.不计重力作用.试求:

(1) 粒子经过C点的速度大小和方向;

(2) 磁感应强度的大小B.

分析与解: 带电粒子先在电场中做类平抛运动, 然后在磁场中做匀速圆周运动, 轨迹如图2所示.处理类平抛运动可采用运动的独立性原理;对磁场中匀速圆周运动的处理基本方法是:找圆心、画轨迹、求半径, 然后用牛顿定律求解. 具体求解如下:

(1) 以 a 表示粒子在电场作用下的加速度, 有

qE=ma (1)

设粒子从A点进入电场时的初速度为v0, 由A点运动到C点经历的时间为 t, 则有

undefined (2)

l=v0t (3)

由 (2) (3) 式得undefined (4) 设粒子从C点进入磁场时的速度为 v, v 垂直于 x 轴的分量

undefined (5)

由 (1) (4) (5) 式得

undefined (6)

设粒子经过C点时的速度方向与 x 轴的夹角为 α, 则有

undefined (7)

由 (4) (5) (7) 式得

undefined (8)

(2) 粒子经过C点进入磁场后在磁场中作速率为v的圆周运动.若圆周的半径为R, 则有

undefined (9)

设圆心为P, 则PC必与过C点的速度垂直, 且有undefined.用β表示undefined与 y 轴的夹角, 由几何关系得

Rcosβ=Rcosα+h (10)

Rsinβ=l-Rsinα (11)

由 (8) (10) (11) 式解得

undefined (12)

由 (6) (9) (12) 式解得

undefined (13)

2.并列式

这种问题涉及的几个过程是同时出现的, 一般涉及到多个物体的运动.解决的关键是从空间上将复杂过程拆分成几个子过程, 然后对各子过程运用规律列式求解.

例2 (2007年全国I) 甲乙两运动员在训练交接棒的过程中发现:甲经短距离加速后能保持9 m/s的速度跑完全程;乙从起跑后到接棒前的运动是匀加速的, 为了确定乙起跑的时机, 需在接力区前适当的位置设置标记, 在某次练习中, 甲在接力区前S0=13.5 m处作了标记, 并以V=9m/s的速度跑到此标记时向乙发出起跑口令, 乙在接力区的前端听到口令时起跑, 并恰好在速度达到与甲相同时被甲追上, 完成交接棒, 已知接力区的长度为L=20m.

求:⑴此次练习中乙在接棒前的加速度a.

⑵在完成交接棒时乙离接力区末端的距离.

分析与解: 从乙听到口令开始, 便同时存在两种运动形式:一是运动员甲的一段匀速直线运动, 设其运动位移为s1;二是运动员乙在接力区内的匀加速直线运动, 当乙的速度达到9m/s时完成交接棒, 设乙接棒前运动的位移为s2, 并画出相应的图示, 如图3所示.具体解答如下:

⑴ 在甲发出口令后, 甲乙达到共同速度所用时间为:undefined

设在这段时间内甲、乙的位移分别为S1和S2, 则: S1=Vt

undefined

联立以上四式解得:undefined

⑵在这段时间内, 乙在接力区的位移为:

undefined

完成交接棒时, 乙与接力区末端的距离为:

L-S2=6.5 m

3.复合式

这种问题在时间和空间上均存在多个过程, 一定会涉及多个物体的运动.解题时要从时间和空间上将涉及的几个子过程一一拆分出来, 然后运用规律列式求解.

例3 (2007年广东) 如图4所示, 在同一竖直面上, 质量为2m的小球A静止在光滑斜面的底部, 斜面高度为H=2L.小球受到弹簧的弹性力作用后, 沿斜面向上运动.离开斜面后, 达到最高点时与静止悬挂在此处的小球B发生弹性碰撞, 碰撞后球B刚好能摆到与悬点O同一高度, 球A沿水平方向抛射落在水平面C上的P点, O点的投影O′与P的距离为L/2.已知球B质量为m, 悬绳长L, 视两球为质点, 重力加速度为 g , 不计空气阻力, 求:

⑴球B在两球碰撞后一瞬间的速度大小;

⑵球A在两球碰撞前一瞬间的速度大小;

⑶弹簧的弹性力对球A所做的功.

分析与解:本题可分成以下几个过程: (1) 小球A被弹簧弹出, 先做直线运动, 然后做斜抛运动; (2) 小球A与小球B碰撞过程; (3) 小球A做平抛运动, 同时小球B做圆周运动.具体解答如下:

⑴碰撞后, 根据机械能守恒定律, 对B球有:

undefined

解得:undefined

⑵ A、B球碰撞有:2mv0=2mvA+mvB

undefined

解得:undefined

⑶碰后A球做平抛运动, 设平抛高度为 y, 有:

undefined

解得: y=L

对A球应用动能定理得:

undefined

解得:undefined

4.循环式

这种问题的特点是几个过程不停地往返循环出现.解决的方法有两种:一是过程分段法, 二是过程整体法.

例4 (2007年江苏) 如图5所示, 一轻绳吊着粗细均匀的棒, 棒下端离地面高H, 上端套着一个细环.棒和环的质量均为 m, 相互间最大静摩擦力等于滑动摩擦力 kmg (k>1) .断开轻绳, 棒和环自由下落.假设棒足够长, 与地面发生碰撞时, 触地时间极短, 无动能损失.棒在整个运动过程中始终保持竖直, 空气阻力不计.求:

⑴棒第一次与地面碰撞弹起上升过程中, 环的加速度;

⑵从断开轻绳到棒与地面第二次碰撞的瞬间, 棒运动的路程S;

⑶从断开轻绳到棒和环都静止, 摩擦力对环及棒做的总功W.

分析与解:环和棒一起做自由落体运动, 然后棒与地发生碰撞, 接着棒向上做匀减速直线运动, 而环向下做匀减速直线运动, 当环与棒的速度相等后一起做匀加速运动.然后重复上述过程, 最终棒和环都静止在地面.分析清楚了物理过程, 问题容易求解.具体求解如下:

(1) 棒第一次与地面碰撞弹起上升过程中, 环做匀减速运动.设棒第一次上升过程中, 环的加速度为a环, 由牛顿第二定律得:

kmg-mg=ma环

解得:a环= (k-1) g, 方向竖直向上.

(2) 棒先做自由落体.设棒第一次落地的速度大小为v1

由机械能守恒得:undefined

解得:undefined

然后做匀减速运动.设棒弹起后的加速度为a棒, 由牛顿第二定律得:

a棒=- (k+1) g

棒第一次弹起的最大高度为:undefined

解得:undefined

所以, 棒运动的路程为:

undefined

(3) 解法一:过程分段法

棒第一次弹起经过t1时间, 与环达到相同速度v′1.

环的速度:v′1=-v1+a环t1

棒的速度:v′1=v1+a棒t1

环的位移:undefined环tundefined

棒的位移:undefined棒tundefined

环第一次相对棒的位移为:undefined

棒环一起下落至地: vundefined-vundefined=2gh棒1

解得:undefined

同理, 环第二次相对棒的位移为

undefined

环相对棒的总位移为:

x=x1+x2+……+xn

摩擦力对棒及环做的总功为:

undefined

解法二:过程整体法

从整个往返循环过程考虑, 根据能量转化与守恒, 摩擦力对环及棒做的总功W等于系统机械能的变化.因此不妨将过程综合起来解决.设环相对棒滑动距离为 l.

根据能量守恒 mgH+mg (H+l) =kmgl

摩擦力对棒及环做的总功为:W=-kmgl

解得:undefined

多分类问题 篇2

关键词:分类,分类器,动态集成

0 引言

分类技术是数据挖掘、机器学习及模式识别中一个重要的研究领域, 已在生物认证、手写体识别和文字识别、医疗诊断、图像识别、网络安全入侵检测等众多领域得到广泛应用。分类的准确性是衡量分类器性能的最重要指标之一, 集成分类器的目的在于获得高性能的分类结果。分类器集成主要是通过对多个单分类器进行组合来提高分类性能。尽管传统的集成分类技术已经应用到很多领域, 但随着科技的发展, 人们对应用结果有了更高的要求。这就意味着人们希望通过对传统的静态集成分类技术的改进, 得到满足应用领域深层次要求的高性能的集成算法。于是, 多分类器动态集成技术应运而生, 研究分类器集成技术以提高集成分类的性能指标, 已成为众多领域的研究热点。

1 多分类器集成

1.1 背景

分类器集成利用单分类器的互补功能, 获得比单个分类器更好的分类性能。按照是否针对待分类样本的具体特征来自适应地选取分类器, 得到静态集成 (Static Ensemble) 和动态集成 (Dynamic Ensemble) 两种多分类器集成方法。多分类器静态集成方法在训练过程中就将最终识别模型的分类器权重和数目都确定下来, 就这意味着在分类预测的过程中所有待分类样本均使用相同的识别模型。和静态集成方法相比较, 分类器动态集成方法在预测过程中会根据待分类样本的具体特征来自适应地选取适合的分类器进行集成, 这种特性说明动态集成具有更好的针对性和灵活性。另外, 分类器动态集成受抽取样本的影响小于静态集成, 可以显著提高分类系统的泛化能力, 进而有效地保证了分类的精度。

1.2 多分类器集成的框架

多分类器集成系统虽然可以有效提高分类的精度, 但是构造多分类器系统确是一个复杂的事情。由于目前对于多分类器集成技术的理论分析还不尽完善, 在应用的过程中主要依赖于学者们的实践经验。通常来说, 多分类器集成问题包含分类器集合的构造和组合方法两大部分。分类器集合构造部分用于生成多个分类器, 组合方法部分则是通过某种方法根据单个分类器的预测情况形成最终的判决, 其框架如图所示[1]。

在分类器集成系统中, 组成识别模型的单个分类器的输出形式要受到所使用的集成方法的影响。一般来说, 单个分类器有决策级输出、排序级输出和度量级输出三种主要的输出形式。通常而言, 集成的信息量和单分类器的输出等级有关。单分类器的输出级别越高, 所集成的信息就越丰富, 理论上可以获得的分类结果就越好。单分类器的三种输出形式如下:

(1) 决策级输出:没有其他附加的信息, 输出结果仅用于单纯的分类决策, 如身份识别后输出接受和拒绝两种结果;

(2) 排序级输出:通常用于目标类别数目众多的情况, 且输出的类别按可能性由大到小进行排序;

(3) 度量级输出:输出的结果为概率、信度、距离等度量值。

1.3 单分类器的设计

在单分类器的设计中, 一些方法考虑显示地实现分类器的多样性, 另一些方法则是隐含地实现了分类器的多样性。将已知的单分类器设计方法归纳如下:

(1) 在同一个训练集中生成一组不同类型的单分类器[2]。比如使用决策树、神经网络、贝叶斯分类算法训练单分类器, 将这些类型不同的单分类器作为集成所用的成员分类器。这组分类器在分类的侧重点和效果上存在差别, 并且所得分类结果的输出表示方法也不相同, 因此在使用这些单分类器集成分类结果的时候需要进行调整。

(2) 从初始的训练样本中抽取得到不同的训练集, 训练多个类型相同的单分类器[3,4]。这种方法通过可重复的随机抽样, 根据样本分类的难易程度分别赋予不同的权重得到多个训练集, 从而训练出一组具有多样性的单分类器。

(3) 根据样本的属性特征划分不同的训练样本子集生成多个单分类器, 实现分类器的多样性[5]。将一个大的特征向量空间划分为若干较小的特征空间, 分别构建一个单分类器, 再将这些单分类器集成到一起。这种方法比在整个特征空间中训练一个分类器获得更高的时间、空间效率。

(4) 通过调整训练样本的标记属性得到不同的训练集, 分别训练得到单分类器[6]。这种方法不仅改变了训练样本的标记属性, 同时也增加了训练样本标记属性的噪声, 从而实现分类器之间的多样性。

(5) 合并类别标号。对于类别数目较大的训练集, 随机将多个类别的样本划为两个子集, 并将同一子集中的训练样本归为一类。对于合并后的两类训练集用拟合算法训练单分类器。这种方法通过多次重复的随机类别合并得到成员分类器。

1.4 单分类器的集成方式

在训练得到一组单分类器之后, 即可进行单分类器的输出集成, 以获得待分类样本的目标类别。单分类器的集成分为全部集成和部分集成两种类别:

(1) 直接进行集成, 即是集成全部单分类器。如果通过训练集生成的单分类器分类精度和相互之间的多样性较高, 则可以直接采取某种集成方法来融合各个单分类器的输出结果。

(2) 进行选择性集成。许多集成方法都选择使用大量单分类以得到较高的分类性能, 但是这种做法会带来一些问题, 例如增加计算和存储的开销;随着单分类器规模的增加, 难以保证分类器之间的差异度等等。有研究证明只选择一部分适合的单分类器同样可以取得集成所有分类器的分类性能, 甚至得到更好的分类效果。这类研究方法的主要思想是首先生成一组初始单分类器序列, 然后根据一定的准则从中选择合适的单分类器进行集成。

2 多分类器动态集成技术

2.1 动态集成技术的原理

动态集成的原理是利用不同的分类模型的错误分布信息来指导分类器的集成过程, 即是对于给定的一个待分类样本, 尽可能地选择那些能够将其正确分类的分类器进行分类。其原理为不同类型的分类器具有不同的错误分布, 而对于同种类型的分类器来说, 错误分布往往集中于某一特定的区域中。唐春生和金以慧[7]在研究中给出了动态集成技术的4个基本出发点:

(1) 在样本空间中, 不同的样本处于不同的区域, 并且具有不同的特征;

(2) 针对不同的样本, 各个分类器的分类效果是有差别的;

(3) 在样本空间的不同区域, 同一个分类器的分类性能会有所变化;

(4) 分类器对最终判决具有一定的支持作用, 且分类器输出的不同待测类别与实际类别之间存在一定的相似性。

根据以上内容总结得出分类器动态集成的思想:分析对于不同待分类样本所在区域上的各个单分类器的性能, 使其自适应地选择一组分类器, 最后利用某些特定的组合方法集成判决分类结果。分类器动态集成方法考虑了各个单分类器的特性和待分类样本的自身特征, 具有比静态集成方法更好的针对性和灵活性。通常来说, 动态集成方法能够获得比静态集成方法更好的分类效果。

2.2 多分类器动态集成的框架和方法

如图2所示为多分类器集成的框架的三个主要部分:

(1) 在训练集TS中训练生成一组单分类C;

(2) 使用训练集TS或测试集VS来生成能力区域Ro C (Region ofCompetence) ;

(3) 得到各个单分类器在能力区域内的性能, 这一过程需要根据待分类样本Xt的自身特征来确定。随后自适应地选择部分分类器或者指定分类器权重用于最终的动态集成分类。

要实现分类器动态集成, 关键在于如何构建能力区域和选择何种集成方法[8]。能力区域的构建需要选择出一组能够反映单分类器预测性能的样本集, 单分类器在样本中训练得到的分类器必须具备良好的分类效果。

总结一下目前流行的能力区域构建方法:

(1) 基于KNN的方法。该方法的核心思想是假如一个样本在特征空间里的k个最相邻的大多数样本都属于某一个类别, 则该样本也被判为这个类别, 并具有这个类别上样本的特性。KNN方法经常使用欧几里德距离、曼哈顿距离等来求解, 在确定分类决策上只依据最邻近的一个或者几个样本的类别来判决待分样本所属的类别, 如DCS-LA (Hard Selection) 方法, DCS-LA (Soft Selection) 方法, KNORA-E方法等。

(2) 基于不同数据集的方法。该方法是通过利用一定的技术得到不同的能力区域, 用于构建单分类器, 如AO-DCS算法等。

(3) 基于聚类的方法。该方法采用聚类算法产生规定数目的训练样本集, 在分类阶段通过计算待分类样本和样本集聚类中心的距离得到距离最近的一组训练样本进行分类。如CS (Clustering and Selection) 方法, M3CS方法等。

集成方法的选择也是分类器动态集成中的重要环节之一。流行的集成方式有:

(1) 动态选择方法。该方法的思想是通过对待分类样本的特征分析从单分类器序列中选择部分性能优良的单分类器实现集成分类。

(2) 动态投票方法。该方法的思想是在分类迭代过程中根据待分类样本的特征为各个单分类器动态分配权重, 然后执行加权集成分类。

(3) 结合动态选择和动态投票的混合集成方法。该方法集合了前两种方法的优势, 先根据待分类样本特征选择单分类器序列, 再为其动态分配权重, 最后执行集成判决。

3 多分类器动态集成技术的不足

和静态集成分类方法相比, 分类器动态集成方法在预测时可以动态地、实时地组合单分类器或者为其分配权重, 获得更好地分类性能。但是动态集成本身存在一些缺点, 在应用过程中需要注意。比如, 动态集成过程中需要调用其他方法, 如特征选择、聚类分析、KNN方法等;由于待分类样本和训练集分布的差异引起分类性能显著下降;对于不同的待分类样本进行分类器序列的优选, 造成算法时间复杂度的增加;还有部分动态集成方法, 为了追求优良的局部性能, 需要一些特定的训练集, 当训练集规模不足的情况下就会影响分类性能。

4 结束语

为了在各个应用领域中更好地满足人们对分类性能的需求, 由于分类器动态集成技术更加灵活、更具针对性, 并且能够取得更好的分类效果, 因此成为了机器学习和数据挖掘等领域的一个研究热点, 分析和研究分类器动态集成技术具有较高的理论价值和应用价值。本文介绍了分类器动态集成技术的原理、框架和方法, 总结了该技术在应用中存在的一些不足之处, 为后继的应用研究提供了理论参考。

参考文献

[1]Jiawei Han, Micheline Kamber.数据挖掘概念与技术[M].北京:机械工业出版社, 2004.

[2]W.B.Langdon, S.J.Barrett, B.F.Buxton.Combining decision trees and neural networks for drug discovery[C].Genetic Programming Proceedings of the 5th European Conference, Euro GP 2002, Kinsale, Ircland, 2002, 60-70.

[3]Y.Freund, R.E.Schapire.Experiments with a new boosting algorithm[C].Proceedings of the 13th International Conference on Machine Learning, Morgan Kaufmann, 1996, 148-156.

[4]Loris Nanni, Alessandra Lumini.Fuzzy Bagging:A novel ensemble of classifiers[J].Pattern Recognition, 2006 (39) :488-490.

[5]Yong Seog Kima, W.Nick Streetb, Filippo Mencaer.Optimal ensemble construction viameta-evolutionary ensembles[J].Expert Systems with Applications, 2006 (30) :705-714.

[6]Gonzalo Martinez-Munoz, Alberto Suarez.Switching class labels to generate classification ensembles[J].Pattern Recognition, 2005, (38) :1482-1494.

[7]唐春生, 金以慧.基于全信息矩阵的多分类器集成方法[J].软件学报, 2003 (6) :1103-1109.

动态问题多变化,动静结合巧分类 篇3

(2015·河北)平面上,矩形ABCD与直径为QP的半圆K如图1摆放,分别延长DA和QP交于点O,且∠DOQ=60°,OQ=OD=3,OP=2,OA=AB=1,让线段OD及矩形ABCD位置固定,将线段OQ连带着半圆K一起绕着点O按逆时针方向开始旋转,设旋转角为α(0°≤α≤60°).

发现:

(1) 当α=0°,即初始位置时,点P_____直线AB上. (填“在”或“不在”)

求当α是多少时,OQ经过点B.

(2) 在OQ旋转过程中,简要说明α是多少时,点P,A间的距离最小?并指出这个最小值.

(3) 如图2,当点P恰好落在BC边上时,求α及S阴影.

拓展:如图3,当线段OQ与CB边交于点M,与BA边交于点N时,设BM=x(x>0),用含x的代数式表示BN的长,并求x的取值范围.

探究:当半圆K与矩形ABCD的边相切时,求sinα的值.

【思路突破】

发现(1)思路突破:

延长AB交直线OP于E,因为OA=1,∠O为60°,可求OE的长度等于2,即点E与点P重合,所以点P在直线AB上;当OQ经过点B时,如图4,由△AOB是等腰直角三角形,可知∠AOB为45°,所以旋转角α为15°.

发现(2)思路突破:

拓展思路突破:

如图3,由∠ANO=∠BNM,则tan∠ANO=tan∠BNM,=,BN=.如图6,因为OC>OD=OQ,所以当OQ转到Q点在BC上时,BM即为x所取最大值.作QF⊥OD,在直角三角形FQO中,由勾股定理得:

探究思路突破:

【解后反思】

1. 关键步骤是哪几步?

拓展的关键步骤是利用三角函数或三角形相似将BN用字母x表示,而求x的取值范围时,只有OQ转到Q点在BC上时,BM最大;另外,探究中的关键步骤是分类讨论,半圆K与BC、AD相切容易想到,由于OQ=OD,半圆K与DC相切容易漏掉,构造直角三角形将∠α放在直角三角形中也是关键.

2. 有什么值得一学?

贝叶斯分类多实例分析总结 篇4

提供了一种用于运动识别的聚类特征融合方法和装置,所述方法包括:将从被采集者的加速度信号中提取的时频域特征集的子集内的时频域特征表示成以聚类中心为基向量的线性方程组;通过求解线性方程组来确定每组聚类中心基向量的系数;使用聚类中心基向量的系数计算聚类中心基向量对子集的方差贡献率;基于方差贡献率计算子集的聚类中心的融合权重;以及基于融合权重来获得融合后的时频域特征集。

加速度信号 时频域特征

以聚类中心为基向量的线性方程组 基向量的系数 方差贡献率 融合权重

基于特征组合的步态行为识别方法

本发明公开了一种基于特征组合的步态行为识别方法,包括以下步骤:通过加速度传感器获取用户在行为状态下身体的运动加速度信息;从上述运动加速度信息中计算各轴的峰值、频率、步态周期和四分位差及不同轴之间的互相关系数;采用聚合法选取参数组成特征向量;以样本集和步态加速度信号的特征向量作为训练集,对分类器进行训练,使的分类器具有分类步态行为的能力;将待识别的步态加速度信号的所有特征向量输入到训练后的分类器中,并分别赋予所属类别,统计所有特征向量的所属类别,并将出现次数最多的类别赋予待识别的步态加速度信号。实现简化计算过程,降低特征向量的维数并具有良好的有效性的目的。

传感器

—> 加速度信息

–> 峰值、频率、步态周期、四分位、相关系数-聚合法-特征向量

样本及和步态加速度信号的特征向量 作为训练集 分类器具有分类步态行为的能力

基于贝叶斯网络的核心网故障诊断方法及系统

本发明公开了一种基于贝叶斯网络的核心网故障诊断方法及系统,该方法从核心网的故障受理中心采集包含有告警信息和故障类型的原始数据并生成样本数据,之后存储到后备训练数据集中进行积累,达到设定的阈值后放入训练数据集中;运用贝叶斯网络算法对训练数据集中的样本数据进行计算,构造贝叶斯网络分类器;从核心网的网络管理系统采集含有告警信息的原始数据,经贝叶斯网络分类器计算获得告警信息对应的故障类型。本发明,利用贝叶斯网络分类器构建故障诊断系统,实现了对错综复杂的核心网故障进行智能化的系统诊断功能,提高了诊断的准确性和灵活性,并且该系统构建于网络管理系统之上,易于实施,对核心网综合信息处理具有广泛的适应性。

告警信息和故障类型 训练集

—>贝叶斯网络分类器

—>训练(由告警信息获得对应的故障类型)

一种MapReduce并行化大数据文本分类方法

一种MapReduce并行化大数据文本分类方法,包括如下步骤:第一步:建立用于文本分类的基准测试数据集,进行数据预处理,包括分词、去停用词、词根还原;将该基准测试数据集随机划分为训练文本和测试文本,将所述基准测试数据集采用向量空间模型建立文本表示模型;第二步:根据上述文本表示模型采用CDMT对所述基准测试数据集进行特征选择;第三步:采用贝叶斯分类器对所述基准测试数据集进行训练学习,得到分类结果。本发明提供一种分类性能良好、区分度较高的MapReduce并行化大数据文本分类方法。

文本分类的基准测试数据集

数据预处理:分词、去停用词、词根还原 训练文本和测试文本 向量模型建立文本表示模型 CDMT对基准进行特征选择 贝叶斯分类器

分类结果

基于贝叶斯分类器的股票中长期趋势预测方法及系统

本发明涉及一种基于贝叶斯分类器的股票中长期趋势预测方法,包括:股票数据的选取,确定各个起始点及区间长度dj;划分区间,计算出历史数据区间斜率;对历史数据区间斜率进行学习并对置信度判断区间进行预测,得到以置信度判断区间起始点为起点的多个交易日的股票均价;计算置信度,将置信度与预先设定好的阈值进行比较;预测未来区间斜率,将未来区间斜率转化得到以预测区间起始点为起点的多个交易日的股票均价;将以预测区间起始点为起点的多个交易日的股票均价的涨跌进行归一化,得到股票的涨跌值;构建股票池。本发明避免了产生累积误差,展现出了在预测区间内的股票趋势变化,更好地捕捉了股市波动变化趋势,更加有效地评估了交易风险。

股票数据选取

—>确定各个起始点及区间长度--->区间斜率

-学习并置信度区间测试-股票均价-置信度

-预先设定好的阈值比较

一种数据分类的方法及装置

本发明提供了一种数据分类的方法及装置,该方法包括:预先设置多个数据的标识;根据样本数据确定每一种标识对应的分类规则;按组获取待标识的数据;将所述每组待标识的数据遍历所有分类规则;计算每种所述分类规则匹配的当前组中待标识的数据的匹配个数;确定匹配个数最大的分类规则对应的标识为当前组待标识的数据的标识。通过本发明提供的一种数据分类的方法及装置,能够提高标识数据的效率。

多数据的标识

—>确定每种标识的分类规则 —>待标识数据遍历分类规则

—>计算每种分类规则匹配当前组中标识的数据匹配个数

-确定匹配个数最大的分类规则对应的标识为当前组待标识的数据的标识。

一种移动自组网路由节点行为预测方法

本发明给出一种移动自组网路由节点行为预测方法,该方法首先选择合适的移动自组路由属性,设置模糊邻近关系,然后根据此原则对记录进行分类,最后使用贝叶斯分类器进行预测,评估路由节点的行为。本发明的目的是提供一种移动自组网路由节点行为预测方法,解决移动自组网路由节点行为预测问题,建立一种基于贝叶斯的预测方法,通过现有的数据分析,对移动自组网路由节点行为进行预测,提高移动自组网的运行效率。

移动自组路由属性 —>设置模糊邻近关系

—>然后根据此原则对记录进行分类 —>贝叶斯预测

一种基于改进贝叶斯算法的安卓恶意软件检测方法

本发明给出了一种基于改进贝叶斯算法的安卓恶意软件检测的方法,通过改进贝叶斯算法对安卓恶意程序和良性程序的特征属性进行分析和分类,实现一种基于改进贝叶斯算法的恶意软件检测方法,从应用程序权限申请的角度出发,判断分析是否为恶意软件。该方法是利用安卓权限请求机制中权限请求标签作为检测的数据源。在此提出利用权限请求标签组合方式用于区分恶意软件和良性软件,利用改进的贝叶斯算法做出检测模型,改进的贝叶斯体现在其对数据源的属性之间的考虑了相互的独立性,这样再利用朴素贝叶斯分类器进行数据建模,大大提高了检测指标,提高了检测的正确率,以及减少了误报率。

利用权限请求标签作为检测标准

权限请求标签组合方式区分 恶意软件和良性软件 贝叶斯算法检测 朴素贝叶斯分类器建模

微博分类方法及装置

本发明公开了一种微博分类方法及装置。该方法包括:步骤1,对训练语料集合进行预处理,对预处理后的训练语料进行分词,获取候选特征,并对候选特征进行权重计算,根据权重计算结果进行特征选择,获取最终的分类特征;步骤2,根据最终的分类特征,采用贝叶斯分类器进行模型训练,获取分类模型;步骤3,采用贝叶斯分类器根据分类模型对微博文档进行分类。借助于本发明的技术方案,提高了分类的召回率与准确率。

训练语料集合 预处理 

一种城市轨道交通客流高峰持续时间预测方法

本发明公开了一种城市轨道交通客流高峰持续时间预测方法,包括以下步骤:首先选择足够样本量的历史客流数据,然后对原始数据进行处理,处理过程包括流量统计、高峰时间计算、数据清洗、数据区间分类,接着建立关联客流高峰事件属性集,接着计算每一个区间的客流高峰事件的概率分布,再使用贝叶斯分类的方法确定属性分类界限,最后对每一类客流高峰事件建立时间序列模型,并对方法的有效性进行检验。本发明可用于预测城市轨道交通常发和突发的客流高峰事件的持续时间,为轨道交通企业的客流高峰管理提供数据支持,能缓解通行能力浪费和服务水平降低的矛盾,跟随轨道交通客流的变化。

原始数据—(流量统计、高峰时间计算、数据清晰、数据区间分类)--关联客流高峰事件属性集 – 概率分布 – 贝叶斯分类—时间序列模型

一种基于Android平台的入侵检测系统

本发明公开了一种基于Android平台的入侵检测系统,主要由三部分组成,即数据提取模块、数据分析引擎和响应处理模块;其中数据提取模块主要是对Android系统手机的主体活动信息进行特征提取;数据分析引擎是利用检测算法对提取和整理的数据进行分析,判断是否存在入侵行为或者异常行为;响应处理模块则根据数据分析引擎的分析结果执行相应的处理操作;该入侵检测系统通过对手机的资源使用情况、进程信息和网络流量实时监控,并使用贝叶斯分类器算法判断系统是否被入侵,通过该入侵检测系统能够有效地检测Android手机的异常。

数据提取:特征提取 数据分析: 响应处理:

一种利用相关系数进行相关性分析的贝叶斯分类数据挖掘方法

公开了一种利用相关系数进行相关性分析的贝叶斯分类数据挖掘方法。初步选定一些可能与目标因子具有相关性的预测因子,对预测因子和目标因子进行模型训练,再对训练结果利用相关系数进行相关性分析,如果预测因子和目标因子相关性不大或者不相关,可以立即终止贝叶斯分类算法,不再进行后面的精度评估等步骤,以便用户保留有关预测因子,去掉无关预测因子或者重新选定预测因子;如果预测因子和目标因子相关性很大或者相关时,再在此基础上进行精度评估,评价贝叶斯分类算法的好坏。通过在分类模型的基础上进行相关性判断,不仅可以使分类预测结果更加可靠,而且可以节约资源,提高算法的效率。

预测因子和目标因子—模型训练 – 相关性分析

一种基于改进贝叶斯的轨道交通故障识别方法及系统

本发明公开了一种基于改进贝叶斯的轨道交通故障识别方法及系统。本方法为:1)根据交通设备的电路结构确定每一交通设备的各种故障模式及对应的监测量,并针对每一故障模式及对应的监测量建立一故障模型;2)根据故障模型识别出监测数据之间的父子关系,得到标准故障样本数据;3)利用标准故障样本数据,采用贝叶斯算法进行训练,得到故障识别模型;每一故障模式的故障识别模型中父节点的权重要大于子节点的权重;4)实时监测和采集交通设备的各种所述监测量,并记录其时序;5)利用故障识别模型对数据进行识别,确定出对应的故障。本发明提高了故障识别的准确率,缩短故障修复时间,设备可故障自诊断,从运维和设备两方面保障行车安全。

一种基于朴素贝叶斯分类器的假指纹检测方法

一种基于朴素贝叶斯分类器的假指纹检测方法,包括以下步骤:1)训练库划分;2)图像归一化;3)特征提取;3.1)离散小波变换;3.2)去噪;3.3)小波重构;3.4)噪声图估计;3.5)标准差图计算;3.6)划分标准差图,统计得到图像的特征;4)特征划分;5)分类器训练;6)分类器性能评估;7)分类器融合:利用朴素贝叶斯分类器构造的方法,融合得到新的分类器。本发明对单个分类器性能要求不高,但分类器融合后的效果却可以非常好。

一种基于主题网络爬虫的搜索方法及装置

本发明公开了一种基于主题网络爬虫的搜索方法及装置,所述方法包括:从与给定搜索主题相关的网页地址集中提取一个网页地址;获取所述网页地址对应的有效网页;对所述有效网页进行分析,得到有效网页内容;计算所述有效网页与搜索主题在语义上的相关度,即立即价值,并将符合预设条件的有效网页及包含的网页链接添加到页面数据库;对于不符合预设条件的有效网页,计算网页链接相对于所述搜索主题的链接价值,即未来回报价值,并将符合条件的网页链接添加到网页地址集中。本发明实施例通过计算不满足条件的网页链接的未来回报价值,来预测主题网络爬虫的搜索方向,从而避免了主题网络爬虫对无关网页的抓取,提高了主题网络爬虫抓取网页的准确性。

一种软件需求分析量化方法及系统//预计分析工单处理时长

一种软件需求分析量化方法及系统,包括:样本获取模块以基本过程为分类对象,获取分类器的样本,每一样本中,待分类项的特征属性值根据历史数据中一基本过程的特征属性的取值确定,输出类别根据历史数据中该基本过程的开发时间确定;分类器生成模块利用获取的样本作为训练样本训练分类器模型,生成分类器;分类模块在确定软件需求划分成的基本过程的各项特征属性取值后,利用所述分类器进行分类,得到相应的输出类别即开发时间。本发明利用历史数据生成分类器,并引入功能点所属模块类型的特征,可以更为准确地估算软件开发时间,对量化软件开发过程,控制软件生命周期有良好效果。

基于分布式多级聚类的话题检测装置及方法

本发明公开了一种基于分布式多级聚类的话题检测装置及方法,该装置主要包括新闻采集模块、新闻分类模块、话题检测模块和话题整合模块以及话题展示模块;该方法包括:题检测方法,其特征在于,该方法包括:A、对新闻进行采集的步骤;B、对所述新采集的新闻进行分类的步骤;C、对各频道并行地进行多级聚类的步骤;D、计算所有话题的热度,筛选出全系统内的热点话题和每个频道内的热点话题。采用本发明,能够解决在互联网环境中大量文档快速更新的条件下,话题检测面临的检测效果与时间开销的尖锐矛盾。

一种基于协同训练的垃圾邮件过滤方法和装置 本发明实施例提供了一种基于协同训练的垃圾邮件过滤方法和装置,方法包括:输入待过滤的邮件集合;根据邮件集合得到每个样本的特征向量,其中一个样本对应一封邮件;将每个样本的特征向量划分为第一特征向量子集和第二特征向量子集,第一特征向量子集中的特征来源于邮件头信息,第二特征向量子集中的特征来源于邮件内容信息;将第一特征向量子集和第二特征向量子集分别作为每个样本的第一视角和第二视角;利用第一视角和第二视角进行基于贝叶斯分类器的协同训练得到最终的第一分类器和第二分类器;根据第一分类器和第二分类器对垃圾邮件进行分类过滤。本发明实施例可以在样例较少的情况下更加有效地对大规模数据进行分类预测和过滤。

待过滤邮件集合每个样本的特征向量—>2个特征子集(头和内容)2个视角—>利用NB得到两个分类器过滤

场景分类器模型分析报告

目的

利用朴素贝叶斯分类器建立故障工单范围内,区分有效和无效工单。

业务分析

模式提取分析,预处理,算法输入和参数设置,输出,解释说明

术语说明

数据采集

数据预处理

算法步骤

SPSS验证和结果解释

问题

多分类问题 篇5

数据挖掘作为一门新兴的交叉学科, 其对大规模数据的强大处理能力在许多领域都有着广泛的应用。本文主要介绍数据挖掘技术在移动通信领域中的一个应用, 主要任务是如何根据一个刚刚入网3个月的用户属性特征, 预测其是否有可能发展成为移动通信公司的高价值客户, 以便有针对性地利用较小的客户维护成本对客户提前进行高效的维护。

本文首先采用了决策树分类方法来对数据进行分类, 以利用不同训练集生成的决策树共同对已知分类的测试集进行分类, 并结合样本数据本身的特征采用相异度算法对不确定的样本进行再次分类。测试结果表明, 本文所提出的方法是完全可行的。

一、决策分类及相异度算法

1. 决策树分类算法基本原理。

数据分类是数据挖掘中的一个基本问题, 它通常可分为两个阶段:建模阶段和评测阶段。建模阶段的主要任务是通过分析训练集中样本的特征, 构建一个预测模型。这是整个分类过程中最为关键核心的部分, 建模方法的好坏对分类效果起到了决定性的影响, 在数据挖掘的几个主要分类技术通常有:决策树、Bayesian模型、神经网络模型等。

决策树 (Decision tree, 也称判定树) 是一个类似于流程图的树结构, 其中每个内部节点表示在一个属性上的测试, 每个分枝代表一个测试输出, 而每个树叶节点代表类或类分布。决策树容易转换成分类规则, 路径由根节点到存放该样本预测的叶节点。

在树的每个节点上使用信息增益度量选择测试属性。设S是s个数据样本的集合。假定类标号属性具有m个不同值, 定义m个不同类Ci (i=1, …, m) 。设si是类Ci中的样本数。对一个给定的样本分类所需的期望信息由下式给出:

其中, pi是任意样本属于Ci的概率, 并用si/s估计。

设属性A具有v个不同值{a1, a2, …, av}, 可以用属性A将S划分为v个子集{S1, S2, …, Sv};其中, Sj包含S中这样一些样本, 它们在A上具有值aj。如果A选作测试属性 (即最好的分裂属性) , 则这些子集对应于由包含集合S的节点生长出来的分枝。

2. 聚类算法中相异度计算原理。

聚类算法的基本思想是:所研究的对象中每个个体之间存在着程度不同的相似性 (亲疏关系) , 于是, 根据众多单位的多个观测指标, 找出能够度量各单位之间相似程度的统计量, 以此作为划分类型的根据, 把一些相似程度较大的单位聚合为一类, 把另外一些彼此相似程度较大的单位又聚合在另一类, 关系密切的聚合到一个小的分类单位, 关系疏远的聚合到一个大的分类单位, 直到把所有单位都聚合完毕。然后把不同的类型一一划分出来, 形成一个由小到大的分类系统。最后再把整个分类系统画成一张图, 用它把所有单位间的亲疏关系表示出来。该方法是聚类中最常用、最基本的方法, 称为系统聚类法。

二、测试模型中的分类算法

本文测试中的分类算法可分为数据预处理、模型构建及模型测试分析这三个阶段。

1. 数据预处理。

数据预处理阶段的主要任务是:首先对数据进行抽取, 然后对从数据库中提取得到的原始数据进行整理, 使其满足数据挖掘的具体要求。其主要工作包括:对数据的转换和整合、抽样、随机化、缺失值的处理、离散化处理等。通过对样本的分析可以发现在近百个属性中有许多属性无论对于Y或N都是0 (或基本上全是1) , 换句话说, 某些属性变量对于结果的预测是无用的, 因此在测试时通过数据预处理可以去掉这些无用的属性, 可以明显提高决策树的构建效率。测试中通过这样的预处理, 候选属性只剩下20个左右。

2. 模型构建。

构建决策树阶段采用了第二节所介绍的决策树构建算法, 另外, 在本文测试中, 最终的分类算法并不是依据一棵决策树, 而是有多棵 (10棵) 不同的决策树同时对同一已知的测试集进行分类。具体做法如下: (1) 将11万个号码分成10组, 每组为10万个号码, 例如, 第k组由第 (k+0, k+1, k+2, k+3, …, k+99999) 个号码组成。 (2) 根据这10个组分别构建了10棵决策树预测模型, 再将这10棵决策树分别对待测样本进行分类预测。 (3) 只有当这多棵决策树对某个号码的测试得到同样的结果时, 才把其作为分类结果的最终判断, 由此分离出相对准确的预测类型, 否则需要对该样本进行再次分类。

3. 模型测试分析。

本文测试的环境是基于Win2000操作系统的PC机, CPU:Petiumn 4处理器, 内存768M, 硬盘容量40G, 测试软件工具:Oracle8i数据库、Clementine8.1、SPSS等数据挖掘软件工具。

本文测试中采用了10棵决策树联合分类方法和基于相异度的再次分类。10棵决策树分别对11万个样本进行测试, 并根据不确定的号码与已知分类进行相似度匹配, 而对于把这10棵决策树对相同的原训练集进行分类, 对于不一致结果采用服从多数的方法, 正确率为85.41% (可能是由于过度匹配所造成的, 很有可能造成模型适用度过小的现象) 。把这10棵决策树同时对原训练集 (11万个样例) 进行分类, 对于不一致结果采用基于相异度的算法进行再次分类方法, 正确率为83.10%。若修改为只对占多数的样例进行再次分类的话, 正确率为85.41%。

三、分析和讨论

引入基于相异度的再次分类方法, 主要目的是减小由于样本数量差异所造成的决策偏差。由于在决策树算法中, 当没有新的属性可用来划分当前的数据集时, 将把占多数的类型作为该叶节点的类型, 这样某一个样例很多的类型可能会对决策树产生误导, 造成偏差。尽管正确率似乎有所下降, 但这种现象主要是由于测试集与决策树过于匹配造成的。在面对新的测试样例时, 这种使用相异度算法的再次分类还是有必要的。

结束语

本文针对传统的单一分类方法存在的不足, 将组合分类算法成功地应用于移动通信客户信息挖掘实践中, 特别是采用决策树分类及相异度测算相结合的方法对不确定事务进行再次分类。测试结果表明, 本文所提出的组合分类算法在移动通信客户信息挖掘领域是完全可行的, 具有较好的实用价值。

摘要:移动通信领域中的客户信息挖掘是数据挖掘和商务智能领域中典型应用之一, 具有较高研究意义和商业应用价值。在基于决策树的数据分类算法基础上, 采用相异度计算原理进行分类, 重点对移动通信客户是否可能成长为高价值客户的分类进行了研究。测试结果表明, 本文所提出的组合分类方法是完全可行的。

关键词:数据挖掘,多分类器,决策树,聚类算法

参考文献

[1]Jiawei Han, Micheline Kamber.Data Mining:concepts and techniques[M], Morgan Kaufman, 2000.

[2]Daniel Barbara.Using Self-Similarity to Cluster Large Data Sets[J].Data Mining and Knowledge Discovery, 2003, 7:123~152

多分类问题 篇6

社会发展进入信息时代, 随着实践活动的扩大、深入和社会化需要, 人类需要去识别很多类的形式内容复杂的信息。人们已经不再停留在自己的耳朵和眼睛去直接获得这些信息, 而是使用计算机将文字自动的输入计算机。由于科技水平不断提高, 使得各种不同的研究对象得到“图像化”和“数字化”, 以图像为主的多媒体信息迅速成为重要的信息传递媒介, 图像中的文字信息包含了丰富的高层语义信息。提取出这些文字, 对于图像高层次语义的理解、索引和检索非常有帮助。

现在对于文字图像识别技术的研究[1], 还面临几个问题, 一是图像数据量大, 一般来说, 要取得较高的识别精度, 原始图像应具有较高的分辨率, 至少应大于64×64。二是图像污损, 由于目标环境的干扰、传输的误差、传感器的误差、噪声、背景干扰、变形等会污损图像。三是准确性, 位移、旋转、尺度变化、扭曲, 和人类的视觉一样, 目标和传感器之间存在有位置的变化, 因此, 要求系统在目标产生位移、旋转、尺度变化、扭曲时, 仍能够正确识别目标。四是实时性, 在军事领域的应用中, 大都要求系统能够实时的识别目标, 这就要求系统有极快的出来速度和识别效率[2]。

鉴于当前文字识别系统的发展现状[3,4], 如何提高印刷体文字的识别率仍是当前的研究热点, 如何在世界场景下识别文字将是文字识别系统发展的一个方向。此外, 如何构建具有版面自动分析、容错性强、识别率高、错误自学习自修正、易扩展特点的文字识别系统是文字识别自动化的研究目标[5]。所以, 图像文字识别技术的研究显得尤为重要。

1 图像预处理

1.1 图像的灰度转换

在文字识别系统[6]中, 输入系统的图像一般都是彩色RGB图像, 其包含了大量的颜色信息, 要是对图像进行处理会降低系统的执行速度, 加之RGB图像包含有很多与文字识别无关的颜色信息, 不利于文字的定位, 而灰度图像, 只包含亮度信息, 不包含色彩信息, 有利于文字识别系统后期对图像进一步的处理[7], 可以提高运行速度, 有利于下一步的文字定位。由于人眼对绿色最为敏感, 对红色的敏感度次之, 对蓝色的敏感度最低, 所以当在b>a>c的条件下, 可以得到较易于识别的灰度图像。一般情况下, I=0.3*R+0.59*G+0.11*B, 得到的灰度图像的效果最好。因此, 本文采用加权平均值方法进行灰度转换, 即对R、G、B的值加权平均:

R=G=B=a*R+b*G+c*B

其中, R、G、B分别表示红色、绿色和蓝色, a, b, c分别为R、G、B的权值。a、b、c取不同的值, 将形成不同的灰度图像。

1.2 图像的二值化

图像的二值化处理[8], 是对图像上的像素点的灰度值置为0或255, 即当所有灰度大于或等于阀值的像素点被判定为特定的物体, 其灰度值为255, 否则, 其灰度值为0, 表示其他的物体区域或者背景, 处理后的图像将呈现明显的黑白效果。图像的二值化, 可以将具有256个灰度等级的灰度图像经过合适的阀值选取后, 将像素的灰度级分成2级。经过二值化处理后的图像, 其性质只与灰度值为0或255的像素点的位置有关, 不再涉及到其他灰度极的像素点, 便于对图像作进一步的处理, 且数据的处理量和压缩量较小, 且获得的二值化图像仍旧可以反映图像整体与局部的特征。

为了得到理想的二值化图像, 阀值的选取至关重要。选取适当的阀值, 不仅可以有效地去除噪声, 而且可将图像明显地分成目标区域和背景, 大大减少信息量, 提高处理的速度。

2 文字区域处理

当包含文字信息的图像区域分割出来以后, 为了识别单个文字, 需要进一步将每个汉字从整块文字图像中分割出来。根据汉字是方块图形、具有大致的均匀尺寸的特点, 本文使用了最大宽度回归式字切分法, 利用在行切分时获得的汉字高度信息估计字的宽度, 以预测下一个汉字的位置。

3 特征提取

抽取单一种类的特征进行汉字识别[9,10], 误识率不易降低, 且抗干扰性也不易提高。因为这样所利用的汉字信息量有限, 不能全面反映汉字的特点, 对任何一种特征来说, 必然存在其识别的“死角”, 即利用这种特征很难区分汉字。从模式识别的角度来看, 若将汉字的全部矢量化特征所组成的空间称作空间 (i=1, 2, ...) , 那么利用整个空间的信息进行汉字识别, 由于提供的汉字信息很充分, 抗干扰性会大大增强。但是, 在实际应用中, 必须考虑到识别正确率与识别速度 (运算量) 及系统资源三者的折衷。所以任何一个实用的OCR系统只利用其中部分子空间的信息。由于信息的缺陷, 便不可避免地遇到识别“死角”的问题。

在这些方法研究的基础上, 我们选择了汉字的网格特征和方向特征进行汉字识别, 这些特征具有较强的抗干扰能力, 又有较强的描述文字局部结构的能力, 而且受笔画宽度的影响较小, 相得益彰, 使汉字识别的“死角”大幅减小, 从而提高识别率。

(1) 网格特征

将汉字点阵平均分成m×m份, 求出每个网格中黑点数所占整个文字黑点数的百分比。这样组成的一个m×m维的序列就是该文字的网格特征, 它体现了文字整体形状的分布。

网格特征的提取过程如下:

1) 设文字点阵为n×n, 将其分成8×8份。

2) 求出每份中的黑点数, 用P11, P12, …P18, P21…P88表示。

3) 求出文字总的黑点数P=P11+P12+…+Pl8+P21+…+P88。

4) 求出每份中黑点数所占整个文字黑点数的百分比Pij=Pij×100/P。

则特征向量P= (P11, P12, …P18, P21…P88) , 就是文字的网格特征, 如图3。

(2) 方向特征

对输入的文字点阵图像进行二值化和归一化, 并提取轮廓信息, 对轮廓上的每个点赋予一个或两个方向的属性, 方向取水平、垂直及正反45°共四个角度, 将文字点阵划分为n×n个网格, 计算每个网格中包括的4个方向属性的个数, 从而构成一个4维向量, 综合所有的网格特征, 形成一个4×n×n维的特征向量, 如图4。

4 分类器设计

经过多次试验与研究, 结论表明基于单个识别器原理不能从根本上提高系统性能, 应依靠多个分类器的识别结果的集成。多分类器集成即通过多个互补的分类器来改善单个分类器的性能, 得到一个可靠性更高的识别系统[11]。因此, 本作品采用最小距离分类器及最邻近分类器集成, 通过分类器设计上的优化, 进一步提高了文字的可以别率和准确率。

(1) 最小距离分类器:选用笔画密度总长度特征来进行第一层的粗分类。在这种方法中, 被识别模式与所属模式类别样本的距离最小。假定c个类别代表模式的特征向量用R1, …, Rc表示, x是被识别模式的特征向量, |x-Ri|是x与Ri (i=1, 2, …, c) 之间的距离, 如果|x-Ri|最小, 则把x分为第i类。

(2) 最邻近分类器:分别选用网格特征和方向特征相结合来完成第二层的分类匹配。最近邻分类器是在最小距离分类的基础上进行扩展, 将训练集中的每一个样本作为判别依据, 寻找距离待分类样本最近的训练集中的样本, 以此为依据来进行分类。

5 实验结果

在实验部分, 本文使用包含697个汉字的原始图像来进行测试。首先把该原始图片转化为灰度图像以便进行下一步的操作。通过回归式字切分法把整段文字分割成单个的字体, 测试效果如图5, 可以准确地分割每个汉字。最后, 采用多特征提取和多分类器集成的方法识别分割出来的文字, 并以文本框的形式输出, 测试结果如图6, 结果全部正确。

6 结语

多特征提取方法及多分类器集成方法使提高图像文字识别率成为可能, 其良好的识别效果引起了人们的普遍重视, 具有广阔的应用前景。本文基于多分类器集成方法实现图像文字识别, 使图像文字信息的处理及提取更具可行性。

摘要:本文本主要对图片文字提取展开研究, 首先读取图片进行预处理;然后针对网格特征和方向特征对图片文字进行特征提取;为了提高识别系统的可靠性, 采用多分类器集成方法, 即通过多个互补的分类器来改善单个分类器的性能。

关键词:图像文字识别,特征提取,多分类器集成,印刷体汉字

参考文献

[1]M.A.Smith and T.Kanade.Video skimming and characterization through the combination of image and language understanding.In International Workshop on Content-Based Access of Image and Video Databases[J].San Juan.Puerto Rieo, 1997, 95 (186) :61-70.

[2]A.Jain and B.Yu.Automatic text loceation in images and video frames.Pattem Reeognition[J].1998, 31 (12) :2055-2076.

[3]C.Gareia and X.APostolidis.Text detction and segmentation in comlex color images[J].Proeeedings of 2000 IEEE International Conference on Acoustics, Speech and Signal Processing, Heraklion, 2000, 4 (6) :2236-2329.

[4]HE Lin, RUAN Weitong, ZHANG Mei, et al.Survey on Hyperspectral Imagery Classification with Support Vector Machine[J].The Journal of New Industrialization, 2012, 2 (1) :46-51.

[5]杨友庆, 高隽, 鲍捷, 等.基于视频的字幕检索与提取[J].计算机应用, 2000, 20 (10) :33-36.

[6]何家颖, 黎绍发.一种复杂背景图像文字分割算法[J].模式识别与人工智能, 2005, 18 (2) :148-153.

[7]梁涌.印刷体汉字识别系统的研究与实现[MA].西北工业大学硕士学位论文, 2006.

[8]倪桂博, 印刷体文字识别的研究[MA].华北电力大学硕士学位论文, 2007.

[9]聂玖星.印刷体汉字识别系统的特征提取和匹配识别研究[MA].大连理工大学硕士学位论文, 2008.

[10]黄弋石, 梁艳.手写识别建模数学方法研究[J].软件, 2013, 34 (8) :13-15.

多分类问题 篇7

由于掌握监护仪原理及常见故障维修维护对一个临床医学工程人员相当重要。参数监护仪一般包括四个部分: (1) 信号采集部分。通过生物医学电极和传感器拾取人体生理参数信号, 并将光、压力等其它信号转化为电信号从而获得生理参数, 包括心电、心率、呼吸、体温、无创血压、有创血压、血氧饱和度、呼吸末二氧化碳等。 (2) 信号的模拟处理部分。通过模拟电路对采集的信号进行阻抗匹配、滤波、放大等处理, 同时减少噪声和干扰信号以提高信噪比。 (3) 信号的数字处理部分。核心部分, 由模数转换器、微处理机、存储器等组成。 (4) 信号的显示、记录和报警部分。人机进行信息交换的友好界面, 通过键盘输入被监测生理参数的监测范围和要求, 显示器通过数字信息和图形信息显示各种被监测生理参数信息, 供分析;而记录部分将被监视参数记录下来作为档案保存。当被测参数超过设定的上下限范围时就通过声、光报警器发出报警, 可以提示医务人员及时进行抢救。

PM9000便携式床旁监护仪可用于成人、小儿和新生儿的监护, 具有心电 (ECG) 、呼吸 (RESP) 、血氧饱和度 (SP02) 、无创血压 (NIBP) 和体温 (TEMP) 等多种生理参数监护功能。由于价格低廉, 在临床使用率高, 难免遇到各种常见故障, 本文将进行具体归类分析。

1 显示屏类:

1.1 黑屏:

(1) 开机, 监护仪屏幕无显示, 指示灯不亮 (2) 外接电源时, 指示灯亮, 电池电压低报警, 接着机器自动关机 (3) 未外接电池时, 电池电压低报警, 然后自动关机, 即使给机器充电也无用。 (4) 接上交流电的同时, 电池正常, 开机, 指示灯正常, 喇叭声音也有, 但是屏幕不亮。

分析:均要排除操作中将显示亮度调到最小导致黑屏。 (1) 检查电源按键是否正确动作, 是否损坏无法接通。不通交流电, 检查电源板12V电压是否偏低, 该故障报警说明电源板上输出电压检测部分检测到电压偏低, 可能为电源板检测部分出故障或电源板输出故障, 也可能是后端负载电路故障引起。检查显示屏显供电, 如果12V正常, 更换屏显示背光灯管, 即可排除故障;如果12V不正常, 检查逆变电路是否有问题。 (2) 可能原因包括:220V电源插座本身无电, 检查电源插座是否有电;电源线接触不良或者电源线断;保险丝是否烧断。如果红色指示灯亮, 说明机器正处于电池供电状态。而屏幕黑屏, 则说明电池电量已耗完, 充电电路故障。 (3) 未外接电池时正常的话, 判断可能是充电电池坏了, 或者电源板/充电控制板故障引起电池无法充电。

1.2 开机时有显示, 但出现白屏、花屏现象

分析:该现象说明显示屏的光管正常点亮, 但无主控板的显示信号输人。可以尝试在VGA输出口接一普通显示器, 若显示正常, 可能显示屏坏或者屏到主控板接线接触不良, 该情况就要检查主控板接线是否稳固, 如果有松动需要紧固;若VGA无输出, 可能主控板故障, 更换之。

1.3 屏幕显示正常, 但亮度太暗。

分析:如果进入设置菜单无法设置改善, 可断定是液晶显示屏的背光管故障 (老化或损坏) 。

1.4 显示屏闪动

分析: (1) 外部干扰因素, 检查监护仪附近是否有辐射较强的其他设备、供电电网的电磁干扰、电网的过欠压、瞬态突变、尖峰、接触不良等情况, 换个使用环境开机便可排除。 (2) 如果故障是偶尔出现, 可以用手拍外壳, 故障有改善或者恢复正常工作, 一般判断可能是机器的电源电路、显示屏驱动等部分的元器件性能不良、接触不好而虚焊, 或连线、多芯接插件有接触不良 (接线柱有虚焊或打火积炭现象) 的情况, 需要打开外壳检修。也可能由于机器使用时间过程, 元件的热稳定性变差, 可用加热法判断, 比如简单用电吹风对电源板, 驱动板进行局部加热, 故障出现的话, 可判断故障元件位置。

2 血氧类

2.1 无血氧波形及SpO2数值

分析: (1) 看看型号是否符合, 迈瑞血氧探头用的比较多的是MINDRAY和Masimo两种, 互不兼容。 (2) 换一个血氧探头, 否则就是血氧探头或者血氧延长线故障。 (3) 看看血氧探头有无红光闪动, 若无闪动, 是探头组件故障。 (4) 如出现血氧初始化错误报警, 则为血氧板故障。

2.2 SpO2数值偏低, 不准确

分析: (1) 首先要问明是针对某一特例还是普遍性的, 可以更换病人或更换探头尝试。若是特例, 在测量血氧时尽量避免出现, 如病人运动、微循环不畅、体温过低、时间过长等情况。 (2) 若是普遍性的, 检查血氧探头是否故障。 (3) 检查血氧延长线是否损坏。

2.3 血氧波形不稳定

分析:无血氧值或波形不稳定, 该情况缘由及解决方法如下:病人过于躁动, 应该保持稳定;血氧传感器位置不正确, 应该把血氧传感器放在病人手指的适当位置;尽量避免同侧手臂测量血压, 在测血压时袖带充气压迫手臂影响血氧测量, 尽量做到不同侧测量;肢体温度过低或末稍循环太差, 应避免;同时避免指甲涂有指甲油、周围光线太强等因素造成造成的干扰。

2.4 监护仪报警“SpO2模块通讯停止”

分析:该故障通常由于SpO2探头延长线或SpO2探头连线中的六芯线长期处于扭折状态, 绝缘层出现破损, 导联线出现瞬间短路造成的, 如损坏不严重, 仍可持续使用时, 可以通过给SpO2检测线路板电容放电, 步骤如下:关机后, 取出充电电池, 拨下SpO2探头, 断开连接, 等待时间大于5 min, 才能重启设备, 一般报警提示“SpO2模块通讯停止”便可消失, 然后重新链接各配件, 工作一般可以正常。

3 NIBP无创血压类

3.1 测量NIBP时, 充气不足, 血压测量时报错, “袖带太松”或者袖带漏气, 充气压力始终充不上去 (低于150 mmHg) , 无法测量血压。

分析: (1) 检查是否漏气, 如袖带、导气管以及各个接头处, 通过“漏气检测”可判断, 如果真的漏气, 予以更换部件即可。 (2) 没有正确选择病人模式, 比如使用成人袖带但是监护议病人类型设置为使用新生儿模式, 可能有此报警。因新生儿的充气压力上限远远小于成人, 导致充气压力达不到成人的需求, 而测不出血压。解决方法是把监护病人的类型改成“成人”, 不正确, 检查更正排除。

3.2 NIBP测量值不准确, 测量所得血压值偏差太大。

分析: (1) 检查血压袖带有无漏气, 与血压连接的管道接口是否漏气; (2) 否是因为和听诊法存在主观判断下的差别带来的, 应该使用NIBP校准功能, 这是在用户现场检验NIBP模块校准值是否正确的唯一可用标准。NIBP出厂时检验的压力标准差在8mmHg以内。如果超出则需要更换血压模块, 有误要进行校准。

3.3 无法测量血压, 报“空气压力错误”。

分析:一般是测量血压时, 血压袖带能正常充气, 同时可见监护仪屏幕上也能显示充气的压力值;放气时, 能缓缓地放气。但还未放完气时, 突然“噗”一声就立刻将气全部放完, 此时显示屏报错提示“空气压力错误”。既然能显示充气值, 可以判断整个电路板应属正常。除了电路外, 特别要检查气路, 整个气路包括一个充气泵, 二个电磁阀 (对应的是快速和慢速放气阀) 及连接它们之间的管路。 (1) 要检查外围管路及袖带有无破裂漏气。 (2) 然后再检查主机内部, 应保养气泵阀腔, 看有无杂物、灰尘堵塞, 检查放气阀的吸合是否正常。如果有异物杂质, 清除杂质后重新安装好试机便可解决。

4 心电类

4.1 ECG无波形, 显示屏上显示“电极脱落”或“无信号接收”。

分析: (1) 检查导联模式, 是否正确使用五导模式或三导的接法, 也就是要根据使用的导联线数选择正确的模式, 经常由于临床护士使用时更换了导联线而忘记了及时修改导联模式造成不必要的人为故障。 (2) 在确认心电极片贴放位置, 心电极片质量无问题的前提下, 交换法, 将此心电电缆线与其它机器上的互换, 以确认是否心电电缆故障, 是否电缆老化、插针断。或者用万用表电阻档测量, 阻值大概10 kΩ, 若电阻为无穷大表明导联线断路, 则应更换导联线。 (3) 插座板上的“ECG信号线”接口坏造成接触不好, 或心电板、心电板主控板连接线、主控板故障, 拆机检修测试。

4.2 心电波形干扰大, 波形不规格, 不标准。

分析: (1) 首先应当排除来自信号输入端的干扰, 如病人运动, 心电极片失效, 心电导联线老化, 接触不好的情况。 (2) 将滤波模式打到“监护”或“手术”, 效果会好一点, 因为这两种模式下滤波带宽较宽, 自然滤波效果更佳。 (3) 若手术下波形效果也不好, 请检查接地是否良好。 (4) 检查是否存在来自机器内部的干扰, 如心电板屏蔽做的不好等原因, 可以尝试替换法检查。

4.3 心电基线漂移, 心电扫描基线不能稳定在显示屏上, 时而漂出显示区域。

分析: (1) 监护仪使用环境及其本身是否潮湿, 将仪器连续开机24小时, 自身排潮再观察ECG情况, 改善就排除故障。 (2) 检查电极片质量如何、以及人体接触电极片的部位是否清洗干净, 更换电极片, 清洗人体接触电极片的部位。 (3) 信号板坏, 检修。

4.4 呼吸信号太弱。

分析:检查心电电极片是否放置正确, 电极片质量如何以及人体接触电极片的部位是否清洗干净。

摘要:目的:为了更好的维护保养PM9000监护仪。方法:通过归类分析方法。结果:多方面了解故障的解决分析方法。结论:为日常维修保养工作提供方便。

关键词:监护仪,显示屏,血压,血氧,心电

参考文献

[1]张志波.医用监护仪故障维修2例.[J].医疗卫生装备, 2009 (5) :130

[2]张文远等.医用多参数监护仪面板显示故障3例[J].医疗卫生装备, 2008 (12) :124

[3]余学飞.医学电子仪器原理与设计[M].广州:华南理工大学出版社, 2000.

[4]邓隶恺, 现代医学仪器设计原理[M].北京:科学出版社, 2004.

多分类问题 篇8

随着互联网技术的飞速发展,人们将网络作为发表个人观点、评价产品和服务的平台,相应的网络文本评论信息呈爆炸式增长。如何对海量的网络文本信息进行归纳处理,判定其表达的情感观点,如肯定和否定,成为当前互联网智能信息处理的研究热点。在电影评论、产品质量与服务评价、社会舆情分析、有害信息过滤、Blog评价、新闻报道评述、股票评论、图书推荐、敌对信息检测等领域具有广阔的应用前景和市场价值[1]。文本情感分类属于一种文本分类,它是对文本信息进行分析、处理、归纳和推理,从而判定其表达观点(肯定/否定)的过程。在文本情感分类中,有效情感特征的选择以及判别算法的设计是关键。

基于统计的文本向量空间模型VSM(Vector Space Model)的提出,使得机器学习算法可以广泛地应用于文本情感分类。多种机器学习算法如支持向量机SVM、经典朴素贝叶斯NBve Bayes)、最大熵ME(Maximum Entropy)等广泛地应用于文本情感分类。文献[2]最早采用NB、ME和SVM对Internet上的电影评论文本进行分类,验证了机器学习算法在文本情感分类中应用的可行性。同时实验结果表明,SVM具有良好的泛化能力和较高的分类精确率,性能优于NB和ME。文献[3]将形容词及其修饰词作为文档候选特征,建立VSM,并采用SVM进行分类,判断文档的正面和负面观点,获得了较好的实验结果。文献[4]在情感词典上选择和加权文档的情感特征,使用SVM判定情感极性。肖正等[5]采用SVM在基于“词-文档”的语义距离向量空间上判定文档情感极性的分类,获得较高的分类准确率。杨经等[6]采用SVM并结合词性特征和语义特征对句子进行情感识别和分类。由此可见,SVM作为典型的机器学习方法在文本情感分类中获得了成功的应用。

然而,由于文档的规模较大,且VSM的初始特征向量的维数较大,需要大量的存储资源和较高的计算复杂度,在很大程度上影响了SVM的训练速度。因此在基于SVM的文本情感分类中,文本特征向量的选择和约简直接影响到系统性能。文献[7]将文档频率加权方法和信息增益IG(Information Gain)、互信息MI(Mutual Information)等特征贡献评估方法相结合,进行高判别性特征的选择。文献[8]提出一种基于多重词典的特征选择算法,实验结果表明,该算法具有良好的性能。Wang等[9]提出一种基于改进的Fisher判别比的文本特征选择方法,通过计算文本特征项词频和布尔值的Fisher判别比来衡量特征项的贡献程度。然而词频和布尔值只反映了特征项在所属文档出现的次数或是否出现,无法衡量特征项在文档集上的特性。

在以上研究工作的基础上,本文提出一种基于多约简Fisher-VSM和SVM的文本情感分类算法。该算法首先采用Fisher判别准则剔除VSM中的冗余和噪声信息,在特征加权方面采用词频-逆文档频率法以克服词频法和布尔值的缺陷;然后对文档进行相似性聚类。在保证文本特征向量高判别性的前提下,从文档VSM的维数以及数量两个方面进行约简,以期加快SVM的训练速度,减少SVM的计算复杂度和空间占用,进而提高文本情感分类系统的性能。

1 相关理论

1.1 向量空间模型

在向量空间模型VSM[2]中,依据特征项在所属文档中的重要程度,将文档数字化为一高维向量,每一个特征项对应向量的一维。如何衡量特征项的重要程度是文档向量空间模型建立的关键。常用的特征项权重计算方法主要有:二值法、绝对词频TF(Term Frequency)法、逆文档频率IDF(Inverse Document Frequency)法和词频-逆文档频率TF-IDF(Term Frequency-Inverse Document Frequency)法[10]。二值法是最简单的权重计算方法,反映特征项是否在文档中出现;绝对词频法主要反映特征项在文档中出现的次数,是一种局部文本信息加权方法;逆文档频率法反映该特征出现文档的数目,是一种全局信息加权方法;TF-IDF法既考虑到了文本信息的局部特性,同时也兼顾了特征项的全局特征[11],是目前使用最为广泛的文档特征加权方法,其计算公式如下:

其中di表示含有N个文档的文档集D={D1,D2,…,DN}中第i篇文本Di的数字化向量,di=(w1,i,w2,i,…,wn,i),wji(j=1,2,…,n)表示文档Di中出现特征项tj的权重,n表示特征项的个数。

1.2 支持向量机

支持向量机[12]是基于结构风险最小化原则在两类中寻找最优分类边界,在数据分类方面显示了优越的性能。它的基本原理是首先通过非线性变换将输入空间映射到一个高维特征空间,然后根据核函数在这个新空间中求取最优线性分类平面。支持向量机由于具有较高的分类精确率和召回率,且具有较好的稳定性,被广泛地应用于文本分类中。并且支持向量机的分类超平面有效地克服了特征冗余、样本分布以及过拟合等因素的影响,具有较好的泛化能力。然而,它在大数据集上训练收敛速度较慢,并需要大量的存储资源和较高的计算复杂度。采用输入向量进行SVM的训练,可得到决策分类函数:

其中xi∈Rn,i=1,2,…,l是用于训练的特征向量,yi∈{-1,1}是类别标号,αi>0是Lagrange系数,对应于支持向量(SV)的αi取值非零,其余取值为零。而b是分类的阈值,可以由任意一个支持向量求得。K(xi,x)是核函数,用于替代点积运算,避免在高维特征空间进行复杂的运算,本文采用径向基核函数:

2 多约简Fisher判别性向量空间模型

文档的VSM维数较高,且包含大量的噪声信息和冗余信息。为了更好地选择高判别性的低维文档特征向量,减少相似文档对分类算法的影响,本文提出多约简Fisher判别性向量空间模型Fisher-VSM,并采用SVM判定文档的观点。本文提出的文本情感分类系统框图如图1所示。

图1 基于多约简Fisher-VSM和SVM的文本情感分类系统框图

由图1可知,本文提出的算法主要包括文档VSM维度约简和文档VSM聚类两个方面。由于文档的TF-IDF权特征不仅考虑到特征项在所属文档中的特性,同时也兼顾特征项在整体文档集中的分布情况,具有比二值法、词频法和逆文档频率法更优的分类特性。因此,本文提出采用Fisher判别准则选择高判别性的低维的文档TF-IDF特征。

2.1 低维Fisher-VSM

Fisher判别准则[13]的基本原理是通过寻找特征向量的投影空间,使得特征向量在该投影空间的分离度最大。它在去除噪声特征以及判别性能较差的特征和去除冗余特征方面具有良好的性能[14]

假设文档集D1={d11,d21,…,dm1}和D0={d10,d20,…,dn0}分别表示具有肯定和否定观点的文档的集合,其中m和n分别表示肯定观点和否定观点的文档的数目,m+n=N表示文档集的总数量。fi(tk,di1)和fi(tk,di0)分别表示特征项tk在文档di1和di0中出现的频率。Sk和Tk分别表示特征项tk在D1和D0中出现的全局频率。E1(tk)和E0(tk)分别表示特征项tk在肯定和否定文档中的条件均值,D1(tk)和D0(tk)分别表示tk在肯定和否定文档中的条件方差。E1(tk)、E0(tk)、D1(tk)和D0(tk)的计算公式分别为:

则tk的Fisher判别比值为:

其中:

将式(9)和式(10)代入式(8)即可计算特征项tk的Fisher比值,该公式的计算复杂度为O(m+n)。F(tk)值越大,表明该特征项对分类的贡献越大。因此,可根据该公式分别对文档集中的特征项计算其Fisher判别比值,并由大到小排序,选择值最大的前q个特征项构建文档Fisher判别性VSM(Fisher-VSM)。

2.2 Fisher-VSM聚类

本文在K-均值聚类算法的启发下,提出Fisher-VSM聚类算法。该算法在采用Fisher准则得到的约简向量集上,以文档间的差异度作为相似文档的衡量标准,对文档集进行聚类,以减少文档集的规模,进一步加快SVM的训练速度。同时,为了加快聚类算法的收敛速度,采用粒子群算法[15]全局搜索最优聚类中心。本文算法区别于K-均值聚类算法的优点是:原始数据集经过了Fisher降维处理,且采用粒子群确定聚类中心,聚类算法收敛速度较快、计算复杂度低。

在VSM中,向量间的余弦值用于度量文本间的差异程度,假设文档Di的数字化Fisher-VSM向量为dF(i)isher,其维数为q。则Di和Dj之间的差异度DIV(Di,Dj)度量公式表示为:

在本文的聚类算法中,假设初始化m个粒子群,则第i个粒子的位置为xi=(xi,1,xi,2,…,xi,q),速度为vi=(vi,1,vi,2,…,vi,q)。种群的个体极值为pi=(pi,1,pi,2,…,pi,q),全局极值为g=(g1,g2,...,gq)。粒子的速度和位置更新公式为:

其中,r1()和r2()是分布在[0,1]之间的随机数;c1和c2是加速常数,本文取值为2;ω为惯性权值,用于平衡全局搜索和局部搜索。

Fisher-VSM聚类算法的具体步骤如下:

Step1设定聚类的类别数为C,随机指定C个文档的Fisher-VSM作为最初聚类中心,将各类的聚类中心作为粒子的初始位置,计算粒子的适应度,初始化粒子速度,反复进行m次,生成m个初始粒子群;Rs=0(s=1,2,…,C)用于记录属于当前类别s的文档的数目。

Step2将当前位置设置为个体极值位置,当前位置的适应度为个体极值,并根据各个粒子的个体极值找出全局极值和全局极值位置,调节ω的值。

Step3根据式(12)和式(13)更新粒子的位置和速度。

Step4在当前位置对文档特征向量进行聚类

Step4.1根据式(11)计算当前文档dF(i)isher和聚类中心模型MF(s)isher(s=1,2,…,C)之间的差异度;

Step4.2选择与聚类中心差异度最小的文档划分到相应的类中,Rs=Rs+1,重新计算文档聚类中心模型Ms。

Step5重复执行Step2至Step5,直到聚类中心向量不再变化为止。

3 仿真实验与分析

3.1 实验语料库

实验语料库采用谭松波博士收集整理的中文语料库中的酒店评论数据[16],随机选取数据中正面和负面各1200篇,总共2400篇评论用于模型的训练,选取正负各800篇,总共1600篇用于测试。通过ICTCLAS汉语分析系统对所有的语料文本进行分词,标记词性,选择具有较重感情色彩的名词、形容词和副词作为候选特征项。性能衡量标准为分类准确率(CR)、正面查准率(PP)、正面召回率(RP)、负面查准率(PN)、负面召回率(RN)正面综合准确率(FP)和负面综合准确率(FN),计算公式[11]如下:

其中,aP表示正面文本中正确分类的文本数,aN表示负面文本中正确分类的文本数;bP表示分类为正面的文本数,bN表示分类为负面的文本数;cP表示正面文本数,cN表示负面文本数。

3.2 实验结果及分析

实验1:SVM分类性能测试分析

该实验测试SVM、经典朴素贝叶斯NB和最大熵三种经典机器学习方法对文本情感分类性能的影响,采用TF-IDF函数为特征加权。实验结果如表1和图2所示。

表1 不同分类算法性能比较

图2 不同分类算法性能比较

由表1可知,在三种分类算法中,SVM的正确分类准确率最高为88.87%,相比于NB分类准确率提高了13.68%,相比于ME提高了将近25个百分点。因此,SVM在文本情感分类中,具有良好的分类性能。

实验2:特征权重实验

该实验分别采用二值法、词频法、IDF法和TF-IDF法对文档的特征项加权,测试这四种特征加权方法对情感分类的影响,采用SVM判别文本观点。实验结果如表2所示。

表2 不同权重特征Fisher特征选择性能比较

在这四种特征加权方法中,TF-IDF的性能最高,其分类准确率为82.74%,相比于二值法提高了将近20%,相比于词频法提高了8.3%,相比于IDF法提高了2.99%。这主要是由于TF-IDF在特征项加权中综合考虑特征项局部信息和全局信息,而其他三种方法各有偏重,因此分类准确率较低。

实验3:Fisher特征选择分析比较

该实验采用Fisher准则提取低维高判别性TF-IDF特征,标记为tFisher,原始TF-IDF特征标记为tOrginal,进行对比分析,测试Fisher特征选择对文本情感分类的影响。实验结果如表3所示。

表3 Fisher特征选择性能比较

由表3可知:基于Fisher特征选择的TF-IDF权重特征的各项性能指标均高于原始TF-IDF特征,其FP=89.25%,FN=89.00%,且整体分类准确率达到了89.13%,相比于原始TF-IDF特征分类准确率提高了6.39%。在特征空间维数约简方面,原始TF-IDF的维数为9483,Fisher准则将其约简为5216,特征维度约简率为44.7%。因此,Fisher准则可以有效地提取低维的高判别性特征向量,提高SVM的分类性能,是一种有效的特征选择方法。

实验4:Fisher-VSM聚类算法分析

本实验主要测试Fisher-VSM聚类算法的性能。首先测试Fisher-VSM在不同聚类数目K情况下的性能,实验结果如表4和图3所示。紧接着将Fisher-VSM聚类算法与原始TF-IDF特征构成的VSM聚类进行对比分析,实验结果如表5所示。

表4 Fisher-VSM聚类性能分析比较

图3 Fisher-VSM聚类性能分析比较

表5 Fisher-VSM聚类和VSM聚类性能分析比较

由表4可知,当聚类数目设置为1500时,系统的分类准确率达到最佳,其分类准确率为93.31%。而随着聚类数目的减少,系统的分类性能急剧下降,主要是由于训练样本规模的减少,使得SVM出现训练不足的问题。然而,若K的值较大,虽然解决了训练数据不足的问题,但是大量相似数据的存在,影响了SVM的训练速度及分类准确率。因此,文档聚类数目K=1 500是系统的最佳值。系统的训练文档由2400篇减少到了1 500篇,数目约简率为37.5%,同时系统的分类准确率相比聚类前提高了4.18%。本文提出的Fisher-VSM聚类算法有助于SVM性能的提高,同时可以有效地节约存储空间。

由表5可知,在最优聚类数目K=1500情况下,本文提出的Fisher-VSM聚类算法相比于VSM聚类算法,其分类准确率提高了10.57%。因此,本文提出的聚类算法具有较好的性能。

4 结语

多分类问题 篇9

1 自适应多类最小二乘支持向量机

1.1 最小二乘支持向量机的基本算法

Suykens J.A.K提出了一种新型支持向量机方法——最小二乘支持向量机 (Least Squares Support Vector Machines, 简称LSSVM) 用于解决模式识别和函数估计问题[3]。在特征空间中, 最小二乘支持向量机算法的目标优化函数为:

undefined

约束条件:

yi=wTφ (xi) +b+ei, i=1, …, n

其中:φ (·) 为核函数;w为权矢量;ei为误差变量;γ为可调参数。

为求解优化函数的最小值, 构造Lagrange函数:

undefined

其中αi为拉格朗日乘子。

对式 (1) 求偏导可得:

undefined

其中, i=1, …, N, 通过消去w, e, 求解的优化问题转化为求解线性方程:

undefined

其中y=[y1;…;yN], 1v=[1;…, 1], α=[α1;…;αN]

通过求解式 (2) 可得到α和b, 则用于分类的LSSVM为:undefined

其中K (x, xi) 为核函数.常用的核函数有多项式核函数、径向核函数和sigmoid核函数, 本文采用径向基核函数K (x, y) =exp{- (x-y) 2/σ2}。

1.2 基于M-ary的多类最小二乘支持向量机

标准的最小二乘支持向量机方法是针对二类别分类提出的。将二分类支持向量机推广到多类分类法的方法主要有一对多法、一对一法、ECOC法和决策树法等。这些方法相对比较复杂, 且存在遗漏或重复覆盖问题。对于K类分类问题, 一对一法要K (K-1) /2个二类分类器, 决策树法要K-1个两类分类器.M-ary充分利用了二类分类器的优点:不依赖先验知识, 计算相对简单, 并且在处理K类问题时仅需构造K′=┌log2 K┐ (符号┌ ┐表示向上取整) 个分类器, 实现起来更简单方便。

M-ary分类方法如下[4,5]:

令Ak={j∈S:└ (J-1) 2- (k-1) ┘为奇} (符号└ ┘表示向下取整) Bk=SAk, S={1, 2, ……=, K}, k=1, ……=, K′, yundefined∈{-1, 1}表示学习样本xi在第k个分类器中的类别。建立K′个二类分类函数:

undefinedundefined

最终的分类为undefined。M-ary多类分类算法执行过程, 如图1所示。

1.3 最小二乘支持向量机参数的自适应调整

通过自适应参数优化法[6]来调整LSSVM的参数。

在LSSVM中需要整定的参数有正则化参数γ和核宽度σ.参数γ和σ的自适应优化步骤如下:

1) 首先确定参数γ和σ的取值范围;

2) 构建参数对 (γi, σj) , i=1, …, m, j=1, …, n, 即将两个参数的取值范围分别m和n等份, 构成m×n对参数 (γi, σj) ; 3) 将参数对 (γi, σj) 应用于最小二乘支持向量机学习, 并计算学习误差.取最小学习误差对应的参数对 (γi, σj) Emin为最优参数; 4) 如果误差精度不能达到要求, 则以 (γi, σj) Emin为中心, 缩小参数的取值范围.重复步骤3) , 不断优化LSSVM 的参数, 直至达到所要求的误差精度。

2 应用AM-LSSVM建立大学生就业预测模型

随着大学大学生数量不断增加, 其就业情况也越来越引人关注.大学生的就业情况大致可分为以下四类:y1 (0, 0) :容易找到待遇好的工作;y2 (0, 1) :能找到待遇一般的工作;y3 (1, 0) :不太容易找到工作;y4 (1, 1) :几乎找不到工作.相应的解释变量为x1:专业热门程度;x2:工作经验丰富程度;x3:学习成绩;x4:其它能力。表1是某高校的40名大学生就业资料。

大学生就业问题属于四类分类问题, 依据M-ary多类分类算法, 只需要┌log2 4┐=2个二类分类器即可实现分类.模型建立过程中, 用1-30号样本作训练, 31-40号样本作预测.

用自适应参数优化算法确定两个支持向量机的正则化参数γ和核参数σ2。分别固定σ2和γ时, 两个支持向量机的平均相对预测误差随着γ和σ2值的变化趋势如图2和图3所示。

从图2和图3可得到最优参数组为γ1=107.379、σundefined=10.883和γ2=222.306、σundefined=45.495。确定了最小二乘支持向量机的参数后, 采用M-ary法对大学生的四类就业类别进行训练和预测。1-30号样本的训练精度为100%, 对31-40号样本的预测结果见表2 (括号内为所需二类支持向量机个数) 。为便于对比, 表2同时给出了一对多、一对一、ECOC等方法的分类预测结果。

从表2可以看出, 一对多法需要4个二类支持向量机, 且出现不可分的情况;一对一法和ECOC法的分类结果与M-ary法相同, 但它们需要的二类支持向量机个数均比M-ary法多。因此, 自适应多类最小二乘支持向量机对大学生就业的预测效果较好, 预测精度达到了90%。

3 结论

建立了大学生就业的自适应多类最小二乘支持向量机预测模型。最小二乘支持向量机参数的自适应调整算法避免了凭经验调整模型参数的盲目性;M-ary多类分类法比一对一、一对多、ECOC方法需要的支持向量机少。

参考文献

[1]郭立彬.基于模糊综合评判法的高校大学生就业质量评价模型[J].科技经济市场, 2007 (4) :425-426.

[2]金林.Logistic回归模型的应用——大学生就业状况因素分析[J].时代经贸, 2007 (1) :18-19

[3]Suykens J A K, Vandewalle J.Least Squares Support Vec-tor Machine Classifiers[J].Neural Processing Letters, 1999, 9 (3) :293-300

[4]Daniel J Sebald, James A Bucklew.Support Vector Ma-chines and the Multiple Hypothesis Test Problem[J].Signal Processing.2001, 49 (11) :2865-2872

[5]渐令, 龚淑华, 王义康.基于支持向量机的高炉铁水硅含量多类别分类[J].浙江大学学报 (理学版) , 2007, 34 (3) :282-285

轨迹问题求解教学分类尝试 篇10

一、解析几何轨迹问题的形式特点及分类

轨迹是“具有某种性质的点的集合”.各类轨迹问题中的动点所具备的特定性质, 由问题的条件所给出, 不同的条件决定了形式多样的轨迹并使问题呈现了丰富的面貌, 因类型的各异又常有其相应不同解法.根据条件的不同情况, 大体上可分下面几种类型.

第一类:在问题的条件中给出了关于动点的某种明确的等量关系.如:

1. 已知点M与x轴的距离和它与点F (0, 4) 的距离相等, 求点M的轨迹方程.

2. 已知二定点A (-1, 0) 、B (2, 0) , 求使得∠MBA=2∠MAB的点M的轨迹方程.

第二类:问题中给出两个相互间有着某种明确的依存关系的动点, 其中一个动点在给定的已知曲线上运动 (不妨称之为主动点) , 求另一动点的轨迹 (这轨迹也不妨称之为随动点) .如果把轨迹点看作是主动点的按某种规律的映象, 这类条件也不妨称为是点对点的映射关系.

这类轨迹称为是相对于已知曲线的随动曲线 (或伴随曲线) .如:

1.从一个定点M1 (a, b) 到圆x2+у2=r2上任意一点Q作线段, M点分M1Q成2∶1, 求点M的轨迹方程.

2.从极点O作直线和直线ρcosθ=4交于点M, 在OM上一点P, 使OM·OP=12, 求P点的轨迹方程, 并说明轨迹是什么曲线.

第三类:问题的条件中给出了关于动点在某种变动着的图形中的位置关系, 动点常是问题中某些运动着的图形 (通常是平移或旋转) 的交点或特殊点.如:

1.两根杆分别绕着定点A和B (AB=2a) 在平面内转动, 并且转动时两杆保持相互垂直, 求杆的交点P的轨迹方程.

2.长为2a的线段, 其端点在两个直角坐标轴上滑动, 从原点作这条线段的垂线, 垂足为M, 求点M的轨迹的极坐标方程 (Ox为极轴) , 再化为直角坐标方程.

二、各类轨迹问题的相应解法

形式纷杂的轨迹题有着形形色色的各种解法, 但若根据轨迹条件的各种类型深入分析, 抓住特征区别对待, 可发现各类问题常有其独特的主要解法.在教学中根据轨迹题的类型探讨相应解法, 使问题有规律可循, 易于找出简捷合理的解题途径, 学生就能迅速熟练地掌握这部分基础知识.

1. 第一类轨迹题

这类轨迹问题在课本中出现最早、数量最大, 显然因为它们的解法规律简单明白, 学生由浅入深易于掌握.事实上课本中在轨迹题出现之始就指出了明确的解法步骤:

(1) 建立适当的坐标系, 用 (x, у) 表示曲线上任意一点的坐标; (2) 用坐标方法表示出条件P (M) , 并据以列出方程f (x, y) =0; (3) 化方程f (x, y) =0为最简形式, 即获所求的轨迹方程.据上面的步骤, 只要用动点M的坐标变量x、y, 应用有关的定理、公式, 直接代换问题中的等量条件, 轨迹方程的雏型便可获得, 其后只待整理简化了.这样的方法有时也简称为直接法.

例1在直线上顺次有四点A、B、C、D, 且AB=BC=CD=2a, 如果动点P满足tan∠APB·tan∠CPD=, 求P点的轨迹方程.

解:如图1建立坐标系,

设A、B、C、D的坐标顺次为 (-3a, 0) 、 (-a, 0) 、 (a, 0) 、 (3a, 0) , 并设P点坐标为 (x, y) .

当P点在x轴上方时, 由

当P点在x轴下方时, 可推得与上面相同的结果, 故所求轨迹方程为x2+y2=a2或x2+y2=9a2, 轨迹是两个同心圆, 但它们与轴的四个交点应除去.

2. 第二类轨迹题

在这类问题所给出的映射关系中, 由于主动点 (x0, y0) 与轨迹点 (x, y) 之间存在着某种明确的依存关系因此它们的坐标之间一般能找到应满足的两个等量关系, 又因主动点在己知曲线f (x, y) =0上运动, 它的坐标应满足方程, 即有f (x0, y0) =0, 从三个等式中消去x0, y0, 即可获得所求的轨迹方程.这里的x0, y0实际上起着参数作用, 我们不妨把这种求轨迹的方法称之为“双参数轨迹法”, 它显然是求随动曲线的主要方法.

例2设点P在直线l:x+y+1=0上移动, 在连接原点O与点P的射线OP上取Q点, 使OP·OQ=4, 求Q点的轨迹.

解:因问题涉及线段OP、CQ的长, 不如作极坐标代换, 以0为极点、x轴正向为极轴建立极坐标系, 直线l的方程为ρcosθ+ρsinθ=1.

设坐标P (ρ0, θ0) , Q (ρ, θ) , 则有θ0=θ, (1) ρ0·ρ=4. (2)

因为P点在直线l上, 有ρ0cosθ0+ρ0sinθ0=1. (3)

由 (1) 、 (2) 得代入 (3) 式即可得轨迹方程ρ=4cosθ+4sinθ, 或轨迹是一个圆, 但极点应除外.

这是“双参数轨迹法”在极坐标系下的一个例子.

3. 第三类轨迹题

对于这类轨迹题, 由于给出的图形位置条件变化多端, 解法也就灵活多样, 但大体归纳仍有下面几种主要方法.

(1) 据图形的几何性质将位置条件转化为等量关系.

例3从原点向双曲线的任意切线作垂线, 求垂足M点的轨迹方程.

思考:设双曲线的任意切线为PT, 因为OM⊥PT, 即可获得等量关系kOM·kPT=-1, 再据此求得M的轨迹方程.

解略.

(2) 利用参数.根据条件描述的图形运动情况的不同, 分别采用斜率、角、线段等作为参数来解决问题.

例4如图2, 从原点出发的两条射线OA、OB, 与x轴正向的夹角分别为, 点M、N分别在OA、OB上移动, 且求MN的中点P的轨迹.

解:设∠OMN=α为参数, 则在△OMN中, 由正弦定理知

从两式消去三角函数, 得轨迹方程为椭圆轨迹应是椭圆在∠AOB内的一段弧.

(3) 充分挖掘并利用图形的平几性质解轨迹题.

例5 P是圆x2+y2=25上的动点, PT切圆于P, AB是直径, 且有A (-5, 0) , B (5, 0) , 过A作PT的垂线, 与BP延长线交于Q点, 求Q点的轨迹 (如图3) .

解:连OP,

因为OP⊥PT, OP∥AQ,

OP是△ABQ的中位线,

又因为A为定点, 知Q点轨迹是以A为圆心、半径为10的圆, 其轨迹方程是 (x-5) 2+y2=100.

上一篇:平面设计中的白色魅力下一篇:食品饲料