基于熵的特征选择四篇

2024-09-13

基于熵的特征选择 篇1

关键词:齿轮,裂纹,双谱熵,非高斯性

0 引言

齿轮箱是机械设备中故障率比较高的常用部件之一。目前对于齿轮箱运行状态的监测和故障诊断主要采用振动分析技术,但是当齿轮出现故障时,复杂的内外部激振与强背景噪声往往掩盖了微弱的故障信息,因此故障特征的提取与识别一直是振动分析技术的难点。

信息熵能够刻画瞬变信号各类特征的概率分布特性,将其与振动信号分析方法结合,可以提供反映机械系统故障的多种新特征,近年来国内外在此方向上进行了很多研究[1,2,3,4]。文献[2]采用包括基于傅里叶变换的频谱熵与频谱重心的二维特征对轴承振动信号进行分析,故障识别效果明显。文献[3]对转子径向垂直两通道的振动信号进行小波分析,并提取全信息小波能量熵,从而将转子轴心轨迹信息转化为一维能量熵,有利于不同测点信号的综合分析。文献[4]对信号进行经验模态分解(EMD),并通过计算各本征模函数的能量得到EMD熵,最后成功应用于齿轮不同故障的特征提取与识别中。需要指出的是,目前对熵的应用往往还局限在与能量信息的结合上,然而当故障初期振动信号能量变化不明显,或由复杂工况导致背景噪声变化时,这些方法就会遇到瓶颈。

由于微弱故障特征难以提取,基于能量的熵特征易受工况干扰,本文提出采用双谱熵(bispectral entropy),从故障导致信号非高斯性变化角度提取特征值,并将其用于齿轮裂纹故障振动信号的特征提取和趋势分析中,结果准确有效,为在线监测与后续诊断、预测提供了新的可靠依据。

1 信号的能量熵

信息熵由Shannon提出,在信息论中用来描述信息的不确定程度,将其引入到机械故障诊断中,与不同分析方法结合,可用来揭示故障导致的振动信号各种特征值的变化。以频谱熵为例,若离散信号{x(n),n=1,2,…,2N}的单边幅频谱为{|X(m)|,m=1,2,…,N},则其幅频谱能量的概率质量函数为{P(m),m=1,2,…,N},且m=1ΝΡ(m)=1P(m)有多种计算方法,其中最简便的是:

Ρ(m)=|X(m)|m=1Ν|X(m)|(1)

于是,频谱的谱熵定义为

Η=-m=1ΝΡ(m)lnΡ(m)(2)

仿照式(1)、式(2)可类推功率谱熵(power spectral entropy)、小波能量熵等许多种熵特征值。

2 双谱熵

2.1 双谱

从20世纪80年代开始,基于高阶累积量的高阶谱分析方法被广泛应用于机械系统故障诊断领域,并取得了丰硕的研究成果[5,6,7]。高阶谱分析方法的最大优点就是在理论上可以完全抑制高斯噪声,揭示信号非高斯成分之间的非线性信息。双谱是最常使用的高阶谱,又称为三阶谱,若零均值平稳随机过程{x(n)}的三阶累积量为[8]

c3x(τ1,τ2)=E(x(n)x(n+τ1)x(n+τ2)) (3)

则双谱定义为三阶累积量的二维傅里叶变换:

Bx(ω1,ω2)=∫∞-∞∫∞-∞c3x(τ1,τ2)e-j(ω1τ1+ω2τ2)d τ1d τ2 (4)

式中,ω为圆频率。

根据双谱的性质,若非高斯分布信号{x(n)}与高斯分布信号{y(n)}统计独立,那么观测过程{z(n)|z(n)=x(n)+y(n)}的双谱结果为

Bz(ω1,ω2)=Bx(ω1,ω2)+

By(ω1,ω2)=Bx(ω1,ω2) (5)

所以,使用双谱分析可以有效抑制齿轮箱振动信号中的高斯噪声,保留轴转频率及其谐波、齿轮副啮合频率及其谐波等非高斯成分。双谱一般为复数,没有明确的物理意义,但其幅值谱可以表征信号在双频域内非高斯性的分布情况,从中能够得到信号非高斯成分的能量信息与二次相位耦合信息。

2.2 双谱熵

对信号双谱从幅值大小、幅值形态角度分析,可以得到两类特征值:其一,将双谱幅值求和,通过双频域内非高斯性的强弱变化来提取故障特征,可称为非高斯性强度[9];其二,对双谱幅值求熵,从信号非高斯性在双频域内的形态变化来提取故障特征,可称为双谱熵。

双谱熵的计算步骤如下:

(1)对信号{x(n)}求双谱估计,得到B^x(ω1,ω2)。

(2)双谱具有特殊对称性,其冗余信息会影响分析效果,所以必须去除。将B^x(ω1,ω2)双频域三角形主定义域ω2≥0,ω1≥ω2,2ω1+ω2≤2π外的值全部赋值为零,得到B^x(ω1,ω2)

(3)计算双频域内所有点双谱幅值的概率:

ΡB(ω1,ω2)=|B^x(ω1,ω2)|ω1=0πω2=0π|B^x(ω1,ω2)|(6)

式中,ω1=0πω2=0π|B^x(ω1,ω2)|为基于双谱幅值大小的非高斯性强度(non-Gaussian intensity,NGI)特征值。

(4)求双谱的熵值:

ΗB=-ω1=0πω2=0πΡB(ω1,ω2)lnΡB(ω1,ω2)(7)

双谱熵具有一些重要性质:

(1)非负性。由于0≤PB(ω1,ω2)≤1,0≤ω1≤π,0≤ω2≤π,于是HB≥0。

(2)极值性。当

ΡB(ω1,ω2)={1ω1ω20ω1ω2

时,双谱熵取最小值,HBmin=0;当

ΡB(ω1,ω2)={0(ω1,ω2)Δ(ent((Ν-1)2/3)+Ν)-1(ω1,ω2)Δ

时(离散信号长度为2N点,双谱估计的离散化二维数组为N×N维,“ent( )”为向下取整函数,Δ为双频域三角形主定义域),双谱熵取最大值HBmax=ln(ent((N-1)2/3)+N)。于是,双谱幅值越接近均匀分布,熵值越大,反之熵值越小。

3 实例分析

3.1 齿轮试验台描述

电机驱动齿轮试验台带负载运行,齿轮箱为一级渐开线斜齿轮结构,电机与大齿轮同轴,轴转频率为18.13Hz,大齿轮齿数为75,小齿轮轴转频率为80Hz,齿数为17,啮合频率约1375Hz。试验过程中电机启动、升速至额定转速后恒速运行,至齿轮箱振动加剧后降转速至停机,发现小齿轮断掉一齿,试验过程持续约470s。由箱体上靠近小齿轮的加速度传感器测取振动信号,经调理、放大、转换后存储于计算机,采样频率为8kHz。

尽管试验过程中负载恒定,但小齿轮轮齿根部总受到脉动循环弯曲应力作用,由于弯曲疲劳,齿根产生裂纹,随之轮齿变形加大、刚性下降、应力集中加剧、动载荷增加,直至断齿故障发生。所以裂纹是齿轮断齿的诱因,也是断齿故障的征兆,于是在裂纹产生及扩展期进行故障诊断具有重要意义。

3.2 时域分析与功率谱熵分析

为研究齿轮裂纹,从电机进入额定转速开始截取振动信号,至断齿前结束,获得从100s到375s的振动信号,计算其标准差、峭度指标(kurtosis index),结果依次列于图1中。选取A时段(136.25~136.75s)、B时段(348.75~349.25s)各0.5s时长的振动信号,并将它们的时域波形列于图2中,用以对比正常状态与裂纹故障状态。

由图1b、图1c发现,随裂纹故障的发展,标准差、峭度指标这类时域特征值变化不大,且没有统一的趋势方向。图2中裂纹产生前后振动信号的包络略有变化,其他方面没有明显差异。所以,由基本的时域分析难以发现齿轮裂纹故障信息。

对这275s时长的振动信号进行分段处理,得到220个样本,前一部分为齿轮正常状态,后一部分为齿轮裂纹故障的发展期。对振动信号进行频域分析,将A、B两时段样本信号的功率谱进行对比,为突出两者差异,选用对数谱形式绘制于图3a中,并将各样本的功率谱熵按时序排列于图3b中。

由图3a可知,样本功率谱差别很小,齿轮裂纹故障造成啮合频率附近边频带有所增强,但总体来看对振动信号频域的影响并不明显。功率谱熵可以揭示振动信号频域能量关系的变化,当某些频段能量改变,使得功率谱形态发生变化时,熵值随之改变。图3b中功率谱熵趋势线先下降后上升,并不能准确反映齿轮是否存在裂纹以及裂纹故障发展程度如何。这主要因为测得的振动信号是齿轮啮合时内外部激励在箱体上的响应,其能量受多种因素影响,背景噪声等与裂纹故障无关的激励都会造成振动信号频域能量的改变。因此,频域分析难以发现裂纹故障信息,基于能量变化的功率谱熵不适合对该微弱故障的特征作提取与趋势分析。

3.3 非高斯性强度分析与双谱熵分析

对A、B两时段样本信号进行双谱分析,去除对称冗余信息后将三角形主定义域内双谱幅值以二维图形式绘制于图4中,为全面展示双谱幅值的变化情况,图中等高线主要取低幅值,且间隔不同。

齿轮裂纹故障会造成振动信号的调制现象,在时域波形中表现为信号包络变化,在频域分析中表现为边带成分的改变,而在双谱分析中表现为双频域绝大部分区域内信号非高斯性增强。由图4a发现,齿轮正常状态时,振动信号能量及二次相位耦合多集中在啮合频率及二倍频附近。而裂纹故障会造成双频域内能量及二次非线性普遍提升,双谱在全频域内出现更多凸起,如图4b所示,说明此时振动信号的非高斯成分已产生变化。另外,双谱最大峰值出现在双频域(1375Hz,1375Hz)处,即啮合频率处,且该处幅值随裂纹故障的发展有减小趋势。

对所有样本信号进行双谱分析,并计算其非高斯性强度与双谱熵,分别将这两个特征值的时序趋势线绘于图5中进行对比。

由图5a发现,无论齿轮是否存在故障,非高斯性强度值几乎都处于相同水平,且振荡剧烈,随着裂纹故障的发展,非高斯性强度并无明显的变化趋势。这是因为,裂纹故障导致的振动信号非高斯性变化存在两种趋势:以啮合频率为主的特征频率成分非高斯性减弱,而其他频率成分非高斯性增强。所以双谱幅值变化复杂,以三角形主定义域整体的非高斯性强度来表征裂纹故障效果不佳。

由图5b发现,虽然同种状态样本的熵值有所起伏,但随着齿轮裂纹的出现与发展,双谱熵呈逐渐增大趋势。这是因为双谱幅值在啮合频率处随裂纹故障的发展有所下降,而其他双频域内非高斯性普遍增强,于是双谱幅值的形态发生了变化,越来越趋向熵增方向。所以在试验过程中,双谱熵先水平波动,后振荡增大,由其趋势线可以明显看出裂纹的产生及发展过程,推测大约在200s之后出现了裂纹,直至最后断齿。

4 结论

(1)齿轮裂纹故障会导致振动信号的非高斯性发生变化,除啮合频率等特征频率之外,其他频率成分非高斯性均增强。

(2)基于能量的功率谱熵,由于受非故障因素影响太大,在提取微弱故障信息时效果不理想;以双谱三角形主定义域的非高斯性强度为特征值,来描述裂纹故障导致的非高斯性变化过于笼统,效果也不佳。

(3)双谱熵不基于能量信息,是对信号双频域内幅值形态的量化描述,与振动信号的高斯成分无关,而对齿轮微弱故障导致的非高斯性变化极为敏感,获取的故障趋势准确有效,对后续的趋势预测、故障诊断十分有利。

参考文献

[1]邵忍平,黄欣娜,胡军辉.基于DCT和FFT谱熵分析的机械传动系统状态检测与趋势预测[J].中国机械工程,2008,19(24):2995-2999.Shao Renping,Huang Xinna,Hu Junhui.Analysis of Spectral Entropy Based on DCT and FFT and Its Application to the Condition Detection and Tenden-cy Estimate of Mechanical Transmission System[J].China Mechanical Engineering,2008,19(24):2995-2999.

[2]潘明清,周晓军,杨辰龙,等.基于信息谱熵的支持向量机机械状态识别[J].传感技术学报,2005,18(2):277-280.Pan Mingqing,Zhou Xiaojun,Yang Chenlong,et al.Application of Support Vector Machine Based on In-formation Spectrum Entropy in Machine State Iden-tification[J].Chinese Journal of Sensors and Actua-tors,2005,18(2):277-280.

[3]韩捷,谢凯.全信息小波能量熵及其在旋转机械状态监测中的应用研究[J].机械强度,2009,31(6):876-880.Han Jie,Xie Kai.Study of Full Information WaveletEnergy Entropy and Its Application in Rotating Ma-chine Condition Monitoring[J].Journal of Mechani-cal Strength,2009,31(6):876-880.

[4]张超,陈建军,郭迅.基于EMD能量熵和支持向量机的齿轮故障诊断方法[J].振动与冲击,2010,29(10):216-220.Zhang Chao,Chen Jianjun,Guo Xun.A Gear Fault Diagnosis Method Based on EMD Energy Entropy and SVM[J].Journal of Vibration and Shock,2010,29(10):216-220.

[5]张桂才,史铁林,轩建平,等.高阶统计量与RBF网络结合用于齿轮故障分类[J].中国机械工程,1999,10(11):1250-1254.Zhang Guicai,Shi Tielin,Xuan Jianping,et al.Clas-sification of Gear Faults Using RBF Network Com-bined with Higher-order Statistics[J].China Me-chanical Engineering,1999,10(11):1250-1254.

[6]杨江天,陈家骥,曾子平.双谱分析及其在机械诊断中的应用[J].中国机械工程,2000,11(4):424-426.Yang Jiangtian,Chen Jiaji,Zeng Ziping.Bispectral Analysis and Its Application in Machinery Diagnosis[J].China Mechanical Engineering,2000,11(4):424-426.

[7]Montero F E H,Medina O C.The Application of Bispectrum on Diagnosis of Rolling Element Bear-ings:A Theoretical Approach[J].Mechanical Sys-tems and Signal Processing,2008,22(3):588-596.

[8]张贤达.现代信号处理[M].2版.北京:清华大学出版社,2002.

基于熵的特征选择 篇2

一、动态偏离-份额法(DSSM)的基本思想和空间模型

偏离-份额分析法(Shift-share Method,SSM)由美国经济学家丹尼尔(1942)和克里默(1943)先后提出,经由邓恩(1960)[2]等多位专家改进与修正,现已成为分析某一地区经济发展情况的有效方式。瑟尔沃尔对传统SSM模型进行改进后提出了动态偏离-份额分析法,即DSSM(Dynamic Shift-share Method),这是一种用某一变量在一个时段的发展情况来研究产业竞争力或结构的一种分析方法,对研究的地区或对象具有相对客观公正的评价,具有很强的综合性和动态性[3]。

(一)DSSM的传统模型

传统的DSSM以该地区所在国家或区域为参考标准,将特定研究地区的产业或行业增长看作不断发展的过程,将该研究地区的产业或行业增长在某一时期的变动分为三个组成部分,如公式(1):设研究期限为T,一般T值取5年或者10年。t代表其中的每一个时段,t=0、1、2、3……T-1。G和g分别代表某一时段(1年)全国国内产值和研究地区的产值,那么Δg(ijt+1)=g(ijt+1)-g(ijt)。在传统模型中,该变量在某一时段的变化表示为:

其中,在该公式中:

g(ijt)*R(t+1)代表的是国家分量,指的是研究地区j某产业或行业i第t期的产值按照国家所有产业或者所有行业所属产业的增长速度发展所增加的值;g(ijt)*(Ri(t+1)-R(t+1))表示的是产业结构偏离分量,具体含义为研究地区某产业或行业第t期产值按照全国某产业或行业的实际增长率,与全国所有产业或所有行业所属产业的增长率的差额发展所增加的值。竞争力偏离分量g(ijt)*(r(ijt+1)-Ri(t+1)),其含义为研究地区按照该地区第i产业或行业实际增长率,与全国该产业或行业实际增长率的差额发展所增加的值。

(二)DSSM的空间拓展模型

传统的DSSM忽略了地区间的相互影响作用,直到纳让等人(2004)提出研究地区经济发展受邻近地区的影响程度要大于整个国家的影响[4],才将同等级地区之间的空间相互影响引入到DSSM中。对此,国外有关专家已经进行了大量的研究。我国学者吴继英等(2009)通过构建空间权重矩阵,研究了同等级地区间的空间相互影响力[5];罗健等(2013)[6]、王贝贝等(2015)[7]运用空间模型,对安徽省地级市以及丝绸之路经济带省份的经济增长和产业结构状况进行了科学的分析与评价,得出相对客观公正的结果。

1. 空间权重矩阵

空间动态偏离-份额分析法强调了邻近地区对于研究地区的影响,为了准确地衡量各地区相互之间的影响程度,需构建R×R阶的空间影响系数矩阵W(R表示研究地区数量)。

在矩阵W中,ωjk代表研究地区j和其他地区k之间的空间影响系数,且0≤ωjk≤1。DSSM空间模型的关键问题在于选择何种变量来体现地区之间的空间影响程度,有地理变量和经济变量两大类变量可以考虑。本文采用经济变量X来衡量地区之间的权重,X可以是人均产值、人口数量或者分行业产值等。包耐特(1998)的研究发现地区间经济发展越相似,空间影响系数越大。因此,在研究地区与相邻地区的空间影响系数计算公式(3)中设Xj为研究地区的经济变量,Xk为其他地区的经济变量,计算公式如下。

2. 空间DSSM模型

依据定义的空间影响系数公式,在传统DSSM模型中引入空间增长速度对地区j中产业或行业i的影响,将研究地区j考虑其邻近地区k(本文中邻近地区主要指地理位置接壤的地区)第i产业或者行业的影响的产值增长率记为(也称之为空间增长速度),以增长率表示的经典空间模型公式(4)如下:

在公式(4)中,右边第一项含义不变,为国家分量。第二项表示邻近地区某产业或行业i与国家全部产业或行业产值增长率的差额,可称之为邻近-国家产业结构分量。如果该值为正,则表明邻近地区会对研究地区产生正面拉动作用。第三项描述了研究地区j某产业或行业与邻近地区某行业的差异,称为地区-邻近竞争力分量,此值为正说明研究地区某产业或行业i的发展情况优于邻近地区某产业或行业的发展。

在公式(5)中,n代表邻近地区的数量,g(t+1)ik和g(t)ik分别代表邻近地区k的第t+1期和第t期第i产业或行业的生产总值,其他变量含义不变。在经典模型中,等式右边分解的是国家分量R(t+1)。本文在选择服务业主导行业的过程中采用纳让等人所推导出的20个公式中的其中一种公式(6)(分解国家行业分量R(t+1)i),计算国家和邻近地区对研究地区分行业的影响[8],即竞争力分析公式:

在公式(6)中,右边第一项表示国家行业分量,表示全国某行业增长速度;第二项表示邻近地区第i行业产值的增长率与国家某行业i的增长率的差额,称之为邻近-国家行业竞争力分量。这一变量代表邻近地区某一行业i的发展对全国某行业具有的竞争优势。第三项描述了研究地区的第i行业的增长与邻近地区第i行业的增长的差额,可称之为地区-邻近行业竞争力分量。如果该分量为正,则表明研究地区能有效的利用邻近地区某行业i发展的积极促进作用。如果为负,则表明邻近地区i行业的发展可能会给研究地区带来不利的影响。由于该公式体现的是竞争力分量而不是结构分量,可较为直观地体现出选择范围内的所有行业的竞争力排名,可作为最后选择的依据。由此可见DSSM的空间拓展模型加入了邻近地区对于研究地区的产业或行业影响,使得研究结论更加准确和科学,体现了研究地区某行业或产业在邻近区域中的发展变化情况。DSSM空间模型竞争力分析一般公式如下。

二、研究区域及数据来源

(一)研究区域的选择

本文选取与内蒙古地理位置接壤的东三省(黑龙江省、吉林省、辽宁省)、河北省、山西省、陕西省、宁夏回族自治区和甘肃省作为邻近地区,全国作为背景区域;空间影响系数由公式(3)计算得出,采用研究基期(2009年)的人均国民生产总值来衡量空间影响系数。根据空间经济学的假设,各地区之间的空间影响系数在研究期限内保持不变,内蒙古与周边8省空间影响系数结果见表1。

数据来源:各省2010年统计年鉴。

(二)数据来源

研究模型所用的所有数据来源于2009-2014年的《中国统计年鉴》《中国第三产业统计年鉴》、各省统计年鉴,以及各省的国民经济和社会发展统计公报中的服务业各细分行业产值。因原始数据篇幅过大,不一一列出。根据国家统计局的分类标准,服务业可分为14个细分行业,如图1所示。

三、实证研究

(一)基于空间DSSM模型的行业竞争力分析

将表1中的空间影响系数、2009-2013年内蒙古及邻近8省的服务业各细分行业每年的产值数据(按当年实际价格计算),分别代入空间DSSM模型中的竞争力公式(7)中,得出内蒙古自治区近5年服务业各细分行业的空间动态偏离-份额分析表,如表2所示。

(单位:亿元)

注:由于2009-2013年甘肃省和宁夏回族自治区的统计年鉴将行业S2、S7-S14共9个行业统称为其他服务业,故计算过程中所利用的产值数据是利用Eviews7.0采用最小二乘回归法得出。

经过对我国9省服务业各细分行业近5年的产值计算得出表2的结果。为了能够更直观的观察研究,根据表2中的计算结果,本文以邻近-国家竞争力分量为横轴,以地区-邻近竞争力分量为纵轴,绘制内蒙古服务业空间DSSM分析图,如图2所示。

第一象限为两个竞争力分量全部大于零的行业,位于该象限的行业地区竞争力最强,可以称之为该地区的优势产业。内蒙古服务业中S1、S2、S5这3个行业的地区-邻近竞争力分量和邻近-国家竞争力分量均为正值,说明从2009年到2013年5年间3个行业发展较快,能够较充分利用周边省份该行业的发展对内蒙古3个行业产生的积极影响,尤其是行业S1的近5年地区-邻近的竞争力偏离分量平均值为17.69亿元,说明行业S1的发展优于周边省份,区位竞争优势较为明显。在全国范围内,邻近-国家竞争力分量平均值是13.79,内蒙古3个行业同样可以利用邻近省份的发展良好势头来带动自身更好更快地发展。

第二象限代表该地区的行业具有自身的竞争优势,但是邻近地区的行业发展可能会给研究地区带来一定的消极影响。内蒙古服务业中S3、S7两个行业的近5年地区-邻近竞争力分量平均值分别为42.75亿元、18.51亿元,均大于零,邻近-国家竞争力分量小于零,说明内蒙古服务业中S3和S7两个行业对于邻近8省份而言,竞争优势较为明显,但是8省两个行业的发展状况从全国范围内比较并没有竞争优势,可能会给内蒙古这两个行业带来不同程度的负面影响。

第三象限代表研究地区较为落后的行业,自身既没有竞争优势,周围地区的发展还可能给该地区带来负面的消极作用。从近5年的数据分析结果来看,最不具有竞争优势的两个行业就是S11、S12。两个行业地区-邻近竞争力分量和邻近-国家竞争力分量均值近5年均为负值,说明不仅内蒙古这两个行业与邻近省份相比较没有竞争优势,而且邻近省份两行业发展缓慢还会给内蒙古带来负面影响。这也从一定程度上反映了我国西部地区的教育、卫生、社会保障业处于全国较落后水平,不适合作为西部地区的服务业主导行业发挥拉动带头作用。

第四象限代表该地区的某些行业自身的竞争优势不明显,但邻近地区的发展情况较好,可以拉动研究地区的行业发展。在第四象限的内蒙古服务行业包括S4、S6、S8、S9、S10、S13、S14共7个行业。7个行业近5年的地区-邻近竞争力分量均值均为负值,邻近-国家竞争力分量为正值。说明7个行业与相邻省份比较无竞争优势,但是周边省份这些行业增长速度高于国家平均水平,可能会给内蒙古7行业发展带来积极的促进作用,如果内蒙古能够有效利用邻近的优势资源与条件,7行业的发展前景较为乐观,有望成为主导行业。

通过图2直观的描述可以看出内蒙古服务业14个行业中有3个位于竞争力和发展潜力较大的第一象限,2个位于处于竞争劣势的第三象限,在进行主导行业的选择时不与考虑。其余9个行业分别位于二、四象限,有一定的竞争优势。在舍弃2个行业,提炼出3个主导行业的基础上,进一步结合并参考区位熵综合分析,最终确定内蒙古服务业主导行业。

(二)基于区位熵的行业竞争力分析

区位熵(LQ,Location Quotient)指标由美国哈盖特提出,也是许多学者对产业或行业专业化水平进行评价的方法[9]。一般情况下,LQij>1,则研究地区j的第i行业对于全国来说具有优势,地区行业分布集中。如果LQij<1,则行业i不具优势。越接近于0表明行业分布分散,不能形成行业竞争力。区位熵系数的具体计算公式如下。

在公式(8)中,yij表示研究地区j第i产业或行业产值(或从业人数),表示地区j所有产业或行业产值(或从业人数)。yi代表全国该产业或行业产值(或从业人数),∑y代表全国所有产业或行业产值(或从业人数)。

本文利用两个LQ系数进行2009-2013年间自治区服务业各细分行业竞争力的分析,即行业产值区位熵LQ1和从业人数(城镇单位)区位熵LQ2。产值区位熵可以反映出行业i的整体发展水平对于全国i行业所表现出的优势或劣势;从业人数区位熵可以反映出行业i是否具有较强的吸纳就业的能力,以此来判断该行业是否具有很好的社会效益,从而判断其是否可以作为地区重点发展的主导行业。区位熵LQ1的原始数据来自中国和各省的2010-2014年的统计年鉴,区位熵LQ2原始数据来源于2010-2014年中国第三产业统计年鉴。将所有相应的原始数据分别代入公式(8)可以得出相应的两个区位熵系数LQ1和LQ2,具体分析结果如表3所示。

行业中标有*代表行业产值区位熵近5年平均值大于1,标有#代表行业从业人数区位熵近5年平均值大于1。从表3区位熵的分析结果可以看出行业S1占有绝对的优势,两个区位熵系数近5年的值均大于1,说明该行业产生了很强的集聚效应,能够很好地带动内蒙古服务业整体产值与就业水平,竞争优势较为明显。S1处于空间DSSM分析图中的第一象限,是主导行业的最佳选择,可以加大投资力度进行重点发展,继续保持与不断提升行业优势。

在区位熵系数表中表现出较明显竞争优势的行业有S10和S14,这两个行业在LQ1和LQ2两个系数上近5年的值绝大部分也大于1,只有行业S102012-2013年的从业人数区位熵系数LQ2小于1,说明该行业近两年吸收就业情况欠佳。在空间DSSM图中,行业S10和S14位于第四象限,内蒙古可以通过充分利用周边省份该行业发展的积极带动作用,快速提升自身竞争力,尽快使这两个行业转入第一象限,成为自治区服务业的优势行业。在空间DSSM模型中,行业S2、S5位于第一象限,属于竞争力较为突出的行业。在区位熵分析中,两个行业的两个区位熵系数整体也较为理想,综合两个角度进行分析,通过进一步完善发展,S2、S5同样有机会发展成为内蒙古服务业主导行业。剩余的9个行业中除了已舍弃的位于第三象限的行业S11和S12,其他7各行业在基于空间DSSM模型的行业竞争力分析中不具备明显优势,在基于区位熵法的行业竞争力中两个区位熵系数值绝大部分在1以下,表明这7个行业不能很好的带动内蒙古服务业的优质、快速、健康发展,故不能选作自治区服务业主导行业。具体各行业竞争优势如图3所示,图3中两个区位熵系数与各行业的连接线代表2009-2013年的两个区位熵系数平均值同时大于1的行业。

四、结论与建议

(一)结论

通过空间动态偏离-份额分析以及两个区位熵系数分析,本文得出内蒙古服务业应该优先发展的主导行业有S1、S2、S5、S10、S14五大行业。参照方远平(2008)的方法,可将我国2002年颁布的《国民经济行业分类与代码》中服务业各行业整合为生产性、分配性、消费性、社会性服务业四大类[10],其中S2、S5属于生产性服务业,S1归属于分配性服务业,S10归属于消费性服务业,S14归属于社会性服务业。按照上述服务业“四分法”,本研究为内蒙古服务业找到了每一服务业大类最具潜力和竞争优势的五大主导行业。通过上述行业的优先发展可以带动内蒙古服务业内各行业的发展,并实现内蒙古四类服务业均衡发展。

(二)建议

依托内蒙古现有信息技术产业园区,内蒙古生产性服务业应以发展S2(信息传输、计算机服务和软件业)、S5(金融业)为基础。实现行业S2的集聚发展,提升产业集聚效应,才能为生产性服务业其他行业发展奠定良好的基础。行业S5将随着经济发展速度放缓而告别粗放的发展方式,其支持经济发展的方式也必然要求寻求新的突破点。因此,应大力支持非银行金融机构融资和鼓励互联网金融业的发展,以提高金融业固定资产投资额。

在服务业14个行业中,S1是在全国范围内具备竞争优势,并能够最有效利用邻近省份资源的行业。内蒙古分配性服务业发展必须依托S1(交通运输、仓储和邮政业)的发展与带动。可以利用内蒙古在“丝绸之路经济带”的重要战略位置,充分发挥内蒙古物流业辐射带动作用,统筹自治区现代物流规划,推进物流信息共享平台建设,加强内蒙古各大物流枢纽和园区建设与投资力度,实现运输和物流信息系统的互联互通。另外,应加强各盟市及农村流通体系建设,形成城乡政策共享和资源整合,注重推进生活性物流业发展[11]。

内蒙古消费性服务业应采取积极措施,推动S10(居民和其他服务业)的发展。行业S10是服务业劳动力需求的主体,也是促进就业、保障社会稳定的主导行业。大力发展居民服务业,既可以满足居民对生活质量提高的需求,又能大量吸纳就业,为农村劳动力的城镇化转移提供更多的就业机会。

内蒙古社会性服务业发展应更多关注S14(公共管理和社会组织),通过政策倾斜与投资引导,利用政府投资与民间资本注入相结合,尽快改善公共管理各项服务业;同时,积极培育各类社会组织与团体,通过公共管理与社会组织服务业的进一步发展,既能够实现居民享有更好的公共资源,又可以使广大的民众参与到社会发展和国家建设中来。

参考文献

[1]邬义钧,邱钧.产业经济学[M].北京:中国统计出版社,1996:35.

[2]Dunn ES.A statistical and analytical technique for regional analysis[J].Papers of Regional Science Association,1960(6):97-112.

[3]杜龙政,常茗.中国十大城市群产业结构及产业竞争力比较研究[J].地域研究与开发,2015,34(1):50-54.

[4]Nazara S,Hewings GJD.Spatial Structure and Taxonomy of De-composition in Shift-share Analysis[J].Growth and Change,2004(35):476-490.

[5]吴继英,赵喜仓.偏离——份额分析法空间模型及其应用[J].统计研究,2009,26(4):73-79.

[6]罗健,曹卫东,田艳争.比例性偏离份额空间模型推演及应用[J].地理研究,2013,32(4):755-766.

[7]王贝贝,肖海峰,孙赫.丝绸之路经济带:省区经济增长与产业优势[J].广东财经大学学报,2015(1):4-22.

[8]成艾华,寇理.基于空间SSM的主导产业选择研究——以贵州省为例[J].中南民族大学学报:人文社会科学版,2015,35(3):70-75.

[9]Porter,M.E.Clusters and the New Economics of Competition[J].Harvard Business Review,1998(11-12):30-35.

[10]方远平,毕斗斗.国内外服务业分类探讨[J].国内经贸探索,2008,24(1):72-76.

基于熵的特征选择 篇3

摘要:针对支持向量机在分类过程中的特征选择问题,提出了一种改进的遗传算法。在演化进程中运用Meteopolis准则通过合理选群来防止进化陷入局部极值区域。最后针对ucI数据库中的数据,通过将该算法与其他几种方法进行了比较,证明了本文算法具有较优的特征选择效果,并已成功应用在基于支持向量机的数字电路板故障诊断中。

关键词:支持向量机;互敏感度信息量;独立敏感度信息量;自适应变异率;Meteopolis准则

引言

支持向量机是一种在统计学习理论的基础上发展而来的机器学习方法,通过学习类别之间分界面附近的精确信息,可以自动寻找那些对分类有较好区分能力的支持向量,由此构造出的分类器可以使类与类之间的间隔最大化,因而有较好的泛化性能和较高的分类准确率。由于支持向量机具有小样本、非线性、高维数、避免局部最小点以及过学习现象等优点,所以被广泛运用于故障诊断、图像识别、回归预测等领域。但是如果缺少了对样本进行有效地特征选择,支持向量机在分类时往往会出现训练时间过长以及较低的分类准确率,这恰恰是由于支持向量机无法利用混乱的样本分类信息而引起的,因此特征选择是分类问题中的一个重要环节。特征选择的任务是从原始的特征集合中去除对分类无用的冗余特征以及那些具有相似分类信息的重复特征,因而可以有效降低特征维数,缩短训练时间,提高分类准确率。

目前特征选择的方法主要有主成分分析法、最大熵原理、粗糙集理论等。然而由于这些方法主要依据繁复的数学理论,在计算过程中可能存在求导和函数连续性等客观限定条件,在必要时还需要设定用来指导寻优搜索方向的搜索规则。遗传算法作为一种鲁棒性极强的智能识别方法,直接对寻优对象进行操作,不存在特定数学条件的限定,具有极好的全局寻优能力和并行性;而由于遗传算法采用概率化的寻优方法,所以在自动搜索的过程中可以自主获取与寻优有关的线索,并在加以学习之后可以自适应地调整搜索方向,不需要确定搜索的规则。因此遗传算法被广泛应用在知识发现、组合优化、机器学习、信号处理、自适应控制和人工生命等领域。

基于改进遗传算法的特征选择

遗传算法是一种新近发展起来的搜索最优化算法。遗传算法从任意一个的初始生物种群开始,通过随机的选择、交叉和变异操作,产生一群拥有更适应自然界的新个体的新一代种群,使得种群的进化趋势向着最,优的方向发展。图1中所示的是标准的遗传算法的流程框图。

传统的遗传算法存在早熟收敛、非全局收敛以及后期收敛速度慢的缺点,为此本文提出了一种能够在进化过程中自适应调节变异率,以及利用模拟退火防止早熟的改进遗传算法,同时该算法利用敏感度信息可以有效地控制遗传操作。图2是改进遗传算法的流程框图。

染色体编码和适应度函数

所谓编码是指将问题的解空间转换成遗传算法所能处理的搜索空间。在特征选择问题中,常常使用二进制的编码形式,使得每个二进制就是一个染色体,其位数长度等于特征的个数。每一位代表一个特征,每位上的1表示选中该特征,0则表示不选中。每一代种群都由若干个染色体组成。

适应度函数是整个遗传算法中极为重要的部分,好的适应度函数能使染色体进化到最优个体,它决定了在整个寻优过程中是否能够合理地协调好过早收敛和过慢结束这对矛盾。由于本文针对的是支持向量机的特征选择问题,所以考虑以分类正确率和未选择的特征个数这两个参数作为函数的自变量。将分类正确率作为主要衡量标准,未选择的特征个数为次要标准。由此建立以下的适应度函数:式中c为分类正确率。为未选择的特征个数,a是调节系数,用来平衡分类正确率和未选择的特征个数对适应度函数的影响程度,同时该系数也体现了用最少的特征得到较大分类正确率的原则,在本文中a取0.00077。由上式可知,分类正确率越高,未选的特征个数越多,染色体的适应度就越大。

选择操作

选择操作需要按照一定的规则从原有的种群中选择部分优秀个体用来交叉和变异。选择原则建立在对个体适应度进行评价的基础上,目的是避免基因损失,提高全局收敛性和计算效率。本文首先将整个种群中最优的前40%的个体保留下来,以确保有足够的优良个体进入下一代,对剩下的60%的个体采用轮盘算法进行选择,这样做可以弥补保留前40%个体而带来的局部最优解不易被淘汰的不利影响,有利于保持种群的多样性。

基于敏感度信息量的交叉、变异操作

独立敏感度信息量Q(i)指的是对在所有特征都被选中时计算所得到的适应度值Allfitness以及只有特征i未被选中时计算得到的适应度值Wfitness(i)按式(2)进行计算得到的数值。独立敏感度信息量刻画了适应度对特征是否被选择的敏感程度。

互敏感度信息量R(i,j)由(3)式可得,互敏感度信息量体现了特征与特征之间对适应度的近似影响程度。

交叉操作的作用是通过交换两个染色体之间的若干位从而生成含有部分原始优良基因的新个体。由式(3)可知互敏感度信息量可作为不同特征之间含有相似分类信息的一种度量,所以可以将互敏感度信息量代入式(4)计算出染色体在第一位发生交叉的几率β(j),在式(4)中i和j分别代表特征和特征j,是染色体的长度。β(i)是特征,相对于其他所有特征在互敏感度信息量上的归一量,反映了特征与其余特征在相似信息量上的总和。由此对应到染色体上,β(i)就可以认为是染色体的第i位与整个染色体在基因信息上的相关性,β(i)越小则说明相关性越大,第i位与整个染色体所含的基因信息越接近,此位为分裂点的几率越小。由于β(i)是归一化量,故可采用轮盘算法来选择一个交叉点。

变异操作是引入新物种的重要手段,可以有效地增加种群个体的多样性。本文中的变异率Pm采用相邻两代之间的最优适应度增幅比作为自变量进行自适应调节,如式(5)所示。当适应度增幅比正向增大时,较小的增幅比可以使变异率维持在中等水平,并且变异率随着增幅比的增大而缓慢降低,这样既能够拥有一定数量的新个体也可以抑制过多不良染色体的产生,保证优秀染色体的进化足够稳定;而当适应度增幅比反向增大时,由较小增幅比则可以获得较高的变异率。并且变异率也伴随增幅比同比缓慢升高,确保有足够的染色体发生变异,稳定地加快进化速度。式中dis指新生种群的最优适应度相对于原种群的最优适应度的增幅比,尚k均是区间(0,1)上的调节系数。文中的j与k分别取0.65和0.055。

独立敏感度信息量在一定程度上体现了单个特征所含有的分类信息量,如果独立敏感度信息量小,则说

明该特征所含信息大部分对分类没有帮助,即该基因位发生突变后对整个染色体的优异性影响不大,突变的概率也就相应减小。因此将独立敏感度信息量归一化后所得到的q(i)作为特征i被选为变异点的概率。变异点的具体选择方法为:针对一个染色体按照染色体的位数进行循环遍历,在该循环中由变异率Pm判定是否产生变异位。若需要产生变异位,则依据q(i)按照轮盘算法进行选择。

模拟退火选群

在每一轮进化完成后都需要决定进入下一轮进化的种群。如果过多地将较优种群作为父代,就会使算法过早收敛或搜索缓慢。文献中指出模拟退火算法能够以一定的概率接受劣解从而跳出局部极值区域并最终趋于全局最优解。因此可以将上文提到的最优适应度增幅比作为能量函数,运用模拟退火的Meteopolis准则来选择待进化的种群。为了使每个种群得到充分地进化,预防最优解的丢失,这里采用设置退火步长的策略来实现模拟退火选群。该策略具体为:使退火步长对同一种群作为父代的次数进行计数,一旦产生更优种群则退火步长就置零并重新计数。若退火步长累计超过一定的阈值时,就进入模拟退火选群阶段。退火步长累计到一定数量意味着原有种群的进化已经停滞,需要用模拟退火算法摆脱这种停滞状态。如果增幅比大于零,则说明新生种群优于原有种群。这时完全接受新种群进入下一轮进化:否则新生种群劣于原有种群,并以一定的概率p接受较劣的新生种群进入下一轮进化。接受概率lp由式(6)和式(7)共同决定,其中dis为增幅比,T(s)指温度参数,To和s分别是初始温度和迭代次数。

以上两式的参数要满足进化对接受概率的要求。即增幅比负增长越大,接受概率降低越迅速,但接受概率随迭代次数的增加应缓慢下降。这样做能够保证在有限的迭代次数内有一个适应度较优的新生种群进入下一轮进化,以达到减少计算量和优选待进化种群的目的。在本文中To=0.2,A=0.9,m=0.5。

实例的验证与分析

UCI数据库常用来比较各种方法的分类效果,因此可以用其验证本算法对支持向量机作用后的分类效果。文献㈨采用了UCI数据库中的German、Ionosphere和Sonar三种数据作为实验对象,为了便于与文献中所用的几种方法进行对比,本文也采用这三种数据进行实验,并按照文献中所述的比例将各类数据分成相应的训练样本和测试样本。

在种群规模为30,交叉率为0.8、起始变异率为0.1的条件下使用支持向量机作为分类器(惩罚参数为13.7,径向基核函数参数为10.6)对所选数据进行分类,表1中显示了本文算法与文献中几种算法在分类效果上的对比,表2给出了三种数据的最终选择结果。表1中共出现了四种方法:方法1:使用本文算法:方法2:使用NGA/PCA方法;方法3:使用PCA方法;方法4:使用简单遗传算法。

由于本文算法旨在用最少的特征个数最大化分类正确率,因此从表1中可以看出本文算法在特征选择个数和分类正确率上均比其他三种方法更具优势。由于NGA/PCA算法是针对简单遗传算法和主成分分析法的不足而做的改进,其性能优于简单遗传算法和主成分分析法,所以本文算法的分类效果优于NGA/PcA算法这一事实更能说明该算法可以较好地解决支持向基机的特征选择问题。

结语

通过与其他方法的比较,本文算法的分类效果得到了充分的验证,也说明了该算法具有极好的泛化能力以及在敏感度信息量地指导下遗传操作的有效性。

适应度函数的设计至关重要,它直接影响到最终结果的优劣以及算法的收敛性,所以在适应度函数的设计应考虑所解决问题的侧重点。

分类正确率的高低不仅取决于合理的特征选择,而且与支持向量机的参数优化有关。只有在合理的特征选择和参数优化的前提下,支持向量机分类器才能发挥出最佳的分类效果。

基于熵的特征选择 篇4

基于均值置信区间带的高光谱特征波段选择与树种识别

摘要:以柏木、雷竹和无患子野外高光谱数据为基础,在统计学理论和实践分析的基础上,提出了利用均值置信区间带筛选树种间最佳特征区分波段及利用Manhattan距离和Min-Max区间相似度识别树种的.问题.研究结果表明:(1)柏木与雷竹之间的最佳区分波段为358~386,452~1 145和1 314~2 500 nm,柏木与无患子之间的最佳区分波段为350~446,497~527,553~1 330,1 355~2 400和2 436~2 500nm,雷竹与无患子之间的最佳区分波段为434~555,580~1 903,1 914~2 089,2 172~2 457和2 475~2 500 nm;(2)在最佳区分波段内,同种树种间的Manhattan距离远小于异种树种间的Manhattan距离,同种树种间的Min~Max区间相似度远大于异种树种间的Min~Max区间相似度,Manhattan距离和Min~Max区间相似度可以有效区分和识别不同类型的树种. 作者: 陈永刚  丁丽霞  葛宏立  张茂震  胡芸 Author: CHEN Yong-gang  DING Li-xia  GE Hong-li  ZHANG Mao-zhen  HU Yun 作者单位: 浙江农林大学,浙江省森林生态系统碳循环与固碳减排重点实验室,环境科技学院,浙江临安311300 期 刊: 光谱学与光谱分析   ISTICEISCIPKU Journal: Spectroscopy and Spectral Analysis 年,卷(期): , 31(9) 分类号: S771.8 关键词: 置信区间    高光谱    Manhattan距离    Min~Max区间相似度    机标分类号: TP3 TP7 机标关键词: 均值    置信区间    高光谱特征    波段选择    树种识别    Species    Confidence Interval    Based    区间相似度    分波段    无患子    距离和    雷竹    柏木    Min    Max    相似度识别    统计学理论    异种    同种 基金项目: 国家自然科学基金,国家自然科学基金,浙江省教育厅项目 基于均值置信区间带的高光谱特征波段选择与树种识别[期刊论文]  光谱学与光谱分析 --2011, 31(9)陈永刚  丁丽霞  葛宏立  张茂震  胡芸以柏木、雷竹和无患子野外高光谱数据为基础,在统计学理论和实践分析的基础上,提出了利用均值置信区间带筛选树种间最佳特征区分波段及利用Manhattan距离和Min-Max区间相似度识别树种的问题.研究结果表明:(1)柏木与雷竹之...

上一篇:脚踏实地求真务实下一篇:传统学科型课程