首页 > 文章中心 > 数学建模聚类算法

数学建模聚类算法

前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇数学建模聚类算法范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。

数学建模聚类算法

数学建模聚类算法范文第1篇

关键字:复杂系统建模系统模型

中图分类号:TP27文献标识码:A 文章编号:1672-3791(2012)02(c)-0000-00

1 引言

复杂科学这一概念在20世纪80年代就被提出,但是到目前为止,它还没有一个统一确切的定义。如美国学者霍兰认为,“适应性造就了复杂性”;国内如钱学森院士引领的“开发的复杂巨系统”的研究。虽然不同学科的学者对它的理解不同,但无可厚非的是已经有很多科学家把它誉为“21世纪的科学”。又因为复杂系统的建模方法是研究复杂系统的基础,所以研究复杂系统的建模方法就显得尤为重要了。

2 复杂系统的本质及其特点

复杂系统最本质的特征是其组成具有某种程度的智能,即具有了解其所处的环境,预测其变化,并按照预定的目标采取行动的能力。

复杂系统具有以下主要的几个特点:(1)自适应性/自组织性。系统是有时空交叠或分布的组件构成的。(2)不确定性。因为不确定性与随机性相关,与混沌相关,复杂系统是不确定的系统,通常不可能对复杂系统进行形式化的分析。复杂系统的行为表现为不可重复性,不能再现复杂系统的行为。(3)涌现性。涌现是有层次的,同时也体现了一种质变。它强调个体之间的相互关系。(4)系统规模大。系统规模是复杂系统的前提。(5)系统结构具有多样性和层次性。复杂系统的各个组成部分的多样性和差异性造成了组成部分之间相互关系的多样性和差异性。(6)预决性。复杂系统的发展趋向取决于系统的预决性,预决性是系统对未来状态的预期和实际状态限制的统一。(7)演化。其演化是从低级到高级,从简单到复杂的不断过程。(8)主动性。系统与外部环境以及子系统之间存在能量、信息或者物质的转换。

根据复杂系统的这些特点,我们可以很容易的发现,采用传统的理论方法和完全使用单一的数学动力学模型很难描述复杂系统。那么我们要解决复杂系统问题,则必须要发展和寻找与之相适应的复杂系统理论。因此,研究复杂系统的建模方法就具有重大的现实意义了。

3 复杂系统的建模方法

许多学者致力于复杂系统建模的研究,并且已经取得了许多研究成果。这些成果主要有:

神经网络有强大的学习能力与非线性表达能力。王书舟等[1]提出一种基于混沌变量的并行变尺度优化算法,根据混沌优化方法的优点,可以很容易的跳出局部极小点。黎明等[2]提出一种基于粗糙集的神经网络模型,它对数据分析采用粗糙集理论,并从数据中提取规则,从而将输入映射到输出的子空间上,用用神经网络对其进行逼近。该方法具有处理连续数据能力、神经网络训练速度提高、对系统本身有一定的认识等特点,但是它还存在各参数物理意义不明确、在数据离散化时可能产生矛盾规则等不足。李艳君等提出的一种将遗传算法和正交优化相结合来训练径向基函数(RBF)神经网络的新方法,称为GRBF算法。

模糊模型具有结构简单、参数较少、运算量低、泛化能力强等特点,其较高的结构解释性使模型就有较少的模糊规则和输入的变量个数,且模糊规则不存在容冗余和矛盾等优势。邬沛雄等[3]提出了一种改进遗传算法的模糊建模方法,该方法是在标准的T-S模糊模型基础上,通过改进的遗传算法来优化扩展的T-S模糊模型的结构和参数。该方法具有模型复杂度低、计算时速快等特点。马广福等[4]提出了基于模糊聚类和模糊神经网络的模糊建模方法。该方法先利用模糊聚类技术确定系统的模糊空间和模糊规则数,然后通过模糊神经网络来调整模型的前后件参数,给出详细的算法。李波[5]提出的基于模糊模型同径向基函数相结合的复杂系统建模方法。在确定后件结构的MTS模糊模型和径向基函数网络之间有直接对应关系,因此我们可以把前件结构确定和后件辨识分开。该方法具有精度较高、简单的特点。

毛媛等[6]提出基于元模型建模方法,把元模型技术应用到复杂系统仿真平台中进行建模,可以加速复杂系统仿真的设计、开发和实现,且获得的静态数据结果跟实现情况相差不大,即其信用度高。

李柠等[7]提出基于LPF算法的多模型建模方法。从理想建模思想出发,在大量输入输出数据中找与系统当前状态相关的数据,并用LPF算法建立一个系统局部模型,根据系统状态的变化建立多个这样的局部模型,从而实现准确的全局建模。该方法获得的具有可靠性、更强的适应性、为距离意义上的概念、算法性能强等优点,其不足之处为工作点领域和模型切换准则将直接影响模型的精度。

粗糙集理论可以有效的分析和处理各种不完备信息,李文等[8]提出的基于粗糙集理论建立模糊模型的方法,并针对模糊模型的完备化问题,提出了扩充和整定的概念,从而建立了脉冲TIG焊动态过程模型。该方法能在数据不完整,精确度不高的情况下进行比较客观和有效的提取复杂过程的模糊模型。

此外,还有肖人彬提出了基于结构建模的方法;康立山等提出一种常微分方程组的演化建模方法;马旭等提出了基于现象的复杂系统建模方法等等,在这里就不一一列举了。

4 结语

虽然复杂系统建模还处于萌芽阶段,但是我们已经取得了令人瞩目的成绩。可以发现,在未来采用两种和两种以上的方法相结合建模将成为未来发展和讲究的方向。主要是将神经网络、粗糙集理论、模糊逻辑、遗传算法、小波等其它一些兴起的方法相互渗透和结合。虽然由于目前的建模方法不成熟,使得理论和现实还存在一定的差距,对于如何建立一个精度高、准确性好、算法简单、适用性强的模型,还需要进行进一步的研究。

参考文献

[1]王书舟,伞冶.基于混沌神经网络的复杂系统建模方法研究,全球化制造高级论坛暨21世纪仿真技术研讨会论文集

[2]黎明,张化光.基于粗糙集的神经网络建模方法的研究,自动化学报,2002

[3]邬沛雄,杨善水.一种基于改进遗传算法的模糊建模方法,南京航空航天大学学报,2004

[4]马广富,王宏伟,王司.基于模糊神经网络的系统模糊建模方法,哈尔滨工业大学学报,1999

[5]李波,张世英.基于神经模糊方法的房子系统建模,信息与控制,2001

[6]毛媛,刘杰,李伯虎.基于元模型的复杂系统建模方法研究,系统仿真学报,2002

数学建模聚类算法范文第2篇

关键词:主抽变频;烧结;仿真

1.引言

烧结生产过程是一个多变量、非线性、长延时的复杂系统。烧结过程建模是烧结过程控制的基础,是烧结智能化程序设定及优化的依据。

目前,智能建模方法已经成为解决复杂工业建模难题的重要途径,其中神经网络模型具有非线性拟合能力强,精度高的特c,适应于烧结过程建模。利用神经网络建模的方法有、BP 神经网络[1]、小波神经网络[2]、模糊小脑模型神经网络[3]、多网络模型[4]以及结合机理模型的BP 神经网络[5]等。通过这些智能化建模方法建立的烧结过程模型精度较高,可以反映实际烧结过程。

基于烧结过程的特殊性,笔者针对钢铁厂烧结过程智能控制要求,提出了一种烧结过程建模方法。首先,通过分析气体在主抽大烟道的运行过程,通过伯努利方程建立大烟道负压、风量及主抽风机功率关系数学模型;其次,进一步建立烧结过程中关于物料料层厚度、大烟道负压、风量与垂直烧结速度预测神经网络模型。最后,结合机理分析及BP神经网络模型,对烧结过程进行仿真分析,仿真结果表明,结合烧结机理建立的烧结主抽负压模型精度能满足现代智能控制的应用要求。

2.烧结系统建模分析

2.1大烟道管道系统机理建模

主抽风机以负压的形式抽风,空气在大烟道内的流动过程可以用伯努利方程表示,有:

(1)

空气在管道运行过程中,根据伯努利方程(基于机械能守恒规律),这里考虑一部分能量内能损耗及其漏风带走的动能及风机自己损耗,可得到管道风量与风机功率之间的线性表达式:

(2)

其中:W为风机功率,Q管道为大烟道风量。

也可以表示为: (3)

其中:W为风机功率,P管道为大烟道负压。

其中:a0、a1、a2、a3为与管道及运行状态相关系数。

2.2烧结台车焙烧过程BP神经网络建模

为减小BP神经网络训练的复杂性,采用3层的网络结构,建立烧结过程终点位置预测模型,网络结构如图所示:

图1.BP神经网络结构图

其中,x1,x2,…,xn表示BP神经网络的输入变量,y表示BP神经网络的输出变量,h1,h2,…,hn表示网络隐含层变量,bk为隐含层第k个节点的阈值,θ为输出层节点的阈值, 为输入层第j个变量到隐含层第k个节点的权值, 为隐含层第k个变量到输出层节点的权值。

通过生产指标与过程参数的灰色关联度分析,确定烧结物料焙烧BP神经网络预测模型的输入变量x1为烧结料层厚度、x2为烧结机台车速度、x3为物料透气性指数、x4大烟道负压、x5为大烟道风量、x6为物料透气性指数;采用上图所示的网络结构,模型输出变量y1为烧结终点位置、y2为烧结物料温度最高点温度。

模型烧结终点位置BP神经网络预测模型可以描述为:

(4)

模型烧结物料温度最高点温度预测模型可以描述为:

(5)

2.3基于密度聚类的小生镜差分进化算法

差分进化算法的基本思想是:对当前种群进行变异和交叉操作,产生一个新种群;然后利用基于贪婪思想的选择操作对这两个种群进行一对一的选择,从而产生最终的新一代种群。具体而言,首先通过下式对第t次迭代种群中的每个个体 ,具体而言,i=1,2,…,Np实施变异操作(Np为种群规模),得到与其对应的变异个体 ,即

(6)

3.模型系统仿真

3.1仿真模型的建立

系统仿真在MATLAB/SIMULINK环境下进行,根据模型关系,在SIMULINK环境下搭建仿真模块

3.2模型仿真分析

在该仿真模型,输入为主抽负压、风量,输出为各风箱下料层厚度及各风箱所需风量。

通过建立的仿真模型,设定仿真时间可以得到烧结料烧结过程曲线,主要反映为烧结矿层厚度的变化,曲线如下:

图2.模型烧结矿料层厚度仿真曲线

4.结论

通过仿真,我们可以看到此模型既能反映垂直烧结过程,也能得到烧结矿在台车上的静态特性,此模型能很好的描述烧结动态过程,通过该模型能反应烧结过程实时风量、系统阻力系数与负压等之间的关系,根据模型可判断主抽的风量和负压需求,从而调节风机的速度和风门开度。

参考文献

[1] 张群,吴信慈,冯安祖,等.宝钢焦炭质量预测模型I一焦炭质量预测模型的建立和应用〔J].燃料化学学报,2002,30(4):300-305.

[2] 胡德生,吴信慈,戴朝发.宝钢焦炭强度预测和配煤煤质控制[J].宝钢技术,2000,(3):30-34.

[3] 张群,冯安祖,史美仁,等.宝钢控制焦炭热性质的研究川.钢铁,2002,37(7):l-7.

数学建模聚类算法范文第3篇

在现实生活中,大多数系统都是介于黑色与白色系统之间,如邓聚龙所说:“系统中既含有已知信息又含有未知信息,称为灰色系统”.地球物理勘探和开发领域所涉及到的地震数据、测井资料、岩石物理资料等都属于灰色系统,既有通过仪器测量、实验室物理模拟等确定的已知信息,也有无法定性或定量把握的未知情况.在地球物理勘探开发领域广泛地应用着以因素相互影响为基础的关联度分析法,基于白化权函数的灰色聚类和灰色预测法,以及建立数学微分方程模型的灰色建模法等几种灰色理论的基本方法。

1.1灰关联度分析

关联度分析是灰色系统最主要也是目前在地球物理勘探开发领域应用最广泛的方法之一.它主要用于分析不同数据项之间相互影响、相互依赖的关系,根据事物序列(母序列和子序列)曲线几何形状的相似程度,定量的评判事物(因素)间的关联程度.两条曲线的形状彼此越相似,关联度就越大,反之,则关联度越小.其中的关键是对灰关联矩阵进行分析,找出其中起主导作用的因素。

1.2灰色聚类

灰色聚类是以灰色关联度为基础的聚类方法,实质上是将聚类对象归纳成若干个灰色系统类型,以判断该聚类对象属于哪一类灰色类型.它能给出定量的评价,比定性的地质分析更具客观性。

1.3灰色预测和灰色建模

灰色预测通过原始数据的处理和灰色模型的建立,发现和掌握系统发展的规律,对系统的未来状态做出科学的定量预测.灰色理论认为,原始地震数据本身就是一种多因素的组合作用的结果.与其进行因素的多层剖析,不如就以原始依据进行预测.在地震资料的预测处理中这是一种新的思想、新的角度。

2.灰色理论在地球物理勘探开发中的应用

灰色理论在地球物理勘探开发中的应用实例和理论研究都很多,主要集中在地震解释、储层评价和测井解释三个方面。

2.1地震解释

灰色理论在地震资料解释中的应用主要包括层位标定、岩性分析以及地震剖面的异常值提取等.其中层位标定和岩性分析作为地震解释的基础环节和描述地层地质情况的重要信息,一直倍受关注,当然也是灰色理论在地震资料解释中应用的重点.其典型的方法是从测井资料中提取与层位、岩相有关的信息,将地层剖面、岩性分成若干个测井评价参数范围,然后采用这些测井地质评价参数与岩心录井剖面进行详细对比,统计确定出地质评价参数的标准,最后用参数特征值白化灰色系统,以达到精细划分地层层位和岩性的目的.这种做法最大优点就是使测井资料得到了充分的利用,同时这也是灰色理论在地震资料解释中应用的最显著的一个特点。

2.2储层评价

储层评价所涉及的内容很多,应用范围也相当广泛,但目前储层评价还没有一套公认的评价标准和工作规范,各家的评价方法都不尽一致如模糊判别法和专家打分法等.这些方法往往要求数据量较大,而且还要求数据间存在典型的统计规律,实际计算是很困难的.灰色理论在储层评价中的应用则有效的克服了上述方法的不足.它的基本思路是通过选取储层的各评价参数特征值,利用灰色理论的基本方法去白化储层系统发展的态势,确定评价指标和实际数据之间的关联度,据此定量描述储层的特征,具有数据量小、模型简单等优点,很好地满足了实际生产的需要.另外,灰色理论是一个动态的预测过程,对于油气井的储量、储层产能等这样每时每刻都在发生变化的预测目标,不仅能够很好的预测出油气井以及储层储量长期的情况,而且还能进行时时的监控预测。

2.3测井解释

目前,灰色理论在测井解释方面的应用也大多集中于此.此外,在解释水淹层、预测储层剩余饱和度以及对测井信号进行滤波等方面也有成功的应用实例.国内外用于测井解释的技术方法很多,如相关对比法、模式识别技术、波形树匹配及人工智能技术等.灰色理论方法与这些方法相比其最大的优势在于,它将测井解释看成一个灰色系统,无需了解大量的先验信息,比其它方法更加符合地下实际情况,所需计算量也相对较小.实践证明,灰色理论用于测井解释不仅可行,而且已经取得了很好的应用效果。

3.灰色理论的发展方向

目前,灰色理论已形成一个完整的理论体系.其应用领域已渗透到社会科学、自然科学的多门学科.近年来在地球物理勘探开发中的应用发展尤为迅速,然而任何理论总有其不够完善的地方,灰色理论也不例外.因此灰色理论还将在地球物理勘探开发的实践中不断的完善和发展,今后灰色理论的发展方向和研究重点大体有以下几个方面:

3.1加强基础理论的研究

灰色理论基本方法的研究深度不足,数学证明不够完善.比如灰关联分析不适用于负相关序列的分析和计算;由灰色关联系数构成的灰色关联度不满足灰色关联公理中的整体性和偶对对称性原则;灰色建模方法的累加生成不能减弱原始数列的随机性时,用一阶微分方程作为预测模型必然存在原理性误差等问题,都是灰色理论基本方法中存在的问题,都直接间接地影响了最终的预测结果.特别是灰色理论的一些核心内容,如累加生成数列能够提高预测精度等结论,在现有的灰理论专著中均末经予严格的数学证明.而这些结论作为灰色理论的核心内容正广泛地应用于地球物理勘探开发的各个方面,对最终的预测结果和精度的影响很大。

3.2拓宽应用范围

从目前的研究成果来看,灰色理论在地球物理勘探开发中的应用主要集中在地震资料解释、地质评价和测井解释三个方面,归根到底还是主要应用在解释方面,应用领域过于单一,解决实际问题的能力还不足,且灰色理论在储层预测中的应用目前尚限于单系列预测,存在着一定的风险.另外,灰色理论主要研究方法的应用范围也还十分有限.如:利用灰色建模、灰色关联分析作为研究工具的例子较为普遍,其它方法的应用则相对较少。

数学建模聚类算法范文第4篇

【关键词】 复杂电磁环境 通信信号 分选模型 算法

目前,电磁环境极其复杂,其中充斥着各种通信信号与雷达信号,再加上地理环境的影响,使得电磁环境愈来愈复杂。因此,在建模的时候,需要考虑到电磁环境的复杂性,制定出来合理的信号。从某种程度上来说,贴近实际的数学模型是分选算法成功的关键所在。

一、通信信号调制识别算法定制

1.1 通信信号调制识别方法概述

关于通信信号的调制识别,一般来说所采用的思路,首先是将接收到的信号进行变频,然后通过简单的运算的出来信号的三个基本参数:瞬时幅度、瞬时相位、瞬时频率,而其他相关的参数也基本上是在这三个基本参数之上得到的。

伴随着当中空间电磁环境的不断复杂化,信息技术的发展也呈现出来一个新的局面,这就使得通信信号的类型随之在不断增多,信道的保密性也提升起来。因此,从宏观层面上来看,在面对诸多信号类型的时候,更低的信噪比之下的识别算法是今后调制样式识别的一个重要的发展方向。

前,比较实用的方法就是调制识别算法,其中选取的瞬时幅度和相位的算法等方面,采用的更为广泛,其他的特征参数,虽然在识别效果上具有一定的优势,但是运算量比较大,并不利于实时处理。所以,综合来考虑,应当选测瞬时幅度、相位和频率来作为特征参数。

1.2 信号瞬时特征参数求解需要注意的问题

为了尽可能避免若断信噪比差,从而对于特征值提取带来影响,在采用非弱段信号提取特征参数,以及进行载频估计的时候,需要进行特殊地处理,譬如说可以选择非弱信号段,因此,这就成为问题的关键所在。如果选择数字太低,那么就不会产生显著的效果,如果选择的太高,那么就会丢失原有的相位信息[1]。

二、核模糊聚类分选模型与算法

就核模糊聚类算法本身而言,其具有较好的分辨、提取和放大细微特征,也能够表现出来一定的优势。这种算法需要对于定聚类数目C进行事先设定,也正是因为如此,会对于算法的实际性能与通用程度带来一定的影响[2]。因此可以看出来,聚类质量和数目之间有着密切的关系。如果C值较大,那么就会使得聚类结果更加复杂化,难以得到解释和分析,如果C值过小,那么就会使得信息收到损失,导致最终决策的失误。在对于这一算法进行推广的过程当中,尤其需要提到的就是有效性评价函数。事实上,针对经典模糊聚类,比较有名的是Xie-Beni的VXB指标,这一指标通常采用紧致性来对类内的内聚程度进行评价。在前人的研究当中,对于多种信号的特征数据集进行聚类分析的研究有很多,在进行对比之后,能够看出来,核模糊聚类算法对于信号的类别数都能够做出来正确的识别和分类,并且能够通过聚类中心的数值发现新增加的信号。而从前人的仿真实验结果上来看,聚类算法在信号识别当中的潜力是非常明显的,一方面,其能够用来对于信号的种类进行确定,另一方面,还能够挖掘出来未知的信号。尤其需要注意的是,聚类算法对于信号的种类能够进行分析,但是不能够识别出来新信号的调制方式,所以对于信号的调制方式,需要进一步分析。

三、复杂电磁环境下通信信号分选模型与算法的发展展望

首先,应当对于信号源特征库进行一个良好地完善,从而对于信号进行一个更为准确地识别,在必要的时候,可以利用已有的信号源特征库进行匹配,这样一来,就能够有效进行信号识别。对于未知辐射源信号,应当建立健全相应的特征档案,将其投入到使用当中来,如果切实有效,那么就可以对其进行整齐,并将其制成模板,方便以后使用[3]。

其次,在对于相关聚类算法进行研究的过程当中,应当对于数据结构进行分析,譬如说信号源数据是线性分布还是球形分布等,因为不同算法对于不同的数据结构适应性差异比较大。此外,为了能够研究出来更为合理的聚类有效性指标,可以寻找哪种不依赖于数据集结构进行区分的指标[4]。

四、结语

在本文的研究过程当中,主要目的是在复杂电磁环境之下,对于信号进行提取和调制,这E个研究也是一个探索的过程,所以其中所涉及到的一些算法仍处于探索的过程当中。在以后的研究当中,将更多的从现实环境当中进行数据的采集,以此来保证研究结果的针对性与现实意义。

参 考 文 献

[1]柳佳. 复杂电磁环境下的雷达信号分选算法研究[D]. 哈尔滨工程大学, 2015.

数学建模聚类算法范文第5篇

[关键词]时间序列;金融;数据挖掘

一、引言

在金融领域,时间序列是一种重要的数据类型,对时间序列的分析是金融数据分析的一个重要内容。作为数理统计学的一个分支,时间序列分析自1960年代起就已经得到了广泛的研究。传统的金融时间序列分析方法主要包括基本分析、技术分析以及各种数理统计学方法等。随着近年来数据规模的不断增长以及分析任务的日益复杂,数据挖掘技术开始被运用到金融时间序列的分析中。

所谓数据挖掘是指从大规模的数据中抽取隐含、未知、有潜在使用价值的规则的过程。作为一门交叉学科,数据挖掘集成了许多学科中成熟的工具和技术,包括数据库技术、统计学、机器学习以及人工智能等。广义地说,所有从海量数据中发现新的规律的方法都可以统称为数据挖掘技术。

本文在对传统的金融时间序列分析方法进行简单回顾的基础上,对当前主要的金融时间序列挖掘技术进行综述,并指出相关方法的优缺点和需要进一步研究的问题,为该领域的进一步研究提供基础。

二、金融时间序列传统分析方法

基本分析与技术分析是最常见的分析方法,主要用于证券与期货市场中的时间序列分析。基本分析主要通过对影响证券市场供求关系的基本因素进行分析,从而判断股票价格的走势。技术分析则通过对历史数据进行一些简单的计算,得到相关的技术指标和图表,从而判断序列未来的变化趋势。

另一类主要的金融时间序列分析方法是数理统计方法,这类方法主要包括各种统计特征的检验分析、相关分析、线性/非线性回归分析、自回归移动平均(ARMA)分析以及分形分析等,此外,各种多元分析方法也被广泛用于金融时间序列分析,如判别分析、主成分分析以及因子分析等。限于篇幅,本文不再详细讨论这些方法。

三、时间序列挖掘方法

近年来数据挖掘技术在时间序列分析领域开始得到广泛的研究与应用,已有大量的文献提出了各种时间序列挖掘算法。需要指出的是,虽然这些文献本质上属于对通用的基础算法进行研究,并不是专门针对金融领域的时间序列,然而其中许多方法都是以金融时间序列为例,来说明算法的有效性、准确度或性能,因此这些算法也在金融领域得到了应用。时间序列挖掘方法主要包括以下几个方面。

1.关联分析与序列分析

关联分析与序列分析的目的都是发现数据间的各种相关联系,不同的是,关联分析用于发现同一时间段内的各种联系,而序列分析用于发现在时间上具有先后关系的联系。

使用关联与序列分析方法,能够发现同一序列的前后变化或不同序列变化间的复杂关系。由于传统的关联与序列挖掘算法主要适用于符号型数据,因此在对数值型金融时间序列进行关联与序列分析时一般需要先对序列进行符号化。将序列划分为多个子序列,根据子序列的形状进行聚类并符号化,在此基础上采用序列挖掘算法发现符号间的规则。多个股票在不同时段的涨跌关系转换为具有双时间维约束的关联规则模型,并提出相关的挖掘算法,用于挖掘“当某几种资产的收益率变动超过一定幅度时,哪些资产会在同时(或间隔一段时间后)有同样(或相反)的表现”这类复杂的规则。一种基于“重要点”的方法将时间序列逐段符号化,并提出了一种基于互关联后继树模型的时间序列关联规则发现算法。

2.相似性查找

相似性查找是时间序列挖掘领域的一个重要研究方向。所谓相似性查找是指对于给定的目标序列Q,根据某种相似性度量函数,寻找与Q最相似的序列Qk。时间序列的相似性查找分为全序列匹配和子序列匹配两大类,全序列匹配是指所查找的序列与目标序列Q具有相同的长度;子序列匹配则是指在一个更长的序列中,寻找与目标序列Q相似的所有子序列。相似性查找在金融领域典型的应用是,根据图形上的相似性,寻找与某种资产的价格(或收益率)变动情况比较接近的其他资产。

由于金融时间序列一般都跨越较长的时间段,理论上甚至具有无限长度,因此这类数据都表现出高维甚至是超高维的特征。由于大多数相似性度量函数(如欧氏距离函数)在处理高维数据时性能都急剧下降,因此对于这类数据,一般先采用某种方法对序列进行维约简,即将原始序列变换到低维空间,在此基础上再比较序列间的相似性。常见的时间序列维约简方法包括离散傅立叶变换、离散小波变换、逐段线性描述等。除了维约简方法,相似性度量函数也是这一问题的研究热点。

3.聚类分析

聚类分析的目的是把整个目标数据分成多个不同的簇,使得每个簇中的数据尽可能相似,而不同簇中的数据具有明显的差别。在金融领域,聚类分析对于板块研究、投资组合模型的构建以及客户交易模式研究等都有着重要的意义。

由于时间序列的聚类分析同样需要进行序列间的相似性度量,因此与相似性查找类似,在聚类分析之前一般先对序列进行维约简。使用离散傅立叶变换对序列进行维约简,在此基础上使用欧氏距离进行聚类,与此类似,研究了基于离散小波变换和主成分分析的时间序列维约简以及聚类,对基于线性模型的聚类方法进行了研究。

研究了基于隐马尔可夫模型(HMM)的时间序列聚类,将HMM和期望最大方法相结合,从而提高了聚类结果的准确性。针对由于时间序列中经常存在异常数据,提出将原始序列根据中位数转化为二元时间序列,在此基础上进行聚类,从而减少异常数据的影响。试验结果表明,当序列中存在异常数据时,该方法能够有效地提高聚类结果的准确性。

4.分割与逐段描述

时间序列的分割与逐段描述是指对长度为n的序列Q,将其分为k段(k<<n),对各段分别使用某种模型进行描述并记为Q′,使得Q′与Q非常接近。对时间序列进行分割与逐段描述的主要原因有两个方面:第一,时间序列往往跨越较长的时间段,某些序列在理论上甚至具有无限长度,在此期间数据的许多特征都可能发生变化,对这样的数据用一个单一的模型来描述是不合适的;第二,时间序列在演化的过程中,由于受到各种因素的影响,往往具有复杂的局部特征,使用一些简单的模型(如线性模型)对序列进行逐段描述,丢弃一些细节变化信息,对于某些挖掘任务来说更合适。

由于金融时间序列经常受到众多非线性因素的影响,并且随着时间的推移,各种因素的影响效果也不断变化,因此金融时间序列往往呈现出复杂多变的形态特征。对金融时间序列进行分割并逐段描述,对许多挖掘任务而言更有意义。最常用的时间序列分割方法是使用线性模型对序列进行分割与逐段描述,称为逐段线性描述,对这类分割方法进行了详细的介绍。一种基于隐马尔可夫模型的联机时间序列分割算法,根据概率密度函数的变化对序列进行分割。

5.异常检测

异常检测是时间序列挖掘中的一个重要方面。所谓异常是指数据集中明显与众不同的数据,使人怀疑这些数据是由不同的机制产生的,而非随机偏差。异常检测最先在统计学领域得到研究,这些方法通常将数据用某个假定的统计分布进行建模,然后根据假定的模型和数据的实际分布来确定异常。由于通常无法准确地确定实际数据的分布形式,并且现实数据往往并不符合任何一种理想的数学分布,因此统计异常检测方法具有相当大的局限性。在时间序列挖掘领域,序列异常的概念,即当扫描序列时,如果某个数据点明显不同于其前面的序列,这样的点就被认为是异常数据。由于序列异常在概念上存在一定的缺陷,因此该方法容易遗漏真正的异常数据。使用柱状图方法来发现异常数据,如果将某个数据从序列中移去,单独用一个桶存放,能够减少整体柱状图的误差,则该数据被认为是异常。一种两阶段支持向量回归的算法,用于检测金融时间序列中的异常数据,以避免异常数据对预测精度产生影响。

四、混合挖掘方法

近年来金融时间序列分析领域出现一种新的趋势,即将各种时间序列挖掘技术与传统分析方法和模型相结合,我们将这些方法称为混合挖掘方法。与第三节中的时间序列挖掘方法不同,这类方法大多针对于金融领域某个特定的分析任务,或者基于金融时间序列的某些特征,因此更具有针对性,

当前的时间序列聚类方法分为基于原始数据、基于特征量以及基于模型的聚类三类。其中后两类均属于混合挖掘方法。一种基于ARMA模型的时间序列相似性度量和聚类算法,该方法使用ARMA模型对序列进行建模,并且将模型的系数转换为线性预测编码倒谱系数(LPCC)。在此基础上,对LPCC使用欧氏距离判断两个序列的相似程度并进行聚类。对同一个序列使用多个ARMA模型建模,以便更准确地捕获数据的各项特征。结合期望最大方法,鉴于ARMA模型在金融时间序列分析中已经得到广泛应用,上述方法在金融领域有着重要的意义。

一种新的时间序列趋势变动分析方法,该方法将传统的时间序列趋势分析与文本挖掘技术相结合,分析证券市场中的各种新闻信息与股票数据趋势变动之间的关系,从而通过分析相关的新闻来预测股票数据的变动方向。与此类似,研究了外汇市场中的相关新闻对汇率波动的影响,从而根据这些新闻进行汇率的短期预测。

此外,大多数基于逐段线性描述的时间序列分割方法都使用了线性回归模型的相关特性。一个常用于描述金融资产波动性的技术分析指标——布历加信道与逐段线性描述方法相结合,用于对金融时间序列进行联机分割,在此基础上进行相似性查找以及资产价格变动的趋势预测。

五、对上述方法的评述

基本分析与技术分析方法主要用于证券与期货市场中的时间序列分析,这两种分析方法虽然计算简单并且易于使用,但是无法用于进一步分析数据中隐藏的其他规律和各种复杂的统计特征。

数理统计方法是目前金融时间序列分析中最重要的方法。但是随着数据量的不断增加(如金融领域中的高频和超高频数据),这些方法在分析能力方面存在一定的缺陷。各种统计分析方法的一个主要问题在于,其无法有效地处理具有较大规模的数据集。此外数理统计分析方法也不适合用于从大量的数据中主动地发现各种潜在的规则。

虽然近年来出现了大量的时间序列挖掘方法,然而将这些方法直接用于分析金融时间序列仍然存在一些不足。其中一个主要的原因在于不同领域的时间序列往往具有不同的特征。例如金融领域的时间序列一般不具有典型的周期性,而这一特征在商业或气象领域的时间序列中则非常明显。近年来时间序列挖掘领域的主要研究成果做了一个详细的介绍,并对这些挖掘方法使用大量新的数据集进行了重新检验。作者发现随着测试数据集的不同,这些方法的有效性、性能以及准确度等都会得到迥异的实验结果,有些方法针对某些数据集甚至根本无法使用。实验结果说明,对于来自不同领域、具有完全不同特征的时间序列,提出一种普适的挖掘方法是困难的。

我们认为金融时间序列挖掘技术未来的主要发展方向是混合挖掘技术,这里的“混合”主要包括以下两个方面的内容:一方面,各种新的数据挖掘算法必须考虑到金融时间序列所具有的主要特征,即根据序列的特征研究相关挖掘算法,基于特征分析的金融时间序列挖掘进行了详细研究;另一方面,新的数据挖掘算法应与传统分析方法和统计模型进一步结合,并针对金融领域的特定分析任务,从而保证分析与挖掘工作的有效性。事实上,传统的数理统计分析方法与模型大多基于严格的统计数学和相关的金融分析理论,在金融时间序列分析中发挥着不可替代的作用。数据挖掘技术则为在海量的金融数据中快速、自动、智能化地发现各种潜在的、有价值的规律提供了新的支持。这些方法的结合,将使得金融时间序列分析领域具有更广阔的应用前景。

六、进一步研究的问题