前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇数学建模聚类分析范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。
关键词 聚类分析 基于主成分分析的评价体系 相关系数
中图分类号:S663.1 文献标识码:A 文章编号:
0.引言
酿酒葡萄的分级对酿酒工艺和葡萄酒评价有重要意义。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映酿酒葡萄的质量。所以,根据酿酒葡萄的理化指标和葡萄酒的质量对酿酒葡萄进行分级是较为合理的。
对酿酒葡萄进行分级,首先单独考虑葡萄的理化指标和葡萄酒质量对酿酒葡萄评价的影响,利用主成分分次和聚类分析求出分级结果,其次综合考虑以上两个因素,通过加权得到综合评价指标,再利用聚类分析求出分级结果。最后对三种分级结果作比较分析。
1.模型的假设与说明
1)只考虑酿酒葡萄的一级理化指标的影响。
2)葡萄酒中的糖类、醇类、酸类物质均来自于对应的酿酒葡萄,且含量相对相等。
2.模型的建立与求解
2.1根据酿酒葡萄的理化指标对酿酒葡萄分级
由于酿酒葡萄的理化指标数目很多,因此只考虑一级指标的影响,并且针对同一指标测试多次的结果,取其平均值作为该指标的最终结果。
(一)基于主成分分析法的综合评价方法
主成分分析用于多指标综合评价,有一个默认的前提条件就是各变量间必须有相关性。可以通过KMO统计量进行检验[1]。
(1)理化指标处理
利用spss软件对红葡萄的理化指标进行主成分分析,发现KMO0.5,不满足主成分分析的前提。首先,对这些理化指标进行处理。根据R型聚类分析法,得到的各个指标的关系并结合主成分的解释方差矩阵,把解释方差很小的成分代表的指标删去。删去的6个指标为:VC含量、固酸比、果穗质量、百粒质量、果皮质量、果皮颜色L*。进而再对剩下的24个指标利用spss进行主成分分析。满足KMO检验准则。
(2)主成分分析
结合主成分数量确定原则,选择前7个主成分,累计方差贡献率为84.915%,对应的特征根以及贡献率见下表2-1:
表2-1
(3)综合评价:
通过主成分公式可以计算出第个红葡萄样品的第个标准化以后的主成分得分,记为。
理化指标综合评价公式:
可得27个红葡萄样品的理化指标综合得分,得分结果省略。利用理化指标综合得分的高低,给27个红葡萄样品进行排名,优到劣顺序为:23、9、3、2、19、20、17、24、21、22、13、16、26、10、14、5、27、6、8、7、4、11、25、1、18、15、12.
(二)Q型聚类分析
考虑到无法确定类别数,因而采用Hierarchical Cluster(系统聚类法)中的Q型样品分析。
先将所有n个变量看成不同的n类,然后将性质最接近(距离最近)的两类合并为一类;再从这n−1类中找到最接近的两类加以合并,依此类推,直到所有的变量(观测)被合并为一类。
问题将27个红葡萄样品的理化指标综合得分作为变量,进行聚类。根据分类结果并且通过查找资料,参考意大利、法国等葡萄酒生产大国的分类标准[4]将27种红葡萄样品分为四个等级。
分级结果如下为:A等:3 9 23;B等:1,2,11,21;C等:4,5,6,7,8,10,12,13 14,15,16,17,18,19,20,22,24,27;D等: 25,26.
2.2根据葡萄酒的质量对酿酒葡萄分级
题目中葡萄的主要目的是酿酒,因此从酿酒角度而言,葡萄酒的质量直接提现了酿酒葡萄的等级。而评定葡萄酒质量的一个关键指标就是有资质的评酒员的打分结果。根据打分结果对红葡萄进行Q型聚类分析。
分级结果为:A等:23;B等:2,3,9,17,19,20,21,22,24;C等:4,5,6,7,8,10,11,13 14,16,25,26,27;D等: 1,12,15,18.
2.3综合考察两要素对酿酒葡萄的分级
首先分析两个要素与酿酒葡萄的关系。酿酒葡萄的理化指标从理论上分析了葡萄的成分,葡萄酒的质量从使用角度反映了酿酒葡萄的质量。因此对于酿酒葡萄的分级而言,葡萄酒质量的影响要大于酿酒葡萄的理化指标。
2.3.1采用综合评判法对葡萄分级
首先利用2.1葡萄样品的理化指标排名结果和葡萄酒质量专家打分排名结果分别进行评分:第一名27分,第二名26分,第三名25分…..第二十七名1分。综合评分公式:
其中:为综合评分,为葡萄酒质量评分,为理化指标评分,,为质量评分系数,,为理化指标评分系数。
得到红葡萄样品的综合评分结果。将27个红葡萄样品的综合评分作为变量,进行Q型聚类分析.
分级结果如下为:A等:2,3,9,23;B等:17,19,20,21,22,24;C等:1,5,6,8,10,11,13 14,16,26;D等:4,7,12,15,18,25,27.
2.4 结果分析
首先考虑根据理化指标和葡萄酒质量的分级结果,可以发现大部分红葡萄酒的分级结果并没有发生改变,只有1号红葡萄分别分在B等和D等,差两个等级。只有3,9,11,12,17,18,19,20,22,24,25,26少数红葡萄在相邻两级之间变化。其余大部分红葡萄两次分级结果相同。
其次考虑综合评分的分级结果,发现综合理化指标和质量指标之后,分级更加均匀。并且这三种分级方法的结果均相差不大,比较稳定。
3.模型的优点
本模型综合利用了主成分分析法、综合评价模型、聚类分析等数学方法,提供了一种较好的酿酒葡萄的分级方法。
在主成分分析之前先通过R性聚类剔除几个弱相关,使的主成分分析更加准确。
结束语
以上是讨论酿酒葡萄分级方法的模型建立,运用该模型解决实际问题的步骤及套用2012年全国数学建模A题数据得到的结果,希望对酿酒业有所帮助。
参考文献:
[1] 陈超,邹滢,SPSS 15.0常用功能与应用实例精讲[M],北京:电子工业出版社,2009。
[2] 陈桂元,黄己立,数学建模[M],安徽:中国科学技术大学出版社,2008。
[3] 姜启源,谢金星,叶俊,数学模型[M],北京:高等教育出版社,2003
关键词:R软件;系统聚类分析;多元统计
中图分类号:F49文献标识码:A
引言
多元统计分析是统计学的一个重要分支,也称多变量统计分析;在现实生活中,受多种指标共同作用和影响的现象大量存在,多元统计分析就是研究多个随机变量之间相互依赖关系及其内在统计规律的重要学科,其中最常用聚类分析方法,由于多元统计聚类分析方法一般涉及复杂的数学理论,一般无法用手工计算,必须有计算机和统计软件的支持。
在统计软件方面,常用的统计软件有SPSS、SAS、STAT、R、S-PLUS,等等。R软件是一个自由、免费、开源的软件,是一个具有强大统计分析功能和优秀统计制图功能的统计软件,现已是国内外众多统计学者喜爱的数据分析工具。本文结合实例介绍R软件在多元统计聚类分析中的应用。
一、系统聚类分析
聚类分析又称群分析,它是研究(样品或指标)分类问题的一种多元统计方法,所谓类,通俗地说,就是指相似元素的集合。在社会经济领域中存在着大量分类问题,比如若对某些大城市的物价指数进行考察,而物价指数很多,有农用生产物价指数、服务项目价指数、食品消费物价指数、建材零售价格指数等等。由于要考察的物价指数很多,通常先对这些物价指数进行分类。总之,需要分类的问题很多,因此聚类分析这个有用的工具越来越受到人们的重视,它在许多领域中都得到了广泛的应用。
聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等;最常用最成功的聚类分析为系统聚类法,系统聚类法的基本思想为先将n个样品各自看成一类,然后规定样品之间的“距离”和类与类之间的距离。选择距离最近的两类合并成一个新类,计算新类和其他类(各当前类)的距离,再将距离最近的两类合并。这样,每次合并减少一类,直至所有的样品都归成一类为止。
系统聚类法的基本步骤:
1、计算n个样品两两间的距离。
2、构造n个类,每个类只包含一个样品。
3、合并距离最近的两类为一新类。
4、计算新类与各当前类的距离。
5、重复步骤3、4,合并距离最近的两类为新类,直到所有的类并为一类为止。
6、画聚类谱系图。
7、决定类的个数和类。
系统聚类方法:1、最短距离法;2、最长距离法;3、中间距离法;4、重心法;5、类平均法;6、离差平方和法(Ward法)。
二、基于R语言的系统聚类分析程序
R软件及其相关包提供了各种聚类方法,主要是系统聚类方法、快速聚类方法、模糊聚类方法,常用的是系统聚类方法。
R软件实现系统聚类的程序如下:
hclust(d,method="complete",members=NULL)
其中,d是由“dist”构成的距离结构,具体包括绝对值距离、欧氏距离、切比雪夫距离、马氏距离、兰氏距离等,默认为欧氏距离;method包括类平均法average、重心法centroid、中间距离法median、最长距离法complete、最短距离法single、离差平方和法ward等,默认是最长距离法complete。
三、应用举例
表1是山东省2008年各市居民家庭平均每人全年消费性支出,利用所给数据对各市进行系统聚类。(表1)
R语言程序如下:
>X
>row.names(X)
>d
>hc1
>hc2
>hc3
>hc4
>opar
>plot(hc1,hang=-1);plot(hc2,hang=-1)
>plot(hc3,hang=-1);plot(hc4,hang=-1)
输出结果(图1)
结果分析
由图1可以看出,不同方法的分类大体一样,结合山东省具体实际情况,最长距离法分类效果较好。
在系统聚类分析中,利用R软件是最方便、最简单、最易学的,而且根据不同的情况,可以自己修改别人的程序,比较方便;可以在处理多元数据聚类分析中,利用R软件具有很大的优势。
(作者单位:菏泽学院)
主要参考文献:
[1]王斌会.多元统计分析及R语言建模[M].广州:暨南大学出版社,2010.
[2]汤银才.R语言与统计分析[M].北京:高等教育出版社,2005.
[关键词]产业结构;经济增长;灰色系统
[中图分类号]F062.9 [文献标识码]A [文章编号]1005-6432(2011)2-0068-02
1 聚类分析和灰色模型简介
1.1 聚类分析
聚类分析是基于所研究的样品或指标(变量)之间存在程度不同的相似性的统计分类方法。即根据一批样本的多元观测指标,寻求能够度量相似程度的统计量,以这些统计量为划分类型的依据。把一些相似程度较大的样品(指标)聚合为一类,把另外一些彼此之间相似程度较大的样品(或指标)又聚合为另一类,直到把所有的样品聚合完毕。聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类。
为了克服原始数据由于量纲不同对聚类结果产生不合理的影响。分析时首先对原始数据进行数据的标准化变换。定义距离的方法很多,本文采用欧氏距离(Euclidean Distance)。
1.2 灰色模型
灰色理论将随机变量视为一定范围内变化的灰色量,将随机过程当做一定范围,一定时区内变化的灰色过程。灰色预测法对含有不确定因素的系统进行预测。灰色预测通过鉴别系统因素之间的相异程度,并对原始数据进行生成处理来寻找系统的规律,生成有较强规律性的数据序列,然后建立相应微分方程模型,从而预测事物未来的发展趋势。灰色预测主要以GM(1,1)模型为基础进行建模、检验与预测。
2 实证分析
2.1 产业结构描述性分析
纵向分析:按照国民经济统计关于产业划分标准,2008年山东省的第二、第三产业是主导产业,产值份额分别为56.97%和33.37%。第一产业比重较小(9.66%)。同比2001―2008年的数据,三大产业中,第二和第三产业呈现逐年增长趋势,而第一产业占比不断下降,表明山东产业结构的演化进程。虽从2002年,统计将农林牧渔服务业划归第一产业,但第三产业占比保持平稳,说明山东第三产业发展迅速。
横向分析:山东省与其他沿海发达省市相比,有明显差距。2008年山东省第三产业占GDP比重33.37%,而北京市则高达71.4%,上海市也达到53.7%;同时上海市第一产业仅占0.8%,而山东省却高达9.66%。
2.2 灰色模型及预测
下面采用GM(1,1)模型对山东省产业结构演化进行预测。由下表的2004―2008年山东省GDP和三次产业构成数据。
相对误差均小于0.5%,说明模型拟合精确度很高,预测模型可信度较高,可用于实际预测。
3 结论与建议
基本结论:从山东省三次产业占GDP比重分析,整体产业结构正处于加速调整时期。目前第二产业最大,第三产业次之,第一产业最低。2008年第三产业比重33.37%,仅比全国平均水平高出0.3个百分点,与全国经济地位明显不符。今后十年的产业发展仍将呈现“二三一”态势。通过聚类分析,可清晰发现各地市产业发展水平的不均衡性,明显的可以分为四个不同的层次。中西部内陆城市与沿海地区城市的差异有拉大趋势。因此协调全省不同区域的产业结构调整步伐将是一个重大课题。通过灰色模型的建模与预测分析,无论是从总量上还是比重上,第二产业都有上升趋势。因此,加快制造业发展,带动山东省经济进入新一轮的高增长期,势在必行。
对策和建议:第一,制定科学的产业结构发展政策。山东省应大力对政策环境进行进一步改善,加快经济体制改革的步伐。使得产业政策在巩固和发展宏观调控成果方面发挥积极作用。产业发展与结构调整应建立在更广泛调研与计量分析的基础上,从而使调整更有针对性。既要增强产业政策在宏观调控中的作用,同时又要加强产业政策的协调配合,避免部分地区低水平重复建设现象。
第二,改造传统产业、大力发展高新技术产业。由于存在农村劳动力转移缓慢、农业劳动力效率不高等问题,山东第一产业应根据市场的需求,调整供求结构。利用山东省广阔的海域,大力发展海水养殖业;根据林业自身特点,扭转林业产值下滑的趋势。山东省应加快以消耗大量原材料、能源为主的资源密集型产业结构向知识、技术密集型产业结构方向发展,大力培植高新技术产业,运用高新技术加快改造传统产业,实现清洁生产。
第三,加速创新型人才引进。知识创新和技术创新、管理创新和制度创新,这一切都依赖于具有高知识水平的、有创新能力的人。全省应有统一规划,构建起适合山东省当前与长远经济、社会发展的人才产出、引进、使用和流动的新体制,以推动面向知识经济的全省经济、社会的全面发展。政府应制定必要的引进人才优惠政策,为产业调整与发展储备人力资源。
参考文献:
[1]薛薇.统计分析与SPSS的应用[M].北京:中国人民大学出版社,2008.
关键词:近红外光谱;冰温贮藏;牛肉;品质;校正模型
Abstract: In this experiment, a rapid quantitative detection method was proposed by near infrared spectroscopy (NIR) for beef quality during ice temperature storage. The calibration models of beef pH, water loss, TVB-N and color value (L*/a*) were established by NIR technique allowing the simultaneous predication of several beef quality indicators. The correlation coefficient (R2) of the calibration models were all above 0.70 and the R2 values for the predicted and actual values were all above 0.90. The calibration models had high prediction accuracy. Furthermore, cluster analysis was used to categorize the near infrared spectral data of beef stored for different durations. The results showed that based on the near infrared spectral data meat freshness was categorized well. NIR is suitable for rapid and non-invasive estimation beef quality and freshness as an alternative to the traditional detection method.
Key words: near infrared spectroscopy (NIR); controlled freezing point storage; beef; quality; calibration model
中图分类号:TS251.1 文献标志码:A 文章编号:1001-8123(2015)03-0023-04
doi: 10.7506/rlyj1001-8123-201503006
目前,对牛肉品质指标的检测仍较常采用感官检验、理化检验与微生物学检验相结合的综合检验方法,得出的感官检验结论会因感觉器官的局限性、人的主观性造成出入[1-6],而理化检验操作复杂,测定过程耗时、耗力,不易进行大批量的快速检测[3-6],食品行业与检验部门迫切需求一种快速、非破坏性和客观的检测技术。其中,近红外光谱技术(near infrared spectroscopy,NIR)的应用,很好地解决了传统检测方法带来的弊端[3]。
近红外光谱分析技术是利用物质含氢基团振动的合频和倍频吸收信息进行物质的定性和定量分析的一种快速检测方法[4,6]。由于食品中的大多数有机化合物如蛋白质、脂肪、有机酸、碳水化合物等都含有不同的含氢基团,不同的基团在近红外区域具有不同的吸收位置,据此可对物质进行定性分析,根据吸收强度和物质含量的线性关系,又能对物质进行定量分析。具有分析速度快、信息量大、多组分同时测定、无损样品、无污染等优点,符合当前工业生产的需求,目前在食品领域已应用于鲜肉及肉制品中营养成分和品质的检测[4,6-11]。
本研究通过采集冰温条件下牛霖肉在贮藏期内的近红外光谱数据,同时采用传统方法测定常规肉品质指标如pH值、失水率、挥发性碱基总氮(total volatile basic nitrogen,TVB-N)、色差值,以偏最小二乘法建立这些指标的校正模型。并且利用聚类分析的方法对不同贮藏阶段肉品近红外光谱的数据进行分类处理。旨在为利用近红外光谱分析技术快速评价冷鲜牛肉品质和鲜度提供相关实验依据。
1 材料与方法
1.1 材料与试剂
屠宰12 h内的鲜牛霖肉(冷链贮藏) 市购。
稀硫酸、碳酸钾、硼酸、甘油、阿拉伯胶、甲基红、次甲基蓝、乙醇均为分析纯。
1.2 仪器与设备
数显温度计 天津市科辉仪表厂;JY3001型电子天平、JA-1104N型电子天平(感应量为0.000 1 g)、HJ-6A型多头磁力搅拌器 江苏省金坛市文华仪器有限公司;PH100型笔式pH计 上海三信仪表厂;双夹板压力计 实验室自制;WSC-S测差计 上海精密科学仪器有限公司;NIT-38近红外光谱分析仪 澳大利亚NIR Techno1ogy公司。
1.3 方法
1.3.1 肉样处理
将鲜牛霖肉(冷链贮藏,样品采至同一头牛同一部位),采用内装冰袋的泡沫保温箱4 ℃运回,去除附着的脂肪和结缔组织,平均分割成小份总共11份,每份100 g(6.5 cm×4 cm×4 cm),不进行包装处理,置于温度为D1 ℃(冰温)冰箱变温区贮藏(冰箱内相对湿度70%)。各项指标每2 d测定1 次,每次测定时从每组中各取1份测定肉的各项指标,每项指标重复测定3 次,结果取平均值,共连续测量21 d。
1.3.2 肉样品质指标测定
pH值测定[12-13]:采用电表pH计测定法,将pH计直接插入被检肉新鲜切面上读取pH值,依次取3 个测试点。
失水率测定[13]:将肉样切为1.0 mm厚度,用直径2.523 cm圆形取样器切取肉样,用感量为0.000 1 g天平称质量,然后将肉样上下各垫6 层滤纸,置于35 kg压力计上压制5 min,撤除压力后立即称质量,计算失水率。
TVB-N测定:按照GB/T 5009.44―2003《肉与肉制品卫生标准的分析方法》中微量扩散法测定样品的TVB-N测定。
色差值测定[12]:将肉样切成厚薄均匀的薄片,放入WSC-S测差计样品池中,铺平,测定其L*值、a*值。
1.3.3 样品近红外光谱采集
将肉样切成厚薄均匀的薄片,放入厚度为15 mm的样品池内,保持样品均匀铺平,在720~l 100 nm近红外光谱区范围内进行透射扫描,每次测定对每份样品连续扫描3次,取平均值[4],以获得样品每个检测日的近红外光谱数据,共连续测量21 d。
1.3.4 近红外光谱数学模型的建立
将样品集分成校正集和验证集,采用一阶导数(first derivative,FD)、二阶导数(second derivative,SD)、标准正态变换(standard normal variate,SNV)和多元散射校正(multipl scatter correction,MSC)等方法对所获得的近红外光谱数据进行预处理,利用分析建模软件NTAS(NIR Technology Australia Software)通过偏最小二乘法(partialleast squares regression,PLS)对校正集样品的pH值、失水率、TVB-N、色差值等肉质指标建立近红外光谱校正模型[4]。
1.3.5 模型的验证
选用未参与校正模型建立的样品组成验证集,将验证集样品的近红外光谱数据代入到校正模型中,通过校正模型计算获得样品样品肉质指标的预测值,最后根据预测值与样品肉质指标的真实值(实验值)的接近程度,来衡量校正模型预测值的准确度[14]。
1.3.6 聚类分析
聚类分析是通过找出指标之间能代表其相近程度的统计量,以这些统计量为划分类别的依据,找出指标间的共性和变化规律。分类过程中,首先将差异较小的聚合为一类,然后根据指标间的亲疏程度,将差异最小的两类进行合并。然后考虑合并后的类与其他类之间的亲疏程度,再进行合并。如此不断重复比较直至将所有指标聚合分类完毕[6,15-17]。采用可用聚类分析的方法研究不同贮藏阶段肉的近红外光谱的变化规律和分类结果。
1.4 数据处理
使用SPSS 19.0进行数据分析。对pH值、失水率、TVB-N、色差值等数据进行求平均值和标准偏差处理,并且对每个测定参数进行ANOVA分析。
2 结果与分析
2.1 牛肉样品的近红外光谱分析
图1为贮藏期间牛肉样品集不同贮藏时间下的近红外原始光谱图,样品的图谱形状大致相同,峰值都出现在920 nm附近。在短波近红外区(780~1 100 nm),其主要的吸收物质是水分、脂肪和蛋白质,其吸收峰分别在964、928、908 nm波长处[14]。牛肉在不同贮藏时间下的近红外光谱吸光度有差异,可以间接证明随着贮藏时间的延长牛肉中水分、脂肪和蛋白质含量在变化,而三大组分的含量变化直接关系到牛肉的pH值、失水率、TVB-N、肉色等指标,因此利用近红外光谱技术对这几项指标进行预测是可行的。
2.2 近红外光谱模型的建立
近红外光谱谱线包含复杂的化学信息,存在样品不同组分之间相互干扰、谱峰相互掩盖等问题。另外,还包含一些与待测样品性质无关的因素带来的干扰,如样品装样均匀度、装样状态或仪器状态等,都会导致光谱产生基线漂移或偏移、背景干扰等现象。因此在建立校正模型之前对近红外原始光谱进行预处理是很有必要的,常用的预处理方法有光程校正,如MSC和SNV;微分处理,如FD和SD[18]。
由表1可知,在建立的模型中,对pH值采用SNV处理后的光谱数据进行建模,对失水率、TVB-N、L*值和a*值采用二阶导数处理后的光谱数据进行建模,建立的模型标准误差SEC最小或相关系数R2最大,各模型的结果均达到最理想。采用SNV处理后的光谱数据,pH值校正模型的相关系数是0.932,是所建立的模型中效果最理想的一个。采用二阶导数处理后的光谱数据,失水率校正模型相关系数为0.848;TVB-N的校正模型相关系数为0.926;L*值的校正模型相关系数为0.810;a*值的校正模型相关系数为0.749。
对各指标校正模型的准确性产生影响的因素较多,包括样品代表性、检测环境条件、仪器灵敏度、响应特性等,而此次建立的校正模型相关系数都在0.70以上,具有较好的相关性,可满足牛肉常规品质的检测。
2.3 近红外光谱模型的验证
目前研究多采用相关图的方法来分析考察校正模型对样品预测的预测值(y)和样品真实值(x)的接近程度[14,19-20]。选用未参与校正模型建立的样品组成验证集(验证集样品数为19),将验证集样品的近红外光谱数据代入到校正模型中,通过校正模型计算获得样品肉质指标的预测值,用最小二乘法对预测值和真实值进行一元线性拟合,根据预测值与真实值的线性相关性,来衡量校正模型的预测值的准确度[14]。通常用相关系数R2来度量拟合程度,(R2)越接近于1,则说明预测值和真实值越接近,校正模型的预测准确度越高[21]。
由图2可知,各个预测模型的真实值与预测值的R2均在0.90以上,说明预测值与真实值比较接近,可对未知样品进行预测。相关性分析结果说明校正模型的预测值与真实值接近程度较高,利用近红外光谱分析法对牛肉品质及鲜度进行检测和品质快速评价检测可信度高。
2.4 聚类分析
为了确定肉样光谱数据随贮藏时间的变化规律,对样品集连续21 d每2 d的原始光谱数据做了系统聚类分析。对贮藏期间样品的原始光谱数据采用“欧氏距离”,聚类方法选“最远邻元素法”进行分析,结果如图3所示。
由图3可知,样品集21 d的光谱可明显的分为2 类,第1类是样品集前15 d的光谱值;第2类为17~21 d的光谱值。从第1类分类结果看,第1~5天的数据与第7~15天的数据分成两个小类。由聚类分析的结果可推测出,前5 d样品处于新鲜程度变化的初期,7~15 d为腐败变化的过渡期,最后17~21 d样品加速腐败,故光谱明显区别于前15 d的情况。
牛肉变质是一个渐进的过程,牛肉从新鲜到次鲜再到变质的变化,就是肉中成分在逐渐腐败变性的原因。比如汁液流失导致的水分及水中可溶性物质被带出、碳水化合物的消耗、蛋白质的分解、脂肪的氧化,这些物质成分发生的变化,都能导致肉的近红外光谱吸收系数、散射系数发生改变。在不同的贮藏阶段对肉进行光谱扫描,光谱信息中将携带吸收系数、散射系数的变化特征,从而可以实现对肉新鲜度的分类。由实验结果可知,利用近红外漫反射光谱对牛肉的新鲜程度有着较好的分类结果。
3 结 论
牛肉在贮藏过程中的腐败变质是一个非常复杂的物理化学过程,采用常规理化方法结合感官检测可以对肉品质进行检测,但步骤繁琐且耗时。本实验采用近红外光谱技术建立了牛肉近红外光谱pH值、失水率、TVB-N、色差值(L*/a*)的校正模型,能同时预测出牛肉样品的多项品质指标。建立的校正模型相关系数都在0.70以上,具有较好的相关性。校正模型的预测值与真实值接近程度较高,决定系数均在0.90以上,具有较高的预测准确度。可满足牛肉常规品质的检测。
利用聚类分析的方法对不同贮藏阶段肉品近红外光谱的数据进行了分类处理,聚类分析的结果表明近红外反射光谱对牛肉的新鲜程度有着较好的分类结果,为近红外光谱快速非破坏性的检测肉品新鲜度提供了进一步的依据。与传统的化学分析方法相比,该技术可快速、非破坏评价牛霖肉的肉品质及新鲜程度。
参考文献:
[1] 鲜于建川. 冷却牛肉质量评定系统研究与开发[D]. 长春: 吉林大学, 2002.
[2] 庄玉亭, 赵月兰. 肉品新鲜度检测方法[J]. 河北科技大学学报, 1999, 20(2): 63-65.
[3] 徐广通, 袁洪福, 陆婉珍. 现代近红外光谱技术及应用进展[J]. 光谱学与光谱分析, 2000, 20(2): 134-142.
[4] 陈育涛, 朱秋劲, 卢开红, 等. 近红外光谱对特征部位牛肉的分析[J]. 肉类研究, 2012, 26(3): 34-38.
[5] 侯瑞锋, 黄岚, 王忠义, 等. 肉品新鲜度检测方法[J]. 现代科学仪器, 2006(5): 76-80.
[6] 侯瑞锋, 黄岚, 王忠义, 等. 用近红外漫反射光谱检测肉品新鲜度的初步研究[J]. 光谱学与光谱分析, 2007, 26(12): 2193-2196.
[7] WANG Wenbo, PALIWAL J. Near-infrared spectroscopy and imaging in food quality and safety[J]. Sensing and Instrumentation for Food Quality and Safety, 2007, 1(4): 193-207.
[8] PRIETO N, ANDRES S, GIRALDEZ F, et al. Potential use of near infrared reflectance spectroscopy(NIRS)for the estimation of chemical composition of oxen meat samples[J]. Meat Science, 2006, 74: 478-496.
[9] LEROY B, LAMBOTTE S, DOTREPP O, et al. Prediction of technological and organoleptic properties of beef longissimus thoracis from near-infrared reflectance and transmission spectra[J]. Meat Science, 2004, 66: 45-54.
[10] TOGERSEN G, ARNESEN J F, NILSEN B N, et al. On-line prediction of chemical composition of semi-frozen ground beef by non-invasive NIR spectroscopy[J]. Meat Science, 2003, 63: 515-523.
[11] SHACKELFORD S D, WHEELER T L, KOOHMARAIE M. Development of optimal protocol for visible and near-infrared reflectance spectroscopic evaluation of meat quality[J]. Meat Science, 2004, 68(3): 371-381.
[12] 许倩, 朱秋劲, 叶春, 等. 低场核磁共振分析冰温牛肉中不同状态水分变化[J]. 肉类研究, 2013, 27(5): 17-21.
[13] 周永昌, 王文升, 等. 畜产品加工实验指导[M]. 北京: 中国农业出版社, 1999: 55-56.
[14] ALOMAR D, GALLO C, CASTANTEDA M, et a1. Chemical and discriminant analysis of bovine meat by near infrared reflectance spectros-copy(NIRS)[J]. Meat Science, 2003, 63(4): 441-450.
[15] 肖宜滨. 聚类分析的理论及其应用[J]. 江苏统计, 2001(11): 13-15.
[16] 王骏, 王士同, 邓赵红. 聚类分析研究中的若干问题[J]. 控制与决策, 2012, 27(3): 321-328.
[17] 郭培源, 林岩, 付妍, 等. 基于近红外光谱技术的猪肉新鲜度等级研究[J]. 激光与光电子学进展, 2013, 50(3): 180-186.
[18] 刘炜, 吴昊F, 孙东东, 等. 近红外光谱分析技术在鲜鸡肉快速检测分析中的应用研究[J]. 中国家禽, 2009, 31(2): 8-11.
[19] LOMIWES D, REIS M M, WIKLUND E, et a1. Nearinfrared spectros-copy as an on-line to quantitatively determine glycogen and predict ultimate pH in pre rigor bovine M.1ongissimus dorsi[J]. Meat Science, 2010, 86(4): 999-1004.
[关键词]时间序列;金融;数据挖掘
一、引言
在金融领域,时间序列是一种重要的数据类型,对时间序列的分析是金融数据分析的一个重要内容。作为数理统计学的一个分支,时间序列分析自1960年代起就已经得到了广泛的研究。传统的金融时间序列分析方法主要包括基本分析、技术分析以及各种数理统计学方法等。随着近年来数据规模的不断增长以及分析任务的日益复杂,数据挖掘技术开始被运用到金融时间序列的分析中。
所谓数据挖掘是指从大规模的数据中抽取隐含、未知、有潜在使用价值的规则的过程。作为一门交叉学科,数据挖掘集成了许多学科中成熟的工具和技术,包括数据库技术、统计学、机器学习以及人工智能等。广义地说,所有从海量数据中发现新的规律的方法都可以统称为数据挖掘技术。
本文在对传统的金融时间序列分析方法进行简单回顾的基础上,对当前主要的金融时间序列挖掘技术进行综述,并指出相关方法的优缺点和需要进一步研究的问题,为该领域的进一步研究提供基础。
二、金融时间序列传统分析方法
基本分析与技术分析是最常见的分析方法,主要用于证券与期货市场中的时间序列分析。基本分析主要通过对影响证券市场供求关系的基本因素进行分析,从而判断股票价格的走势。技术分析则通过对历史数据进行一些简单的计算,得到相关的技术指标和图表,从而判断序列未来的变化趋势。
另一类主要的金融时间序列分析方法是数理统计方法,这类方法主要包括各种统计特征的检验分析、相关分析、线性/非线性回归分析、自回归移动平均(ARMA)分析以及分形分析等,此外,各种多元分析方法也被广泛用于金融时间序列分析,如判别分析、主成分分析以及因子分析等。限于篇幅,本文不再详细讨论这些方法。
三、时间序列挖掘方法
近年来数据挖掘技术在时间序列分析领域开始得到广泛的研究与应用,已有大量的文献提出了各种时间序列挖掘算法。需要指出的是,虽然这些文献本质上属于对通用的基础算法进行研究,并不是专门针对金融领域的时间序列,然而其中许多方法都是以金融时间序列为例,来说明算法的有效性、准确度或性能,因此这些算法也在金融领域得到了应用。时间序列挖掘方法主要包括以下几个方面。
1.关联分析与序列分析
关联分析与序列分析的目的都是发现数据间的各种相关联系,不同的是,关联分析用于发现同一时间段内的各种联系,而序列分析用于发现在时间上具有先后关系的联系。
使用关联与序列分析方法,能够发现同一序列的前后变化或不同序列变化间的复杂关系。由于传统的关联与序列挖掘算法主要适用于符号型数据,因此在对数值型金融时间序列进行关联与序列分析时一般需要先对序列进行符号化。将序列划分为多个子序列,根据子序列的形状进行聚类并符号化,在此基础上采用序列挖掘算法发现符号间的规则。多个股票在不同时段的涨跌关系转换为具有双时间维约束的关联规则模型,并提出相关的挖掘算法,用于挖掘“当某几种资产的收益率变动超过一定幅度时,哪些资产会在同时(或间隔一段时间后)有同样(或相反)的表现”这类复杂的规则。一种基于“重要点”的方法将时间序列逐段符号化,并提出了一种基于互关联后继树模型的时间序列关联规则发现算法。
2.相似性查找
相似性查找是时间序列挖掘领域的一个重要研究方向。所谓相似性查找是指对于给定的目标序列Q,根据某种相似性度量函数,寻找与Q最相似的序列Qk。时间序列的相似性查找分为全序列匹配和子序列匹配两大类,全序列匹配是指所查找的序列与目标序列Q具有相同的长度;子序列匹配则是指在一个更长的序列中,寻找与目标序列Q相似的所有子序列。相似性查找在金融领域典型的应用是,根据图形上的相似性,寻找与某种资产的价格(或收益率)变动情况比较接近的其他资产。
由于金融时间序列一般都跨越较长的时间段,理论上甚至具有无限长度,因此这类数据都表现出高维甚至是超高维的特征。由于大多数相似性度量函数(如欧氏距离函数)在处理高维数据时性能都急剧下降,因此对于这类数据,一般先采用某种方法对序列进行维约简,即将原始序列变换到低维空间,在此基础上再比较序列间的相似性。常见的时间序列维约简方法包括离散傅立叶变换、离散小波变换、逐段线性描述等。除了维约简方法,相似性度量函数也是这一问题的研究热点。
3.聚类分析
聚类分析的目的是把整个目标数据分成多个不同的簇,使得每个簇中的数据尽可能相似,而不同簇中的数据具有明显的差别。在金融领域,聚类分析对于板块研究、投资组合模型的构建以及客户交易模式研究等都有着重要的意义。
由于时间序列的聚类分析同样需要进行序列间的相似性度量,因此与相似性查找类似,在聚类分析之前一般先对序列进行维约简。使用离散傅立叶变换对序列进行维约简,在此基础上使用欧氏距离进行聚类,与此类似,研究了基于离散小波变换和主成分分析的时间序列维约简以及聚类,对基于线性模型的聚类方法进行了研究。
研究了基于隐马尔可夫模型(HMM)的时间序列聚类,将HMM和期望最大方法相结合,从而提高了聚类结果的准确性。针对由于时间序列中经常存在异常数据,提出将原始序列根据中位数转化为二元时间序列,在此基础上进行聚类,从而减少异常数据的影响。试验结果表明,当序列中存在异常数据时,该方法能够有效地提高聚类结果的准确性。
4.分割与逐段描述
时间序列的分割与逐段描述是指对长度为n的序列Q,将其分为k段(k<<n),对各段分别使用某种模型进行描述并记为Q′,使得Q′与Q非常接近。对时间序列进行分割与逐段描述的主要原因有两个方面:第一,时间序列往往跨越较长的时间段,某些序列在理论上甚至具有无限长度,在此期间数据的许多特征都可能发生变化,对这样的数据用一个单一的模型来描述是不合适的;第二,时间序列在演化的过程中,由于受到各种因素的影响,往往具有复杂的局部特征,使用一些简单的模型(如线性模型)对序列进行逐段描述,丢弃一些细节变化信息,对于某些挖掘任务来说更合适。
由于金融时间序列经常受到众多非线性因素的影响,并且随着时间的推移,各种因素的影响效果也不断变化,因此金融时间序列往往呈现出复杂多变的形态特征。对金融时间序列进行分割并逐段描述,对许多挖掘任务而言更有意义。最常用的时间序列分割方法是使用线性模型对序列进行分割与逐段描述,称为逐段线性描述,对这类分割方法进行了详细的介绍。一种基于隐马尔可夫模型的联机时间序列分割算法,根据概率密度函数的变化对序列进行分割。
5.异常检测
异常检测是时间序列挖掘中的一个重要方面。所谓异常是指数据集中明显与众不同的数据,使人怀疑这些数据是由不同的机制产生的,而非随机偏差。异常检测最先在统计学领域得到研究,这些方法通常将数据用某个假定的统计分布进行建模,然后根据假定的模型和数据的实际分布来确定异常。由于通常无法准确地确定实际数据的分布形式,并且现实数据往往并不符合任何一种理想的数学分布,因此统计异常检测方法具有相当大的局限性。在时间序列挖掘领域,序列异常的概念,即当扫描序列时,如果某个数据点明显不同于其前面的序列,这样的点就被认为是异常数据。由于序列异常在概念上存在一定的缺陷,因此该方法容易遗漏真正的异常数据。使用柱状图方法来发现异常数据,如果将某个数据从序列中移去,单独用一个桶存放,能够减少整体柱状图的误差,则该数据被认为是异常。一种两阶段支持向量回归的算法,用于检测金融时间序列中的异常数据,以避免异常数据对预测精度产生影响。
四、混合挖掘方法
近年来金融时间序列分析领域出现一种新的趋势,即将各种时间序列挖掘技术与传统分析方法和模型相结合,我们将这些方法称为混合挖掘方法。与第三节中的时间序列挖掘方法不同,这类方法大多针对于金融领域某个特定的分析任务,或者基于金融时间序列的某些特征,因此更具有针对性,
当前的时间序列聚类方法分为基于原始数据、基于特征量以及基于模型的聚类三类。其中后两类均属于混合挖掘方法。一种基于ARMA模型的时间序列相似性度量和聚类算法,该方法使用ARMA模型对序列进行建模,并且将模型的系数转换为线性预测编码倒谱系数(LPCC)。在此基础上,对LPCC使用欧氏距离判断两个序列的相似程度并进行聚类。对同一个序列使用多个ARMA模型建模,以便更准确地捕获数据的各项特征。结合期望最大方法,鉴于ARMA模型在金融时间序列分析中已经得到广泛应用,上述方法在金融领域有着重要的意义。
一种新的时间序列趋势变动分析方法,该方法将传统的时间序列趋势分析与文本挖掘技术相结合,分析证券市场中的各种新闻信息与股票数据趋势变动之间的关系,从而通过分析相关的新闻来预测股票数据的变动方向。与此类似,研究了外汇市场中的相关新闻对汇率波动的影响,从而根据这些新闻进行汇率的短期预测。
此外,大多数基于逐段线性描述的时间序列分割方法都使用了线性回归模型的相关特性。一个常用于描述金融资产波动性的技术分析指标——布历加信道与逐段线性描述方法相结合,用于对金融时间序列进行联机分割,在此基础上进行相似性查找以及资产价格变动的趋势预测。
五、对上述方法的评述
基本分析与技术分析方法主要用于证券与期货市场中的时间序列分析,这两种分析方法虽然计算简单并且易于使用,但是无法用于进一步分析数据中隐藏的其他规律和各种复杂的统计特征。
数理统计方法是目前金融时间序列分析中最重要的方法。但是随着数据量的不断增加(如金融领域中的高频和超高频数据),这些方法在分析能力方面存在一定的缺陷。各种统计分析方法的一个主要问题在于,其无法有效地处理具有较大规模的数据集。此外数理统计分析方法也不适合用于从大量的数据中主动地发现各种潜在的规则。
虽然近年来出现了大量的时间序列挖掘方法,然而将这些方法直接用于分析金融时间序列仍然存在一些不足。其中一个主要的原因在于不同领域的时间序列往往具有不同的特征。例如金融领域的时间序列一般不具有典型的周期性,而这一特征在商业或气象领域的时间序列中则非常明显。近年来时间序列挖掘领域的主要研究成果做了一个详细的介绍,并对这些挖掘方法使用大量新的数据集进行了重新检验。作者发现随着测试数据集的不同,这些方法的有效性、性能以及准确度等都会得到迥异的实验结果,有些方法针对某些数据集甚至根本无法使用。实验结果说明,对于来自不同领域、具有完全不同特征的时间序列,提出一种普适的挖掘方法是困难的。
我们认为金融时间序列挖掘技术未来的主要发展方向是混合挖掘技术,这里的“混合”主要包括以下两个方面的内容:一方面,各种新的数据挖掘算法必须考虑到金融时间序列所具有的主要特征,即根据序列的特征研究相关挖掘算法,基于特征分析的金融时间序列挖掘进行了详细研究;另一方面,新的数据挖掘算法应与传统分析方法和统计模型进一步结合,并针对金融领域的特定分析任务,从而保证分析与挖掘工作的有效性。事实上,传统的数理统计分析方法与模型大多基于严格的统计数学和相关的金融分析理论,在金融时间序列分析中发挥着不可替代的作用。数据挖掘技术则为在海量的金融数据中快速、自动、智能化地发现各种潜在的、有价值的规律提供了新的支持。这些方法的结合,将使得金融时间序列分析领域具有更广阔的应用前景。
六、进一步研究的问题