前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇传播模型范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。
很多医学工作者试图从医学的不同角度来解释传染病传播时的一种现象,这种现象就是在某一民族或地区,某种传染病传播时,每次所涉及的人数大体上是一常数。结果都不能令人满意,后来由于数学工作者的参与,用建立数学模型来对这一现象进行模拟和论证,得到了较满意的解答。
一种疾病的传播过程是一种非常复杂的过程,它受很多社会因素的制约和影响,如传染病人的多少,易受传染者的多少,传染率的大小,排除率的大小,人口的出生和死亡,还有人员的迁入和迁出,潜伏期的长短,预防疾病的宣传以及人的个体差异等。如何建立一个与实际比较吻合的数学模型,开始显然不能将所有因素都考虑进去。为此,必须从诸多因素中,抓住主要因素,去掉次要因素。先把问题简化,建立相应的数学模型。将所得结果与实际比较,找出问题,修改原有假设,再建立一个与实际比较吻合的模型。从而使模型逐步完善。下面是一个由简单到复杂的建模过程,很有代表性,读者应从中体会这一建模过程的方法和思路。
一.最简单的模型
假设:(1)
每个病人在单位时间内传染的人数是常数k;(2)
一个人得病后经久不愈,并在传染期内不会死亡。
以i(t)表示t时刻的病人数,表示每个病人单位时间内传染的人数,i(0)=
表示最初时有个传染病人,则在时间内增加的病人数为
两边除以,并令0得微分方程
…………
(2.1)
其解为
这表明传染病的转播是按指数函数增加的。这结果与传染病传播初期比较吻合,传染病传播初期,传播很快,被传染人数按指数函数增长。但由(2.1)的解可知,当t∞时,i(t)∞,这显然不符合实际情况。最多所有的人都传染上就是了。那么问题在那里呢?问题是就出在于两条假设对时间较长时不合理。特别是假设(1),每个病人单位时间内传染的人数是常数与实际情况不符。因为随着时间的推移,病人越来越多,而未被传染的人数却越来越少,因而不同时期的传播情况是不同的。为了与实际情况较吻合,我们在原有的基础上修改假设建立新的模型。
二.
模型的修改
将人群分成两类:一类为传染病人,另一类为未被传染的人,分别用i(t)和s(t)表示t时刻这两类人的人数。i
(0)=。
假设:(1)
每个病人单位时间内传染的人数与这时未被传染的人数成正比。即;
(2)
一人得病后,经久不愈,并在传染期内不会死亡。
由以上假设可得微分方程
…………
(2.2)
这是变量分离方程,用分离变量法可求得其解为
…………
(2.3)
其图形如下图2-1所示
模型
(2.2)
可以用来预报传染较快的疾病前期传染病高峰到来的时询。
医学上称为传染病曲线,它表示传染病人的增加率与时间的关系,如图2-2所示。
由
(2.3)式可得
…………
(2.4)
再求二阶导数,并令,可解得极大点为
…………
(2.5)
从
(2.5)
式可以看出,当传染病强度k或人口总数n增加时,都将变小,即传染病高峰来得快。这与实际情况吻合。同时,如果知道了传染率k(k由统计数据得到),即可预报传染病高峰到来的时间,这对于预防传染病是有益处的。
模型
(2.2)
的缺点是:当t∞时,由(2.3)式可知i(t)n,即最后人人都要得病。这显然与实袜情况不符。造成这个结果的原因是假设
(2)
中假设一人得病后经久不愈,也不会死亡。
为了得到与实际情况更吻合的模型,必须修改假设
(2)
。实际上不是每个人得病后都会传染别人,因为其中一部份会被隔离,还有由于医治和人的身抵抗力会痊愈,有的人会死亡从而也就不再会传染给别人了。因此必须对模型作进一步的修改,建立新的模型。
三.
模型的进一步完善
从上面的分析我们看到模型
(2.2)
的假设
(2)
是不合理的。即不可能一人得病后会经久不愈,必有一部份人因医治或自身的免疫力,或是被隔离,或是死去而成为不会再继续传染给别人的第三类人。因此我们把人群分成三类:
第一类由能够把疾病传染给别人的那些传染者组成的。用
I(t)
表示
t
时刻第一类人数。
第二类是由并非传染者但能够得病而成为传染者的那些人组成的,用
S(t)
表示
t
时刻第二类人数。
第三类包括患病后死去的人,病愈后具有长期免疫力的人,以及在得病后被隔离起来的人。用R(t)
表示
t
时刻第三类人数。
假设疾病传染服从下列法则:
(1)
在所考虑的时期内人口总数保持在固定水平N,即不考虑出生及其他原因引起的死亡,以及人口的迁入迁出的情况。
(2)
易受传染者人数S(t)的变化率正比于第一类的人数I(t)与第二类人粉S(t)的乘积。
(3)
由第一类向第三类转变的速度与第一类的人数成正比。
在这三条假设情况下可得如下微分方程:
…………
(2.6)
其中r、λ为比例常数,r为传染率,λ为排除率。
由方程(2.6)的三个方程相加得
则
故
因此只要求出
S(t)、I(t)
即可求出
R(t)。
方程组
(2.6)
的第一个和第二个方程与
R(t)
无关。因此,由
…………
(2.7)
得
…………
(2.8)
积分得
由初始条件:当
并记
代入上式可确定常数
最后得
…………
(2.9)
下面我们讨论积分曲线
(2.9)
的性质,由(2.8)知
所以当S<ρ时,I(S)
是S的增函数,S>ρ时,I(S)
是S的减函数。
又有I(0)=-∞,
由连续函数的中间值定理及单调性知,存在唯一点,,使得,
而当
时,I(S)>0。
由
(2.7)
知I=0时,,所以为方程组
(2.7)
的平衡点。
当
时,方程(2.9)的的图形如图2-3。当t由变到
∞
时,点(S(t),I(t))沿曲线
(2.9)
移动,并沿S减少的方向移动,因为
S(t)
随时间的增加而单调减少。因此,如果小于ρ,则
I(t)
单调减少到零,S(t)
单调减少到。所以,如果为数不多的一群传染者分散在居民中,且,则这种病会很快被消灭。
如果,则随着
S(t)
减少到ρ时,I(t)
增加,且当S=ρ时,I(t)
达到最大值。当S(t)<ρ
时
I(t)
才开始减少。
由上分析可以得出如不结论:
只有当居民中的易受传染者的人数超过阈值
时传染病才会蔓延。
用一般常识来检验上面的结论也是符合的。当人口拥挤,密度高,缺少应有的科学文化知识,缺乏必要的医疗条件,隔离不良而排除率低时,传染病会很快蔓延;反之,人口密度低,社会条件好,有良好的医疗条件和较好的管理而排除率高时,则传染病在有限范围内出现会很快被消灭。
传染病学中的阈值定理
设,且假设同1相比是小量。并设最初传染者人数很小,则最终患病人数为2r。即是易受传染者的人数最初比阈值高多少,那么最终就会比阈值低多少。这就是有名的传染病阈值定理。生物数学家Kermack和Mekendrick在1927年首先证明了这个定理(证明从略)
根据阈值定理就可以由起初易受传染者的人数来估计最终患病的人数。这定理解释了研究人员长期以来难以解释的为什么对于某一民族或地区,某种传染病传播时,每次所涉及的人数大体上是一常数的现象。
在传染病发生的过程中,不可能准确地调查每一天或每一星期的得病人数。因为只有那些来医院就医者才能被人知道他们得了病,并把他们隔离起来防止传染。因此,统计的记录是每一天或星期新排除者的人数,而不是新得病的人数。所以,为了把数学模型所预示的结果同疾病的实际情况进行比较,必须解出(2.6)中的第三个方程。
因为
所以
从而有
…………
(2.10)
方程
(2.10)
虽是可分离变量的方程,但是不能用显式求解,如果传染病不严重,则R/ρ是小量,取泰勒级数前三项有
从而
其解
其中
因此
…………
(2.11)
方程
(2.11)
在
平面上定义了一条对称钟形曲线,称为疾病传染曲线。疾病传染曲线很好地说明了实际发生的传染病的情况:每天报告的新病案的数目逐渐上升到峰值,然后又减少下来。
Kermak和Mekendrick把
(2.11)
得到的值,
关键词:传播分布模型 运动过程 质平衡
在空调通风条件下,室内颗粒物的运动以及分布情况是评价室内空气品质的重要指标,研究室内颗粒物的分布情况主要有三种方法:实验检测、模型分析和CFD模拟。本文欲重点分析颗粒物在室内的沉降模型。
1.模型分析
模型分析法是一种数学物理研究方法。这种方法把室内颗粒物的发散源头、影响因素等加以综合,从质量守恒的角度出发,在一系列假设(如室内空气混合均匀等)的前提下,建立起室内颗粒物运动和分布的模型。
1.1 渗透过程
渗透过程是指在室内外压差的作用下,室外空气中的颗粒物通过门窗的缝隙向室内低速传播的过程。考虑到一般情况下渗透过程的作用相对于室内人员活动以及物品散发的作用较为微小,故在近似计算中,渗透过程可忽略不计。
1.2 通风过程
颗粒物随空气进入和离开室内环境主要有三种方式:机械通风、自然通风和渗透风。机械通风系统中由于装有过滤器,进入室内环境中的颗粒物浓度和大小主要取决于过滤器效率。由于自然通风中的开口尺寸较大,颗粒物在开口处几乎没有沉降就直接进入室内环境中;颗粒物离开时亦然。对于小裂缝,颗粒物的渗透时会在其表面沉积;对于大缝隙,颗粒物也几乎不会沉积下来。
1.3 沉积过程
沉积到物体表面是颗粒物浓度减少的主要方式之一。室内空气中悬浮颗粒物由于受到重力作用、壁面的吸附作用或是压差、热力梯度的影响等,沉降到地面或其他物室内表面。
1.4 转化过程
转化过程能够增加也有可能减少颗粒物的浓度,包括蒸发沉积、气体到颗粒物的转变以及颗粒物的凝结等过程。转化过程同时还会改变颗粒物的粒径及粒度分布曲线。本文假设颗粒在整个运动、沉积和传播过程中不发生转变。
1.5 重新悬浮
重新悬浮过程能较为明显地增加室内颗粒物的浓度。考虑到本文的研究目的是气流组织形式的影响,因此本文不考虑重新悬浮作用对室内悬浮颗粒物浓度的影响,同时在模拟中假设物品和墙面都为吸附性墙体。2 颗粒物室内浓度预测模型
建筑室内环境中的颗粒物有室内和室外两种来源,室外来源为通过建筑维护结构渗透进入室内,或是由空调系统的新风带入室内,室内来源为人体散发、室内微生物颗粒物的气溶胶化以及其他物质的相变、凝结和转化等过程。建筑室内颗粒物浓度的其他影响因素有通风过滤、颗粒物沉积、颗粒物转化以及再悬浮过程。假设空气各向同性,空气与室内物体表面不存在温度梯度,室内各处颗粒物浓度均匀,依据以上所述的不考虑颗粒物的重新悬浮过程和转化过程,依据质量平衡的原理,则某建筑在时间t内的室内颗粒物浓度的变化可用式1.1表示,室内空气中悬浮颗粒物的各种运动过程和质量平衡示意图如图1所示。
(1.1)
图1 室内环境中悬浮颗粒物迁移和转变机理示意图
室内颗粒物的浓度预测公式可由以下质平衡方程1.2表示。
(1.2)
其中,为室内颗粒物的浓度变化率,(ug/(m3· min);Qf为中央空调系统新风送风量,m3/ min;Qr为中央空调系统回风量,m3/ min;Qp为中央空调系统排风量,m3/ min;Qin为室外空气向室内环境的渗透量,m3/ min;Cf为室外空气颗粒物的浓度,(ug/(m3· min);C为室内空气颗粒物的浓度,(ug/(m3· min));η为中央空调系统送风过滤器的过滤效率,%;Ai为室内各表面的面积,m2;vi为室内环境中颗粒物相对室内各表面的沉降速度,m/s;R1为以其他方式如吸湿、凝结、化学反应等生成颗粒物的速度ug/min;R2为室内发生源生成颗粒物的速度ug/min;P为渗透因子。
对于公式1.2,需要指出的是,一般研究考虑的是颗粒物由室外向室内的渗透过程,而对于空调房间,由于室内压力比室外大,缝隙中的气流方向为由室内向室外,颗粒物是由室内向室外渗透,因此,对于空调房间来说,公式1.2变为:
(1.3)
2.1 室内外颗粒物浓度的确定
室内外颗粒物的浓度,通常数量浓度和粒径是呈高斯分布的关系,数量浓度的值和质量浓度、表面积浓度的值也不尽相同,本文为了研究方便,假定室内外颗粒物的粒径统一 ,浓度采用质量浓度的计量方式。
2.2 渗透因子的确定
室外空气向室内渗透时颗粒物的渗透因子目前还没有可以适用一般情况的公式或数据,故一般采取数学模型的方法推导出实际工程中近似条件下渗透因子的适用公式。2007年,湖南大学田利伟博士综合重力、布朗扩散和惯性拦截三种沉积机理对颗粒物在穿透过程中的影响,分析了颗粒物粒径等因子,得出了颗粒物在建筑围护结构中穿透过程的渗透因子,如公式2.1所示,最后用实验数据对该因子的预测结果进行了验证[1]。
(2.1)
其中,H为缝隙的高度,mm;L为缝隙的深度,cm;Δp为缝隙两端的压差,Pa;d为颗粒物的直径,μm;u为缝隙中的气流速度,m/s;CC为Cummingham滑动修正系数;μ为空气动力粘性系数,取值18.2×10-6kg/(m·s);T为绝对温度,K;K为波尔兹曼常数,取值1.38×10-16g·cm2/(s2·K)。
在Δp取10Pa,H取0.25mm,L取4cm时,由以上公式可得,粒径为2.5μm的颗粒物的渗透因子为0.62,粒径为10的颗粒物的渗透因子为0。值得指出的是,公式2.1是在假定颗粒物通过的内表面为光滑状态下得出的,没有考虑通道的粗糙度对颗粒物通过的影响。
2.3 沉降速度的确定
颗粒物沉积是影响室内空气中颗粒物浓度分布的一个重要因素,对于颗粒物的沉积速度,国内外大部分的研究均集中于对沉积率的实验检测[3~4],实验过程中往往存在大量干扰因素、不可控因素以及偶然因素,实验的外部条件具有特殊性,且无法将实验结果和相应的颗粒物粒径对应起来,因此实验方法不具有普遍适用性。
于是有学者提出了基于实验数据的颗粒物沉积过程的模型,但是问题在于无法确定哪个模型是较为精确和适用的,因此通过数学分析的方法研究出的模型通常是适用的。文献[1]运用数学方法建立了室内悬浮颗粒物的沉积模型。文献首先分析了空气中悬浮的颗粒物所受到的各种力,然后利用物体表面上的边界层质量通量得出了沉降速 度公式(见式2.2),分析了影响沉降公式的各个因子(紊流系数等),并利用实验数据验证了公式的合理性。
(2.2)
其中,vd为颗粒物的沉降速度,m/s;C为空气中的颗粒物浓度,kg/m3;DPM为颗粒物布朗扩散系数,m2/s;εp为颗粒物的紊流扩散系数,m2/s;C∞为边界层主流区颗粒物的浓度kg/m3。
当颗粒物的粒径大于0.01μm时,布朗扩散系数相对于紊流扩散系数很小,于是可以忽略布朗扩散系数,得到简化的颗粒物沉降公式2.3。
(2.3)
假定边界层主流区颗粒物的浓度和建筑室内核心浓度相等,即C∞=C,带入式3.6,令, ,解式1.3,可得
(2.4)
初始条件为:t0,C(t)C0
(2.5)
则式2.4变为
(2.6)
则当t∞,即室内颗粒物浓度达到稳定状态时,由式2.6可知
(2.7)
即:
(2.8)
其中,
式2.4可以估算出室内颗粒物的浓度变化和分布情况。
3.结论
本文首先研究了室内颗粒物运动的几种基本过程:渗透过程、通风过程、沉积过程、转化过程以及重新悬浮,然后结合这几种过程,以建筑室内颗粒物质平衡为依据,建立起室内颗粒物浓度分布的预测模型,并在参考前人研究成果的基础上,给出了模型中主要影响因子的表达式。
关键词:社交网络;剪枝策略;传播模型;话题
中图分类号:TP391.41 文献标识号:A
The Research on Pruning Strategies Topic Propagation Model of Social Network
YIN Zelong, TANG Xianglong
(School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China)
Abstract: With the spreading of topics in the social network, topic models would spent more time and more storage space with the increase of the size of data. However, most topics focus on some key nodes and parts of nodes have no significant effect on topic propagation in the real process of topic propagation. If we could reasonably cut some nodes in the social network during the spread of topics, the runtime of the program and the storage space both would be reduced. To solve the above problem, the paper designs two novel graph pruning algorithm to reduce the number of nodes in the social network. The two algorithms presented in this paper introduced the thought of recommend system into the research on pruning strategy of topic propagation models and have a certain novelty. With the analysis and comparison, the paper analyzes the impact of different pruning strategies of propagation model on the effectiveness, the space, running time and the robustness of the graph.
Keywords: Social Network; Pruning Strategy; Propagation Model; Topic
0 引 言
剪枝是一种机器学习技术,通过移除树的某些节点来减少决策树的大小,其中这些节点对分类实例拥有很小的影响因子[1-2]。剪枝不仅能够减小算法的复杂性,同时还能够提高算法的预测准确性。
在决策树算法中,一个重要的问题就是优化最终树的规模。如果树的规模过大,就会存在训练数据集过度拟合而新样本概括不准确的问题;树的规模过小也会无法把握样本空间重要的信息结构。同时,也很难分析出算法何时应该停止,因为此时仍无法判断新加入的节点能否动态地减少错误,这个问题被称为视界效应。一个一般化的策略是让树自然生长直到停止为止,再使用剪枝策略去移除那些没有重要作用的节点。
在本文中,研究拟将将剪枝技术运用到社交网络话题传播模型中。在进行社交网络话题传播时,话题在不同的用户之间相互传播,这些用户则形成了社交网络关系图[3]。当随着时间不断向前推移,社交网络关系图变得更加复杂,则话题传播模型在这样的社交关系图上模拟将会花费更多的时间和空间。为了节省空间和时间开销,本文提出并设计了两种新颖的图剪枝策略来减少社交网络图中的节点数量。文中的算法是将推荐系统的思想引入到社交网络传播模型剪枝策略中,具有一定的新颖性。在本文实验部分,则将本文提出的算法同随机剪枝策略[4]和基于度的剪枝策略[5]进行比较分析,结果表明本文的算法在剪枝效果上具有明确显著的优越性。
1 问题定义
该小节介绍了相关概念和符号以及社交网络话题传播模型剪枝问题的定义。在此假设给定一个社交网络关系图 , 是社交网络关系图中用户的集合, 是社交网络关系图中用户和用户关系的集合。同时假设以关键词 作为用户讨论的话题,且在社交网络关系图 中存在的话题集合为 ,由于话题在社交网络中是分布在不同的用户 上,因此 和 之间存在二元映射关系,如图1所示。
图1 话题与用户的映射关系图
Fig.1 Mapping relationship between topics and users
一个用户可以包含多个话题,一个话题也可能对应多个用户。同时话题对于不同用户,其权重也是不同的,因此上假设关键词 对于用户 的权重为 。根据上述定义,可以抽象出本文的研究问题:已知社交网络关系图 和话题集合 ,求出 。为了解决上述问题,本文提出了两种新颖的图剪枝算法,根据 和话题集合 提供的信息,结合图剪枝算法来获取 。下面将介绍本文所研究的社交网络话题模型的剪枝策略。
2 剪枝策略算法研究
本节介绍了两种社交网络话题模型的剪枝策略,基于话题权重和基于用户兴趣相似性的剪枝策略。总而言之,这两种算法均是将推荐系统的思想引入图剪枝策略中。
2.1 基于用户话题权重的剪枝策略
基于用户话题权重的剪枝策略与基于用户兴趣相似度剪枝策略类似,都是利用了话题与用户之间的关系。不同之处是后者计算与用户具有共同兴趣用户广泛度,前者是计算拥有话题的广泛度。在传播模型中,如果多个话题出现在某个用户上,则在一定程度上可以说明话题在传播过程中频繁地经过该用户,因此这样的用户可以被看作关键用户。基于上述的原因,研发设计了一种基于用户话题权重的剪枝策略算法。
假设社交网络关系图为 以及话题集合为 ,每一个话题 被一个或者几个用户所拥有,则假设拥有话题 的用户集合为 ,用户 拥有话题 的权重为 。首先,对每一个话题 的用户集合 按照用户 拥有该话题的权重 进行排序,如图2所示。
图 2 基于话题权重的剪枝步骤1
Fig.2 Topic weight pruning step 1
然后,将每个话题的用户按照从小到大的顺序进行编码,如图3所示。
图 3 基于话题权重的剪枝步骤2
Fig.3 Topic weight pruning step 2
最后,循环遍历每一个 来统计每一个 的话题权重总和,并排序,如图4所示。
图 4 基于话题权重的剪枝步骤3
Fig.4 Topic weight pruning step 3
2.2 基于用户兴趣相似度的剪枝策略
在本节中,给出了话题集合 与用户集合 存在映射关系,即同一个用户可以拥有多个话题,同一个话题可以被多个用户拥有,因此即以用户拥有的话题相似性来表示用户的兴趣相似性。在以上研究中,已经阐述到用户的兴趣相似度对话题转移概率是有影响的,当用户间兴趣相似度越大,则话题更有可能在同群用户之间经常传播。如果某个用户与很多用户均具有颇高的兴趣相似度,则这样的用户就是话题传播过程中的关键用户而应该得到保留。假设用户 的话题集合分别为 和 ,则采用cosine-index[6]来衡量兴趣相似度,即:
(1)
由公式(1)可知,可以计算出 的 。下面将以4个用户( )为例来说明该算法步骤。当计算出所有用户之间的兴趣相似度后,就可以得到如下所示的矩阵图:
图 5 基于用户兴趣相似性的剪枝步骤1
Fig.5 Interest similarity pruning step 1
如图5所示,该图的前半部分表示用户兴趣相似度的矩阵图,后半部分即将每一个用户与之关联的用户兴趣相似度进行排序。而后再对排序后的矩阵进行归一化处理,如图6所示。
图 6 基于用户兴趣相似性的剪枝步骤2
Fig.6 Interest similarity pruning step 2
最后,则将归一化的矩阵中每一个用户的兴趣相似度进行统计,并排序得到综合结果。具体如图7所示。
图 7 基于用户兴趣相似性的剪枝步骤3
Fig.7 Interest similarity pruning step 3
用户最终得到的权值越大,就说明用户和周围用户有着更为广泛的兴趣相似度,反之亦然。
3 实验结果与结论分析
本节主要介绍上述几种剪枝策略的实验设计原理以及实验结果。实验中采用真实的微博数据集来构建社交网络关系图和相关话题的提取,并运用上述几种剪枝策略来对社交网络关系图进行剪枝,完成后则将传播模型的算法在剪枝后的社交网络关系图上进行传播模拟,从而比较不同剪枝策略下传播模型的预测效果。
3.1 数据集
本文采用的是微博数据集,抽取的是在某一时间粒度下的数据集来构建社交网络关系图以及话题的抽取,实验数据及环境配置如表1所示。
表 1 实验数据及环境配置
Tab.1 The experimental data and environment configuration
名称 参数
实验数据 User(节点)
Connection(边)
Topic(话题) 11589
72395
107
机器配置 8G RAM,3.40GHZ Core i7 处理器
编程语言 C++
分析工具 Matlab2010,Excel
数据库 Mysql
3.2 实验设计
本节从新浪微博数据中选取了11 589个节点以及106 198条边构成一个社交网络关系图,并从中抽取107个话题。首先是将不同的剪枝策略对社交网络关系图进行剪枝,然后用传播模型算法分别在不同的剪枝后的关系图上模拟话题传播,比较不同剪枝策略下的预测效果和运行时间。同时,对于每一种剪枝策略,均将会构建实验并据此分析不同剪枝程度对传播模型话题预测效果的影响。
3.3 实验效果评估
图8是将准确率和召回率进行结合所得到关于不同剪枝策略对于剪枝比例同传播模型F1值关系的曲线图。从图中可以看出,Degree PruningASC 的F1变化最快也是最低,主要是因为按照节点度数从大到小的顺序进行剪枝,首先就会剪掉一些关键节点。其次是Random Pruning,然后是Degree PruningDESC。上述三种剪枝方式从某种程度可以反映出节点的度数同节点的影响力之间的正相关性。Interest Similarity Pruning和 Topic Weight Pruning在随着剪枝比例增大时,前期对传播模型的准确率并没有太多的影响。到后期时二者的F1值都会发生下降,但Interest Similarity Pruning的F1值会出现陡降,因为当剪枝比例越大时,通过Interest Similarity Pruning所剪掉的节点才是正真意义上的关键传播节点,因此将会导致话题传播严重受阻,F1急速下降。
图 8 不同剪枝策略下剪枝比例与F1的关系对比图
Fig.8 Relation between F1 and pruning proportion based on different pruning strategies
图9 展示了不同剪枝策略下,剪枝比例同程序运行时间的关系图。整体上看,随着剪枝比例增大,所用的时间呈线性下降。Degree PruningDESC的程序运行时间低于其他剪枝策略,因为这具体是按照节点度数从大往小进行剪枝,将容易破坏图的连通性,致使信息传播受阻。其次是Random Pruning。利用Interest Similarity Pruning,Degree PruningASC 以及Topic Weight Pruning三种剪枝策略剪枝后,传播模型的运行时间将十分相近,这在某种程度来说如上三种剪枝策略都能够保证社交网络中图的连通性。
图 9 不同剪枝策略下剪枝比例与运行时间的关系对比图
Fig.9 Relation between runtime and pruning proportion based on different pruning strategies
4 结束语
本文主要是介绍并研究社交网络传播模型剪枝策略。因为在进行社交网络话题传播的过程中,数据量会不断地增大,传播模型在进行传播模拟时所花销的时间必将增多,程序运行所占用的空间也会不断加大,所以本文提出了几种社交网络传播模型的剪枝策略来对社交网络进行削减,保证在不降低传播模型预测效果的情况下,能够减少传播模型所花销的时间和空间。首先,本文给出了社交网络话题传播模型剪枝策略研究的相关概念和问题定义,主要包括图的定义,话题定义以及研究的问题描述。其次,本文给出了两种新颖的剪枝策略,包括基于用户兴趣相似性的剪枝策略和基于用户话题权重的剪枝策略。最后,本文又给出了上述几种算法的实验分析结果,主要从时间的运行效率,所包含节点比例以及传播模型的预测效果来进行对比和分析。实验结果表明,按节点度大的顺序进行剪枝的效果最差,但是模型的运行时间最短;其次是随机剪枝,效果和运行时间居中;基于用户话题权重的剪枝策略,预测效果表现最好,同时剪枝策略设计并不复杂。
参考文献:
[1] HARABOR D, GRASTIEN A. Online graph pruning for pathfinding on grid maps[C]//Association for the Advancement of Artificial Intelligence ,San Francisco, CA, USA:AAAI, 2011.
[2] KRETZSCHMAR H, STACHNISS C, GRISETTI G. Efficient information-theoretic graph pruning for graph-based SLAM with laser range finders[C]//Intelligent Robots and Systems(IROS),San Francisco, CA :IEEE/RSJ,2011 :865-871.
[3] DENG H, HAN J, ZHAO B, et al. Probabilistic topic models with biased propagation on heterogeneous information networks[C]// KDD’11, New York, NY, USA:ACM, 2011:1271-1279
[4] GOYAL A, BONCHI F, LAKSHMANAN L V S. A Data-Based Approach to Social Influence Maximization[J]. VLDB 2012, 2012,5(1):73-84
双基因模型对感染率变化以及病毒对抗措施介入对病毒传播所造成的影响进行了考虑。在病毒传播的过程中,计算机用户可能会发现病毒采取措施来对抗病毒,如对病毒库的更新、对病毒的查杀、对系统补丁的完善等,这些方法能够有效的使病毒感染率降低。
计算机病毒防御研究
主机检测策略基于主机的检测策略主要包括权限控制技术、完整性验证技术和特征码匹配技术三类。特征码匹配技术可以通过对主机代码的扫描来确定这些代码的特征是否与病毒库中的恶意代码相同来判定计算机中是否存在恶意程序。其中同种及同类病毒具有相同代码的理论是特征码扫描技术的基础,特征码匹配技术需要不断的对其病毒库进行更新,不然将会不能识别新的病毒代码,这种技术在这种情况下也自然会失去价值权限控制技术是通过对计算机中程序权限的选定来避免恶意程序和代码对计算机进行破坏,这是因为恶意程序和代码只有在运行状态下才能够对计算机进行破坏完整性检测是基于病毒代码需要依附和嵌入程序文档来运行,它们并不是独立存在的,而一旦程序或者文档遭到感染,其本身的完整性也就会被破坏,所以对程序和文档的完整性进行检验能够有效的防止病毒的感染。基于主机的检测策略需要计算机用户能够在计算机中安装防毒软件并对软件进行及时更新,而这种要求也使主机检测策略具有了成本较高以及管理性较差的劣势。
网络检测策略基于网络的检测策略主要包括异常检测以及误用检测两类。病毒在植入和传播的过程中会发送探测包,这种行为会使网络中的流量增加,对病毒本身的异常行为进行检测并采取有效措施进行控制是十分必要的,异常检测可以及时的发现计算机网络流量的变化,当其变化异常时会采取措施来避免恶意程序和代码的进一步传播,这种方法不仅对已知病毒的检测有效,同时也能够检测出新的未知的病毒,但是其本身存在较高的误报率;误用检测技术以特征码为基础。
【关键词】计算机病毒;SIR模型;稳定性;Dulac函数
1.引言
随着计算机网络的发展,人们在日常生活中越来越依赖于网络来办理各种事情。网络给我们带来了很多的方便,同时也给我们带来了各种威胁。目前,计算机病毒已经严重威胁到信息安全和个人隐私,并可能导致一些组织遭受巨大损失。如何有效地对抗计算机网络病毒,以及如何减少病毒的非法入侵已经成为信息安全领域亟待解决的重大问题。
目前,一些学者利用数学模型来研究计算机病毒的传播规律[1-9]。最近,冯丽萍等人在文献[10]中提出了一种改进的SIR计算机病毒传播模型。作者利用微分方程理论分析了模型的动力学行为,得到了免疫平衡点的全局渐近稳定性和流行病平衡点的局部渐近稳定性并给出了数值模拟。但作者并未证明流行病平衡点的全局渐近稳定性。因此,在文献[10]的基础上,本文研究流行病平衡点的全局渐近稳定性。
2.改进的SIR计算机病毒传播模型
下面,我们给出文献[10]中的一种改进的SIR计算机病毒传播模型:
(1)
其中S(t),I(t)和R(t)分别表示时刻t尚未感染病毒但容易被感染的节点,已感染病毒的节点和对病毒已具有免疫功能的节点。n表示新节点的接入数,p表示新接入节点的免疫率,表示有效传染率,u表示节点“死亡率”,k表示反病毒的实施率,表示病毒自然死亡率。另外,S,I,R满足:
(2)
系统(1)中前两项不依赖于第三项,故考虑如下系统:
(3)
其中:
定义:
当时,系统(3)在D内有唯一的免疫平衡点;当时,系统(3)在D内除了免疫平衡点M1之外,还有流行病平衡点:
由文献[10]知,我们有如下结论:
定理2.1:当时,M1在D内全局渐近稳定。
定理2.2:当时,M2在D内局部渐近稳定。
3.流行病平衡点的全局渐近稳定性
本节,我们证明系统(3)的流行病平衡点M2在D内全局渐近稳定。
定理3.1:当时,M2在D内全局渐近稳定。
证明:要证明这个定理只需证明,当时,系统(3)在D内不存在闭轨线。对系统(3),考虑和。构造Dulac函数:
计算得:
由Bendixson-Dulac定理[11-12]知,系统(3)在D内不存在闭轨线。因此,由上述讨论可知M2在D内全局渐近稳定。
4.数值模拟与分析
为了验证定理3.1的正确性,我们进行了数值模拟仿真实验,通过选取三组不同的参数值来观察流行病平衡点随时间的演化趋势。
1)取 P=0.9,=0.005,n=15,k=0.08,u=0.001,r=0.001,此时R0=1.1292>1,数值模拟结果如图1所示。
2)取P=0.9,=0.005,n=20,k=0.08,u=0.001,r=0.001,此时R0=1.5056>1,数值模拟结果如图2所示。
3)取 P=0.9,=0.005,n=20,k=0.06,u=0.001,r=0.001,此时R0=2.6441>1,数值模拟结果如图3所示。
图1 取第一组参数时流行病平衡点
随时间的演化示意图
图2 取第二组参数时流行病平衡点
随时间的演化示意图
图3 取第三组参数时流行病平衡点
随时间的演化示意图
图1,图2和图3表明,当时,流行病平衡点M2是全局渐近稳定的,即网络中的病毒最终不会消亡。图1和图2在参数b变化时,网络中被感染的计算机数会随着参数的增大而增加。图2和图3在参数k变化时,网络中被感染的计算机数会随着参数的减小而增加。
5.结束语
本文研究了一种改进的SIR计算机病毒传播模型的流行病平衡点的全局渐近稳定性,发现模型中病毒的传播主要依赖于R0的取值,为了减小病毒在网络中的传播,应该尽力减小R0的值。在现实中,比较有效和可行的办法是提高k或者降低n的值。
参考文献
[1]MISHRA B K,PANDEY S K.Dynamic model of worms with vertical transmission in computer network[J].Applied Mathematics and Computation,2011,217(21):84388446.
[2]TOUTONJI O A,YOO S M,PARK M.Stability analysis of VEISV propagation modeling for network worm attack [J].Applied Mathematical Modelling,2012,36(6):2751-2761.
[3]YANG L X,YANG X F.The spread of computer viruses under the influence of removable storage devices[J].Applied Mathematics and Computation,2012,219(8):3914-3922.
[4]ZHU Q Y,YANG X F,REN J G.Modeling and analysis of the spread of computer virus [J].Communications in Nonlinear Science and Numerical Simulation,2012,17(12):5117-5124.
[5]杨茂斌,杨小帆,祝清意,杨橹星.具有分级感染率的4仓室计算机病毒传播模型[J].重庆大学学报,2012,35 (12):112-119.
[6]李红伟,杨小帆.带有用户意识的计算机多病毒传播模型[J].计算机工程,2012,38(1):125-129.
[7]冯丽萍,王鸿斌,冯素琴.基于生物学原理的计算机网络病毒传播模型[J].计算机工程,2011,37(11):155-157.
[8]冯丽萍,韩琦,王鸿斌.具有变化感染率的僵尸网络传播模型[J].计算机科学,2012,39(11):51-53.
[9]彭梅,李传东,何兴.基于直接免疫的SEIR 计算机病毒传播模型[J].重庆师范大学学报(自然科学版),2013,30(1):77-80.
[10]冯丽萍,王鸿斌,冯素琴.改进的SIR计算机病毒传播模型[J].计算机应用,2011,31(7):1891-1893.
[11]马知恩,周义仓,王稳地,靳帧.传染病动力学的数学建模与研究[M].北京:科学出版社,2004.
[12]张芷芬,丁同仁,黄文灶,董镇喜.微分方程定性理论[M].北京:科学出版社,2003.
基金项目:天地(常州)自动化股份有限公司研发项目(编号:13GY001-01);中国煤炭科工集团科技创新基金重点项目(编号:2013ZD010)。
作者简介: