首页 > 文章中心 > 正文

概率论与数理统计在大数据分析的应用

前言:本站为你精心整理了概率论与数理统计在大数据分析的应用范文,希望能为你的创作提供参考价值,我们的客服老师可以帮助你提供个性化的参考范文,欢迎咨询。

概率论与数理统计在大数据分析的应用

【摘要】21世纪以来,互联网的快速发展与推广使数据呈现几何倍数的增长,这使我国迎来了大数据时代。由于大数据具备规模大、增长快、稀疏性等特征,这也给大数据分析带来较大困难。在大数据时代,利用概率论数理统计方法来对繁杂数据进行分析与挖掘不失为是一种简单高效的方法,为此,本文便对概率论与数理统计方法在大数据分析中的相关应用策略进行深入的探讨。

【关键词】概率论;数理统计;大数据;数据分析;应用策略

0.引言

在人们的生产生活中,概率学知识在方方面面中得到了广泛的应用,它是我们对世界进行更深刻认识的重要工具,通过概率学与数理统计工具的应用,能够使人们对各种复杂的问题及数据进行冷静科学的分析,从而使人们的生活质量得到显著提高,并且能够根据已有的数据对事物的演变规律及发展趋势进行准确预测。正是因为这些优势,使概率论与数理统计成为许多复杂问题的指引。如今,人们对大数据的分析需求越来越迫切,这也使人们急需一种能够适用于大数据分析的有效方法来解决实际生产生活中的复杂问题。鉴于此,以下便对概率论与数理统计在大数据分析中的相关应用策略进行探讨,希望能为人们在生产生活中的大数据分析提供相应的参考建议。

1.概率论与数理统计的含义

在高等数学中,概率论与数理统计方法一种具备鲜明特征的分析,其在研究对象上具有非常独特的思维特征,并且它和其他学科特别是经济学科存在着非常紧密的联系。概率论与数理统计的内容非常丰富,这也使其成为数学学科中的重要组成部分。现阶段,概率论与数理统计方法在各个领域中都得到了非常广泛的应用。从当前来看,概率论与数理统计可以看作是一种较为独立的学科,它在人们的生产生活当中发挥着巨大的作用,不论是在工业领域还是在其他领域,概率论与数理统计方法对信息技术的要求都非常严格,利用概率论与数理统计方法在大数据分析中具有着无可比拟的优势。同时,其又不属于独立学科,这是因为它和其他学科存在着紧密的内在联系,具有相互渗透的作用,正是因为概率论与数理统计的涵盖范围与应用范围非常广泛,这也使人们难以对其进行逐一解释。因此,本文只对概率与数理统计在其中几个方面中的应用策略进行了探讨,以此明确概率论与数理统计在大数据中的具体应用及作用。

2.概率论与数理统计和大数据分析的密切联系及常用方法

2.1概率论与数理统计和大数据分析的密切联系

大数据时代的来临,使人们能够利用概率论与数理统计来对大数据进行分析,这也使其和大数据分析具备着密切的联系,其联系主要集中在以下四个方面,首先,概率论与数理统计和大数据分析的研究目标是相同的,都是为了对数据结构进行探索与明确,以此找出大数据的内部联系与规律。其次,大数据的不断发展,使大数据分析为统计学开拓出了一个新的应用空间,这也为概率论与数理统计的研究提供了一个全新的课题,通过对大数据的分析,能够极大程度的推动概率论与数理统计的发展。再次,大数据分析并不属于统计学中的一种分支,大数据分析还能够广泛应用于其他领域当中,能够为其他领域提供新的思想、工具与方法,例如利用大数据分析可以使机器进行学习,并能够实现数据存储等。最后,概率论与数理统计是DM中一种应用非常广泛而又较为成熟的解决问题方法与技术,其在DM中占据着极为重要的地位。

2.2概率论与数理统计在大数据分析中的常用方法

概率论与数理统计在大数据分析中的常用方法主要有两种,一种是层次分析法,另一种是蒙特卡罗法,所谓层次分析法是指当人们对某些不确定因素的演变规律及发展趋势进行研究时,必须要对这些因素的影响作用及相互联系进行综合考虑,由于评价指标中的这些不确定性因素是可以按照层次进行划分的,同时,在各个层次中的不确定性因素内还包含着若干要素,这就使整个复杂问题的结构看上去是一种多级递阶结构,在对这类问题进行解决时,就可以采用层次分析法来对这些层次中的不确定性因素对于整个问题的相对重要度进行判断,而这便产生了概率。在应用层次分析法时,应通过四个步骤来建立数学模型,第一个步骤是先对问题中的各个因素进行明确,然后对这些因素进行层次划分,使整个问题的结构属于一种递阶层次结构,然后以上一级的要素作为准则来对下一级的要素实施两两对比,并按照评定尺度来对下一级要素对于上一级要素的重要程度进行确定,并构建出相应的判断矩阵,然后对问题中的各个要素的相对重要度进行计算,同时计算出该问题的综合重要度,进而给决策者带来可靠的决策支持保证。蒙特卡罗法则是在概率论与数理统计的基础上对问题中的不确定性因素进行反复随机的抽样,以此模拟出该不确定性因素的自身变化给问题带来的影响程度,并对问题中的所有不确定因素给问题带来的影响进行计算分析,进而获得科学的分析结果。蒙特卡罗法能够对问题的实际过程进行真实模拟,这也使其在对实际问题的解决上具有十分显著的效果。蒙特卡罗法的数学表达式是Z=k(x1,x2,x3,...,xn),在该数学表达式中,xi(i=1,2,3,...,n)代表该复杂问题中存在n个互相独立的随机变量,例如在对问题产生影响的所有不确定性因素中,这些不确定性因素便是变量且呈概率分布特征,n个变量的函数则是Z,而这也正是需要求解的目标。

3.概率论与数理统计在大数据分析中的应用策略

3.1概率论与数理统计在经济数据分析中的应用策略

在大数据时代,数据对于经济的作用是不言而喻的,而在各种类型的数据当中,经济数据是最为常见的类型,对这些经济数据的分析对于推动社会经济发展具有着十分重要的意义。由于经济数据在互联网中是以低密度形式存在的,这也给人们对经济数据的分析带来较大的难度。而利用概率论与数理统计来对经济数据进行分析,则不失为一种简单而有效的方法。例如,利用正态概率分布方法来对经济数据分析,该方法能够对连续性随机变量的概率进行预测与描述,而这种概率方法也被普遍应用到经济金融管理领域当中。利用该方法能够使人们能过概率论与数理统计来对概率的所有相关信息进行快速而又高效的分析,并按照分析结果来对市场经济状况进行实时掌握,使人们能够了解市场经济规律,并从中分析出更多的经济信息,通过这些信息的帮助来对后续的决策与计划进行灵活的制定与调整。经济市场是变幻莫测的,但在变化上却不会过于离谱,而对经济数据的分析除了要对经济市场的变化规律及发展趋势进行预测,还要考虑经济市场中的风险性,风险的存在是利益的获取并不总是一成不变的,但通过对经济数据的分析能够找出相应的应对措施来避免这些问题。对于经济风险来说,要想避免经济风险的产生,利用概率论与数理统计能够有效降低经济风险的发生概率,而这也是人们最常采用的应对方法。以股票投资为例,利用概率论与数理统计方法来对经济数据进行分析,可以显而易见的看出投资股票的数量越多,则利润的产生概率要比投资股票数量少的要高的多,而这正是通过概率论与数理统计方法得到的,因此,在投资决策中,更多的投资者往往会将资金分散到更多的股票当中来降低风险,而这就使投资者的利润获得概率大大提高,由此可见,概率论与数理统计在经济数据分析中具有显著的作用。

3.2概率论与数理统计在商业数据分析中的应用策略

在大数据环境中,商业数据对于企业的重要性是不言而喻的,商业数据与经济数据存在一定的联系,商业数据属于经济数据的一种,但经济数据却不一定是商业数据。企业在对商业数据进行分析时,概率论与数理统计是最为常用的一种方法。以商业数据中的大客户流失概率为例来对概率论与数理统计在商业数据中的应用策略进行探讨。首先需要建立研究模型,在模型建立时需要确保满足以下条件,其一是大客户的基本属性应当是相近的,并且流失数据能够满足相同的流失函数f0(t)。其二是流失数据的分布条件均来自于流失函数指数项exp(c,zi)T,然后找出哪些因素给大客户的流失概率造成较大影响,对数h0(t)据进行归类并设定特定时段,然后对特定情况中的大客户流失情况进行汇总,并获得流失情况走势图,然后计算出走势图的标准函数,即F(t,ziT)=f0(t)•exp(c,ziT),进而获得某个确定客户在某一时间中的流失概率与所在流失函数中的位置,客户在[0,T]时期内的流失概率为p=exp(-T0乙F(t,ziT)dt),p维回归参数的向量为c,p维协变量向量为ZiT,并将该协变量当作一种影响因素进行定义,进而完成研究模型的构建。其次,在研究模型建立后,便要选择参数与协变量,然后通过最大偏似然函数对这些选择的回归参数进行计算。由于计算过程中对于大客户流失的影响因素有多个,如果将所有因素全部定义成协变量,则会使模型维数更多,进而使参数估计难度大大提升,这也使参数的估计正确率无法得到保证。因此,需要对这些因素进行选择性使用,为了对协变量的数量进行确定,应按照数理统计结果进行筛选,这样才能避免错误的产生。

4.结语

综上所述,概率论与数理统计在大数据分析中的作用是非常明显的,现如今,概率论与数理统计在大数据分析中已经不再是一种辅助分析工具,更是一个简单而又高效的分析方法。通过概率论与数理统计的应用,对于大数据中各类数据的过程、趋势、效果等都已经成为人们进行数据分析时的分析对象。面对大数据的高速增长趋势,应用概率论与数理统计来进行大数据分析,将更有助于推动人们生产生活的发展,促进我国经济的快速增长。

【参考文献】

[1]高侨,周琦.概率论与数理统计在日常生活中的应用研究[J].数学学习与研究,2015,(19):132.

[2]王淑玲.概率论与数理统计在经济生活中的应用[J].科技信息,2009,(21):224.

[3]许可.概率论与数理统计在信息论中的应用[J].科技信息(学术研究),2008,(10):110-111+114.

[4]党玮.概率论与数理统计分析方法在商业企业中的应用[J].商场现代化,2006,(21):31-32.

作者:姜权 单位:大同大学浑源师范分校