数理统计与数据分析的总结.docx
数理统计与数据分析的总结数理统计的数据分析应用实际在于提高数理概念研究能力,通过数理统计内 容的完善及统计的科学配置解决数据研究理论问题,为数理统计实践提供更多元 的信息分析模块。本文将以数理统计的数据分析为基础,对数理统计的数据分析 应用发展及内容等做逐一阐述,以此为数理统计的数理分析科学运用提供部份参 考性研究建议。伴有着社会的不断进步和科学技术的飞速发展,数理统计也在完善和进步, 并逐渐应用于众多不同的领域。作为统计工作中一项非常重要的内容,数理统计 的方法和研究数理统计问题的理念在社会企业发展过程中发挥着巨大的作用,这 些都可以通过数理统计工作体现出来。本文通过对数理统计内容、统计方法及数 据分析发展的历程等不同方面,对数理统计进行研究,阐述了现在统计学的发展 和统计学对于社会政治经济生活中各个领域的重要性。数理统计的发展背景及现状:数理统计有着非常悠久的历史,最开始以“统 而计之”这个简单的理念浮现,经过几千年的积累和发展,加之科技的进步和社 会生产力以及经济的不断进步,当代数理统计分析的应用范围也逐渐扩大,不单 单局限于“统而计之”的方面,其在人文科学、社会科学和自然科学等众多领域 均有涉及。在统计内容、统计方法及数据统计的思想发展中,数理统计占领着非 常重要的地位,其作用不可小觑。在进行科学研究的过程中,时常会遇到描述两个或者多个随机变量的关系、 描述随机变量的分布特征、离散性质或者变量的大小等类似的问题,而数理统 计这一数学工具的浮现,能够特定的描述随机变量间的关系和随机变量,成功 的解决了这些问题,促进科学领域的进步。因此,如何将数理统计方法更好地 应用于科学研究工作,有效的利用运用数理统计分析解决具体的科学研究问题, 成为数据分析过程中非常关键的部份,也是研究现代数理统计过程中迫切需要 解决的问题。数理统计的研究内容:基于数据分析及数理统计的基本定义和概念, 以数据分析中数理统计的广泛应用为重点,对数据统计的相关理论进行论述, 总结出数据统计的特点,突出体现了数据统计在统计学中发挥着不可替代的作用。 此外,还将数据统计同现代企业进行综合考虑,研究数据统计的应用对企业发 展的价值和意义。数理统计和数据分析的概念及特点:对数理统计内容的定义及概念的理解程 度是学习数据分析知识的关键性问题,直接关系着能否学好这门学科,如果不能 为数据挖掘、快速探测性分析的工具,以从中寻觅分析的线索。综上所述,大数据分析与数理统计都是从数据中发掘规律和认知世界的基本 方法,都属于数据科学的范畴,都是定量分析的工具,这是两者的共同之处。但 大数据分析不只是分析对象在容量上的简单增长,而是发生了质的变化。它颠覆 了传统的数据处理模式,使思维方式和分析方法都发生了革命性的变化。在充分 了解两者之间联系与区别的基础上,要正确把握两者之间的互补关系,使其在实 际应用中发挥更大的作用。做到很好的理解数理统计的概念,就更不用谈如何有效的运用数理统计方法。统 计方法及统计思想这两个方面是数据统计学中的主要内容,而对基本概念和相关 定义的理解和认识,则是掌握和运用统计方法和统计思想的基础。总体是全部研究对象的统称,利用样本中包含的信息,进而统计判断总体的 信息是数理统计的基本思想,所以,数理统计中样本和总体的概念也是最根本和 最重要的。然而,人们在解决实际问题的过程中,由于忽视总体的重要性,不能 很好的对总体进行深入了解,从而造成盲目性统计分析的后果。利用研究对象中的一个或者若干个数量指标形成的随机变量,对总体进行描 述是数理统计的常用方法,其中由于总体的特性而制定了统计模型及统计问题 这两个概念。判断总体的统计处理过程中可以体现出统计思想,判断总体的具 体操作中运用了统计方法,因此,根据以上理论,可以将数理统计的概念定义 为:在有限次的试验和观察随机现象后,总结归纳随机现象中浮现的数据,根 据这些有限数据判断出其中的规律,并由总结的成果判定和判断整体的数量规 律性和相应现象的学科。将概率论作为基础理论,根据试验和观察随机现象得到的数据资料,对随机 现象进行研究,这个过程即为数理统计的特点。具体表现为:参考数据资料将合 适的数学模型应用到随机现象中,并通过资料来检验数学模型的合理性,确认合 理的基础上进行对数学模型规律性、性质及特点等内容的研究。在现实生活中的 应用,可以通过测试灯泡生产企业检测灯泡使用时间的例子来证明,首先在不清 楚该灯泡厂的灯泡使用时间的情况下,随机抽取某天该厂生产的几个灯泡作为样 本,然后进行寿命检测的实验,最后统计这几个灯泡的平均使用时间。根据这几 个灯泡使用时间的数学资料,来对生产的所有灯泡的合格率及寿命等指标进行推 算。在概率论的支撑下,通过创建数学模型的方式对灯泡使用时间的分步进行计 算,然后,根据数学资料建立分布图,在之后的一段时间内反复抽取几个样本进 行测试,从而观察指数的分布是否合理。作为应用数学中最活跃的一个学科,数理统计学的特征使其具有非常高的应 用价值,与其他学科不同的是,数理统计学在研究数学方法及理论之外,还注重 的是实际应用,其他学科侧重的是数学的演绎法,而数理统计这一学科则强调归 纳法的应用。因此,站在学科划分的角度来看,数理统计可以作为数学学科的内 容。参考统计学多年的发展历史,可以看出,人们认识社会的初期主要是通过数 据分析实现的,随着不断发展,现代社会除了地质学、工农业生产、气象与灾害 预报及医学等领域应用到了数据分析,人工智能、信息论、金融数学及医药统计 等新兴学科也普遍涉及到数理统计知识。数据分析和数理统计二者之间有很大的 联系,如果仅仅通过简单、固定的统计来应对不同学科领域的实际问题是不可能 完成的,因为各个学科都有各自的特征,利用全面调查的方式研究多样化的学科, 必然会存在局限性。所以,因数据分析的需要而逐渐产生了数理统计方法,为实 现通过部份样本来猜测整体的数理统计作铺垫,其统计思想也为现代统计学发展 做出了巨大贡献,应用于许多实际问题的处理。数理统计方法的浮现顺应了社会 发展的需要,可以匡助我们了解不同学科间的数据规律及联系,使我们更好地对 每一个学科的概况进行全面而细致的分析。数理统计在数据分析中的应用:在对某个学科领域研究的过程中会应用到许 多数据分析方法,通过多种不同的数据分析方法,我们才干更好的掌握该学科的 特点,对研究社会活动领域和不同学科研究有非常大的匡助。正因为数理统计具 有解决实际问题的功能,所以,其在数据分析中占领着非常重要的地位,随着不 断发展,也就逐渐形成为了数理统计方法,应用于数据分析。数理统计和数据分 析之间主要是通过大数定律而产生密切的联系,总体的相对数及平均数等相关 指标在数据分析中之所以能发挥作用,体现其价值,都是建立在大量观察的基 础上实现的。大量观察法是大数定律形成的根基,大数定律在数据分析过程中 主要运用到了大量观察这个基本方法。数理统计在数据分析过程中发挥着非常重要的作用,同时,数理统计也会对 数据分析产生一些影响。一方面,数理统计会对总体分布形态、方差分析和正交 设计、相关与回归分析、一个或者两个总体参数的假设检验及参数或者非参数估 计等方面产生显著的影响;另一方面,还可以影响相对数及平均数等统计学中 计算原理的基本描述指标。数理统计对企业发展的影响:前期进行资料的搜集,然后加工处理相关数据, 最后进行分析预测是统计工作的基本流程,在应用数理统计理论解决实际问题的 过程中,需要不同部门和方面的共同努力。在社会及自然等学科领域中均涉及到 了数理统计方法,其应用十分广泛。但作为一种辅助工具,要想合理的运用数理 统计方法来解决实际上的问题,就要求我们对所研究的内容践行充分的了解,根 据相关专业的知识和多年积累的经验,或者是有效的工作组织来科学的规划,由 实际情况来决定数理统计方法,将数理统计方法视为一种辅助工具,这样才干 发挥统计处理应有的作用。生产型企业在应用数理统计学方法对数据进行分析时,主要可以体现在以下 两个方面:(1)统计质量管理法的应用。在生产过程中,面对分析大批生产元件 的可靠性、控制工序、检测系统(含有多种元件)可靠性及抽样检测成批产品的 方案等,在生产企业中连续创造和大批量生产等实际问题,可以采取不同形式的 可靠性统计分析、抽样检验统计分析和质量控制图统计分析等方法来解决。(2)在处理产品工艺流程的改革、研究影响产品质量的次要因素和关键因素、对旧产 品进行改进、选取恰当的配方、最优生产条件的组合、新产品的试制和替代材料 的应用等问题的过程中,可以利用多元统计分析、正交设计、方差分析及回归分 析等统计方法。数据分析不仅在企业生产过程中发挥着巨大的作用,还有助于企业的管理, 凡是涉及到数据的方面都能通过数据分析来解决,在企业的生产、加工和销售等 多个环节中都可以看到数据分析的存在。企业内部数据分析方法的应用得到完善 和发展后,在产品质量管理和控制、开辟新产品及开辟市场等企业经营管理方面 都涉及到数据分析。其中在开辟市场方面,通过数据分析的方法可以掌握更多关 于竞争对手和产品的信息及数据,将准确的数据分析说明提供给企业,有利于企 业对市场的研究和行情的判定,提高企业的竞争力,为企业构建合理的发展目标 奠定基础,推动企业发展壮大。综上所述,基于数理统计理论形成的数据统计分 析方法和理论,随着科学技术的不断进步和社会经济的发展也得到了完善和充实, 在数据分析中的应用中发挥着非常重要的作用。在现代科技的匡助下,数据统计 分析方法也会不断地发展进步,应用于不同领域,为社会经济的发展做出巨大的 贡献。大数据与数理统计之间的比较:大数据分析与数理统计都是环绕数据展开的, 这是两者之间的一种内在的联系。“一切以数据说话”是其共同的本质,两者都 是从数据分析中发现隐含的规律,以便透过事物表象的记录来认识其本质。作为 发掘规律和认知世界的基本方法,两者有以下三个方面的共同点。(1)数据科学是以数据解析的方法来进行研究的科学,可以简单概括为“用 数据的方法来研究科学和用科学的方法来研究数据”。虽然数据科学因大数据才 被人们所熟知,但其研究内容却涵盖了应用数学、数理统计、计算机等学科,被 称为继实验科学、理论科学和计算科学之后又一新的科学研究范式。数理统计被 称为“采集和分析数据的科学与艺术”,是数据科学的理论基础。过去,由于受 到技术条件的限制,普通只能获得有限的数据,即“样本”,为了根据有限的样 本作出尽量科学的判断,就需要借助概率论,排除随机性对分析、判断的干扰, 以正确揭示隐藏在数据暗地里的总体规律,这便是数理统计的主要任务。随着大 数据时代的到来,在许多领域获得了全面、完整和系统的数据,而大数据分析 作为数据科学的发展前沿,也成为了知识创新的重要方法。对于新时代的数据 科学而言,虽然对数理统计提出了许多新的挑战,但大数据分析与数理统计仍 然具有共同的出发点和最终目标,并在应用实践中不断为数据科学提供新的思 想、方法和技术。(2)两者都是定量研究的具体方法定量研究是科学研究的基本方法之一, 其实质就是按照一定的标准对研究对象的特征进行量化比较,从而推定其性质或 者某些因素间的变化规律。在常规数据条件下,数理统计向来是定量研究的主 要方法。大数据的浮现,不仅是量的增长,更是质的变化,而大数据分析则为 定量研 究提供了全新的思路和方法。量化是大数据分析和数理统计的基础,在 具体的应用中,两者都形成为了一整套指导数据量化处理的科学系统的理论。在 数理统计中,按照量化水平的高低,分为名义数据、顺序数据、等距数据和比率 数据,不同的数据类型合用不同的统计分析方法。而对于大数据来说,其包含 的数据类型更为复杂,不仅有结构化数据,更多的则是文字、网页、图象、视 频等半结构化、非结构化数据,后两类数据必须按照数据模型的要求,经过量 化转换才干进入数据分析的环节。大数据分析和数理统计都环绕着量化后的数 据展开,按照像应的分布规律或者数据模型,以数为据,由量定性,力图精确 展现研究对象的内在特征与发展规律,以优化和改进决策,这也是两者之间的一 种内在联系。(3)两者均与计算机技术密切结合大数据因计算机和网络的普及而产生, 并伴有着云计算、物联网的发展日渐成熟。要实现对大数据的分析,不仅需要支 撑海量数据处理的计算平台,还要有专业的程序和算法,可以说大数据分析既要 依靠计算机技术来实现,同时,又给计算机技术带来了许多新的挑战。近年来, 环绕着大数据分析问题,在计算机领域形成为了分布式存储、并行计算、数据挖 掘算法和数据可视化等研究热点,并产生了若干大数据计算平台和分析工具, 其中以Hadoop和Hive的应用最为广泛。数理统计虽然先于计算机而产生,但 早已走出了依靠手工计算进行分析的时代,并随着计算机技术的发展而发展。 一方面,由于统计数据和统计方法具有很强的规范性,非常适合用计算机来进 行快速处理和计算;另一方面,计算机技术能够通过严格的程序确保数据处理 的准确性。因此,当计算机产生以后,就被迅速应用于数理统计之中,并实现了日益密切的结 合。当前,以SAS、SPSS等为代表的数据管理软件,提供了丰富、完善的分析算 法和交互式的操作过程,极大地提高了统计的效率。大数据分析与数理统计的主要区别:从数理统计到大数据分析,不是一种简 单的技术演进,大数据已超出了现有数理统计的处理能力,而大数据分析则颠覆 了传统的数据处理模式,使数据思维和分析方法等都发生了革命性的变化。(1)两者所依据的原理不同对于任意一种随机现象,如果能够进行充分的 观察或者实验,积累足够多的数据,那末一定可以清晰地发现和掌握其中的规律。 但在过去很长的一段时间内,数据的稀缺性比较突出,数理统计只能依据随机变 量的概率分布理论,特殊是其中的大数定律、中心极限定理和抽样分布定理等, 通过模型和假设来科学合理地判断总体。而在大数据时代,数据的获取能力大大 提升,对于某些研究对象,可以进行详尽的观察和记录,从而获得海量的数据, 甚至是全部数据,因此,可以通过对数据的整合和理解,直接提炼其中所蕴含的 规律。大数据分析再也不需要作任何假设或者判断,而是利用挖掘算法去自动寻 觅数据中隐藏的关系或者规律,其原理就包含在所使用的算法之中。以对流感 疫情的预测为例,在互联网普及之前,要根据数理统计的要求,通过对人群和 医院的抽样调查来获得数据,然后根据其抽样分布和经验模型来进行预测。而 谷歌公司则另辟蹊径,运用大数据分析的方法来展开预测。谷歌公司每天会执 行超过数十亿次的搜索,从积累的搜索记录中筛选出了 5000万条频繁集,然 后与美国疾控中心发布的流感数据相对照,挖掘出了高度相关的45种搜索词 组合,从而构建了流 感预测的挖掘算法,并在2022-2022年,根据网民的搜索 记录进行准确的预测。由此可见,与数理统计相比,大数据分析不需要具备概 率分布的先验知识,其限制条件更少,更为灵便高效。(2)两者所处理的对象不同首先,从数据本身的特点来看,数理统计所涉 及的数据量普通较小,且数据类型相对单一,属于普通数据。大数据则是与普通 数据相对应的概念,具有容量大、种类多、生成速度快和价值密度低的“4V”特 征,这标志着大数据彻底不同于普通的数据形态,与普通数据有着本质的差别。 其次,从分析对象所占的比例来看,数理统计的主要对象是样本,是从总体中抽 取的部份数据。样本容量、抽样方法和数据的精确性是影响其质量的重要因素。 由于样本的容量不可能太大,因此,普通通过科学的抽样方法来确保样本的代表 性,以提高有限数据条件下统计判断的质量。舍恩伯格在大数据时代中指出:“大数据指不用随机分析(抽样调查)这样的捷径,而采用所有数据的方法。” 虽然大家对“所有数据”的表述存在一定的争议,但这已足以表明大数据分析与 数理统计的处理对象截然不同,由样本转向了总体。此外,两者对数据的精确性 也有着不同的要求。因为样本中的错误很容易在计算过程中被放大,所以数理统 计特殊强调数据的精确性,而对于大数据来说,数据量的增加有助于消除少量错 误的影响,因此,降低了对个体精确性的要求。以国家统计局的农民工市民化统 计为例,调查范围是按照一定方法抽取的4万多户进城农民工样本,由调查员直 接入户面访,这就属于典型的抽样统计。而国家统计局开展的利用百度搜索数据 预测房地产价格的研究,则是试图利用搜索大数据来获取真正的房地产走势信息, 并在北京地区的二手房价格预测中取得了很好的效果。(3)两者所应用的平台不同现在,虽然传统的数理统计也是借助计算机和 网络来实现,并且可以处理来自多个数据源的数据,但普通是基于集中式的系统 环境,其数据存储、计算主要利用关系型数据库,仍然属于集中式的计算环境。 而对于大数据来说,所需要的计算资源已远远超出了集中式系统的性能,主要是 通过分布式的云计算来完成。云计算是大数据处理的基础性技术,大数据分析的 平台就是云计算平台,惟独在云平台之上,依托分布式数据库和并行计算等技术, 才干对大数据进行整合、管理和分析。大数据与云计算可以说是同一枚硬币的正 反两面,在实际应用中两者是密不可分的。例如,广泛应用的大数据处理平台 Hadoop ,就实现了分布式文件系统、并行计算框架等云计算技术。不少传统的 数据统计软件也在向大数据分析领域演进,如有着近60年发展历史的SAS,也 增加了基于Hadoop平台的大数据分析功能。两者所采用的方法不同:数理统计主要通过对样本数据进行分析,并将分析 结果延伸至整体,从而得出普通结论,是一种以小见大、以简驭繁的推理方法。 其整个过程可以归结为"假设一采样一验证",即提出假设、随机抽样、问卷调查 或者实验、验证假设等步骤。其中对数据分布和变量间的关系作出假设以及对参 数进行显著性检验是最具技术含量的内容。大数据分析普通不作预先假定、不抽取样本、不注重精确、不寻觅因果关系, 而是直接进行开放式分析,通过搜索、聚类和分类、神经网络等算法,提炼其中 的知识,形成对数据的理解。其过程可以归纳为"整合一分析一发现,这与数理 统计的方法是彻底不同的。例如,对于商品销售类的大数据,可以通过关联关系 的自动挖掘,在购买行为中找出更多的相关性,众所周知的沃尔玛从超市的购物 清单中发掘出啤酒与尿布之间的相关性,便是关联规则挖掘的典型事例。对海量、 杂乱的数据而言,大数据分析具有明显的应用优势。以神经网络分析技术为例, 其中的隐蔽层就是一个"黑箱,用户不必理解其中实际的自变量组合过程,而直 接接受其结果。正确把握两者之间的关系大数据分析与数理统计虽然在产生的时间上有先 后,但它们既不是简单的继承关系,也不是包含关系,在今后的发展中,两者将 形成相互渗透、相互促进的关系。大数据分析离不开数理统计的支持"在大数据时代,统计学依然是数据分析 的灵魂。首先,现实问题总是具有超越已有技术的复杂性,大数据并不彻底等 同于全部数据,还不能全面、准确、真实地反映所有的事物。其次,即使获得了 某一事物的所有数据,要挖掘出其中的信息也还存在一定的难度,还取决于数据 挖掘的方法和手段。因此,需要将大数据分析与数理统计学相结合,利用数理统 计思想优化后的大数据分析,要优于单纯依靠大数据技术的分析结果,能有效提 高预测的精准度。例如,在谷歌利用大数据对流感的预测中,2022年的结果与 美国疾控中心的数据高度吻合,但在2022、2022年则浮现了很大的偏差,而借 助数理统计理论,利用多元线性回归模型改进后的算法则能有效消除这种偏差, 从而得到更加准确的结果。大数据分析有助于弥补数理统计的不足:相对于数理统计,大数据分析更容 易挖掘出数据中的细节,能更清晰地展现样本所无法反映的深层次信息。一是大 数据分析中具有巨大的数据选择空间,可以进行高维度、细料度的数据分析。二 是由于数据的大体量与多样性,样本不足以呈现的某些规律,不足以捕捉的某些 弱小信息,甚至被认为是异常的值,大数据分析都可以有效覆盖、体现和接纳。 因此,大数据分析更容易挖掘出数据中的细节,能更清晰地展现出样本所无法反 映的深层信息,这将极大地提高人们认识现象的能力,避免丢失不少重要的信息, 避免失去不少选择的机会。大数据分析是在样本几乎等于总体的情况下进行的,以目前的分析方法以及 计算平台,大数据分析的技术门坎高、系统耗费大、所需时间长。相比之下,统 计学的抽样方法则更加经济高效,在不少情况下是一种明智的选择。在实际的运 用中,数理统计能够以较少的数据、较低的成本,对数据进行精确度相对较高的 分析,能有效提高数据处理的效率。在具体应用时,仍需重视发挥数理统计的作 用。一是把抽样数据作为大数据分析的对照基础与验证依据;二是把抽样调查作