大数据分析与应用技术创新平台 附大数据分析平台建设与应用综述.docx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《大数据分析与应用技术创新平台 附大数据分析平台建设与应用综述.docx》由会员分享,可在线阅读,更多相关《大数据分析与应用技术创新平台 附大数据分析平台建设与应用综述.docx(9页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、大数据分析与应用技术创新平台摘要:针对我国大数据挖掘与分析能力弱、大数据算法应用和综合能力不高 等问题,系统地介绍了大数据分析与应用技术创新平台的总体技术框架,详细分 析了我国大数据分析与应用五大共性技术存在的不足和解决思路,并阐述了创新 平台中四大支撑平台的设计思路与应用方向,最后对大数据分析与应用技术国家 工程实验室未来的发展方向和重点工作进行了介绍。关键词:大数据;数据处理;质量控制;数据挖掘;可视分析;智能数据管 理;国家工程实验室1引言目前,我国在大数据发展和应用方面已具备一定基础,拥有一定的市场优势 和发展潜力,但也存在政府数据开放共享不足、产业基础薄弱、缺乏顶层设计和 统筹规划、
2、法律法规建设滞后、创新应用领域不广等问题,这些问题亟待解决。 国务院关于印发促进大数据发展行动纲要的通知提出“加大大数据关键技术 研发、产业发展和人才培养力度,着力推进数据汇集和发掘,深化大数据在各行 业创新应用,促进大数据产业健康发展”,强调推进基础研究和核心技术攻关。针对我国大数据挖掘与分析能力弱、大数据算法应用和综合能力不高等问 题,急需开展关键技术的攻关研发与突破工作。为践行国家大数据战略,北京大 学牵头,联合中国科学院数学与系统科学研究院、中山大学、北京奇虎科技有限 公司、北京嘀嘀无限科技发展有限公司、中国信息安全研究院有限公司等多家单 位,共同申请建设大数据分析与应用技术国家工程实
3、验室,并于2017年初获得 了国家发展和改革委员会的正式批复。其目标是围绕数据科学理论体系、大数据 计算系统与分析理论等重大基础研究进行前瞻布局,开展数据科学研究,引导和 鼓励在大数据分析的理论、方法及关键应用技术等方面展开探索;加强数据清洗、 大数据分析发掘、大数据可视化等领域关键技术攻关;围绕多源异构数据分析, 针对视频、文本等多种数据类型,研究大规模机器学习的基础和创新方法,依托 合作支撑单位开展面向大数据分析的全流程框架和工业标准的设定、大规模数据 分析系统平台的搭建;针对多项代表性应用的大数据分析应用平台进行设计和优 化,注重大数据分析理论和系统的源头创新,提升数据分析处理能力、知识
4、发现 能力和辅助决策能力;切实和有效地突破目前我国在大数据分析和应用方面的技 术瓶颈,形成一整套具有国际影响力的大数据分析系统软件,推动我国大数据产 业的发展。本文将系统地分析我国大数据分析与应用的五大共性技术的瓶颈和解 决思路,介绍大数据分析系统开发平台、大数据系统测试评估平台、大数据分析 可视化展示平台、重大应用示范与系统集成平台四大支撑平台的设计与应用,并 对大数据分析与应用技术国家工程实验室未来的发展方向和重点工作进行展望。2五大共性技术如图1所示,在一个典型的大数据分析与应用流程中,数据经过预处理后, 采用以大数据统计为代表的共性模型和算法与大数据挖掘技术进行计算分析,再 结合高度智
5、能灵活的可视分析,最后支持复杂场景下的智能决策。分析的结果将 进一步反馈到数据处理,并再次进入分析过程,进一步提供基于数据的洞见能力 和决策支持。可见,在大数据分析与应用中,大数据预处理与质量控制技术、大 数据分析支撑理论与算法、大数据挖掘技术、大数据可视分析技术、大数据智能 知识管理与决策支持技术构成了大数据分析与应用的五大共性技术。这五大共性 技术也是构建大数据分析与应用技术创新平台的关键环节。智能决策图1大数据分析与应用技术创新平台的总体框架2.1大数据预处理与质量控制技术(1)数据中的可信度建模问题在对复杂结构数据的可信度进行建模时,需要采用“不确定性”和“数据溯 源”两个维度。对于不
6、确定性而言,可以采用概率图模型对所研究的复杂结构数 据进行数据建模,其中根据应用的需要考虑图模式中的点、边的不确定性以及它 们之间的互相依赖关系。除此以外,还考虑到复杂结构数据的多源特性,不同的 数据源提供的数据的可信度是不同的。在对数据的不确定性建模的基础上,还要 考虑数据的“溯源”问题。大数据分析与应用技术创新平台将数据的不确定性和 溯源作为一种统一的元数据,为描述关联数据的可信度提供建模。(2)数据中的数据质量检测和评估数据质量决定了数据的可用性。传统的数据质量检测方法中,最经典的方法 是挖掘数据之间的函数依赖关系以及带有约束的函数依赖等。然而这些方法只考 虑了关系数据库表中各个列之间的
7、函数依赖关系。数据质量的检测需要研究复杂 数据的数据质量问题。例如知识图谱数据的数据质量问题需要考虑两个方面的特 征:图结构特点以及知识图谱数据中的本体语义。(3)大数据抽样大数据分析中有很多问题,其中一个很重要的问题是计算精度和计算复杂度 的平衡。一个好的计算方法一方面要误差小,另一方面要计算速度快。大数据分 析中这两方面目标几乎不能同时达到。当前应发展更普适的、更稳健的再抽样方 法,其普适性将表现在适合于广义线性模型以及一般凸优化问题,其稳健性将表 现在统计推断结果的精确性,即均方误差的减小。2.2 大数据分析支撑理论与算法数据分析算法大致可以分为计算数学算法、统计算法、计算机算法、优化算
8、 法等。由于这些算法来源于不同领域,其侧重点和使用的主要工具都有所不同, 然而它们之间又有着千丝万缕的关系,相互关联。(1)大数据分析的计算数学理论与算法计算数学包括数值分析、数值代数和最优化等,为大数据分析提供了坚实的 理论和算法基础,也拓展了大数据分析的应用领域与范围。在大数据的研究中, 要推动变分法、偏微分方程、低秩和稀疏优化的结合,为图像科学和医疗影像提 供新的数学模型和数值方法;推动计算数学与机器学习的结合;推动偏微分方程 与机器学习的结合,发展高维数据分类、聚类和降维的新方法和理论。针对数据 模型,可以推广基于多尺度的降维方法在物理模型中的应用,例如图像表示的小 波方法就可以看成一
9、个多尺度方法。深度学习网络的训练也和多重网格算法有很 多相似之处,可以系统地研究多尺度方法在非结构数据分析中的应用。基于多层 次神经网络的深度学习方法可以看成一种自适应、多尺度、多层次的表示方法, 加深了对深度学习的理解,有助于找出其基本原理并推广。神经网络也可以看成 一种特殊的图模型,从图模型的角度来看,神经网络有希望发展出更一般的多尺 度、多层次模型。多年来,在计算数学领域发展出了一系列行之有效的并行算法、 随机分析方法和张量分析方法,这为大数据分析提供了有效的途径。优化算法是 计算数学和大数据分析的主要课题之一,实验室将研究在大数据中如何发展有效 的优化算法。(2)大数据统计分析方法在分
10、析大数据时,比较大的一个挑战是如何处理大数据的复杂性和不确定 性,需要运用统计学原理及方法、机器学习方法来处理这两方面分析中的技术问 题。数据的不确定性会带来预测结果的不确定,在统计中可以用随机变量的分布 来描述数据的不确定性,然后用置信区间或置信带来量化预测结果的不确定性。随着计算机硬件的发展与大数据时代的来临,深度学习作为一种通用的人工 智能算法,在近些年取得了巨大的成功。对比传统的模式识别方法,深度学习不 再需要人工进行特征设计,而是采用端到端的方式进行训练,并在计算机视觉、 语音识别和自然语言处理等很多领域都取得了突破性的进展。目前的深度学习算 法主要面临模型复杂度较高、速度慢以及需要
11、大量训练数据等问题。为了进一步 推动深度学习的发展和广泛应用,仍需要突破以下关键技术:深度神经网络模型 的预测加速和模型压缩、类人的深度学习过程以及新型的深度学习优化方法等。 随着深度学习的不断发展,各种复杂的网络结构,特别是深层神经网络,由于灵 活性较高,具有良好的表达能力,引起了越来越多的关注。但由于缺乏理论上的 指导和支撑,目前深层神经网络的大量自由参数大多数情况下仍需依赖经验来调 节与优化,离理论上的最优性能仍有较大差距。此外,如此复杂的模型很容易在 特定的数据集上得到近乎理想的拟合效果,然而在推广泛化性能上却往往很难得 到保障。为了推动深度学习的发展,继续提高模型的性能,需要对复杂神
12、经网络 的优化算法进行进一步的研究。深度学习在许多领域都有广泛的应用。在实际应用中,根据计算平台资源等 方面的限制,往往需要设计出不同计算复杂度的模型。由于缺乏系统性方法的指 导,很多神经网络的超参数(如卷积神经网络的层数、每层卷积神经网络卷积核 的类型与数量等)都需要依赖经验来设定,然后通过大量的实验来验证模型的性 能。因此,将深度学习算法在特定问题上进行应用的关键是如何在学习的过程中 简单有效地完成超参数的自动选择。深度学习在监督学习领域已经取得了巨大的成功。基于监督学习的深度学习 方法通常需要海量的标注数据进行训练,从而保证模型的推广性能。但在很多应 用中,标注数据往往很难获得或者获得成
13、本过高,而没有标注的原始数据往往很 容易获得。相对地,人脑可以在没有监督信息时主动地从周围环境中学习。因此, 要实现更加高级的智能行为,现有深度学习算法需要突破传统的监督学习模式, 从监督学习向半监督学习乃至无监督学习转变,借鉴人与环境之间的交互过程, 主动且自动地完成增强学习,以摆脱对监督信息的依赖,在更严苛的环境下完成 学习任务。2.3 大数据挖掘技术在大数据挖掘技术方面,该实验室主要关注文本、视频、时空等典型数据类 型,同时大力开展大规模并行数据挖掘技术的研发。(1)文本大数据分析技术深度语义分析、跨领域跨语言情感分析、大规模高精度文本知识挖掘、智能 文本对话、语义搜索引擎等是实现大规模
14、文本数据挖掘和自然语言理解的基础技 术。设计制造自动人机对话平台(即智能问答机器助理)被认为是现代人工智能 的一项充满挑战也极具困难性的任务。能主动引领新话题的对话模式(即主动式 智能问答机器助理)对于现有的被动式人机对话模式而言是全新的突破。语义搜 索引擎的应用可以大规模定制化采集任意多个网址、网页和文档信息,利用语义 搜索引擎分析相关内容,筛选有价值的信息,构建语义索引,自动汇聚。该平台 用于大规模文本的信息筛查和收集,可有效实现基于语义的信息与知识汇聚,有 利于基于文本大数据技术的应用,实现科学决策。基于该平台,可以开发行业知 识服务与决策支持系统(如智能辅助诊疗、智能新闻报道)、智库信
15、息服务(智 能产品服务、智库系统)、通用个人知识助理等行业、专业及通用的知识服务应 用。(2)面向海量视频图像数据的语义分析技术基于语义的图像视频分析是计算机视觉和多媒体领域的一个基本问题,与人 工智能、机器学习、人机交互等领域紧密相关。其中,图像数据相关的主要任务 有图像分类、物体检测等,视频相关的任务包括多媒体语义事件检测、视频语义 标注等。由于视觉数据的特征表达与真实的语义之间存在“语义鸿沟”的问题, 尽管现有的研究工作提出了大量理论与算法,上述问题仍然面临着巨大的挑战。 特别地,在图像、视频数量爆炸式增长的今天,如何充分挖掘海量视觉数据及其 语义标注信息成为新的技术难题。传统的机器学习
16、模型往往无法充分表达海量视 频图像数据的语义复杂度,并进而构建高效的用于预测的模型。因此,需要针对 海量视频图像数据的特性进一步扩展与增强现有的模型、理论和算法,并在公开 的数据集上评测其性能。面向海量视频图像数据的语义分析技术研究需要突破的 关键问题有图像快速索引、多媒体事件检测、视频语义标注等。(3)时空数据分析技术时空数据挖掘主要分为以下儿类:时空模式挖掘、时空聚类、时空分类、时 空异常检测等。在应用层面,可以以社会经济现象感知为目标,以时空大数据为 基础,并以时空数据挖掘算法为支撑,发展一系列分析方法,包括个体移动行为 模式分析、活动时间变化特征分析、场所情感语义分析等。移动是个体层次
17、空间 行为最宜接的外在表现,个体移动行为模式分析是利用时空大数据中的移动轨迹 信息研究个体移动模式或模型的方法;活动时间变化特征分析是指基于城市不同 区域对应的活动日变化曲线,研究其用地特征和在城市运行中所承载的功能;同 时,社交媒体(如推特、微博等)中包含了大量文本数据,这些数据成为语义信 息获取的重要来源,其中带有位置的社交媒体数据通常占3%,可以利用这部分 数据揭示与地理位置有关的语义信息,即进行面向场所的情感语义分析。(4)大规模并行数据挖掘技术考虑到当前开放互联环境中海量数据挖掘和应用的需求,该实验室将充分考 虑分布式数据的特点,结合不断发展的、多样的存储和计算环境,研究海量分布 式
18、数据挖掘的理论、方法和技术、规范体系,力争使我国在相关领域的研究成果 进入国际领先行列,重点突破海量数据挖掘系统体系结构、基于云计算的数据模 型、分布式数据挖掘算法(包括分类算法、关联规则算法、主成分分析算法)等 关键技术。2.4 大数据可视分析技术可视分析是对大数据进行分析的一种有效手段,日益受到重视。在中国计算 机学会大数据专家委员会发布的2014-2016年大数据发展十大趋势中,可视分 析技术连续3年被列入其中。可视分析技术的目标是使数据分析过程透明化。它 结合了可视化、人机交互和自动分析技术。在一个典型的可视分析流程中,自动 分析的结果通过可视化展示给用户,用户通过人机交互技术评价、修
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大数据分析与应用技术创新平台 附大数据分析平台建设与应用综述 数据 分析 应用技术 创新 平台 建设 应用 综述
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内