不确定性数据管理综述.pdf





《不确定性数据管理综述.pdf》由会员分享,可在线阅读,更多相关《不确定性数据管理综述.pdf(16页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第 32 卷第 1 期2009 年 1 月计 算机 学报CHINESE JOURNA L OF COM PU TERSVol. 32No. 1Jan. 2009不确定性数据管理技术研究综述周傲英金澈清 王国仁 李建中1)2)3)(1)1)2)3)( 华东师范大学软件学院 上海市高可信计算重点实验室 上海200062)( 东北大学信息科学与工程学院 沈阳 110004)哈尔滨工业大学计算机科学与技术学院 哈尔滨 150001)摘要随着数据采集和处理技术的进步 , 人们对数据的不确定性的认识也逐步深 入. 在诸如经济、 军事、 物流、 金融、 电信等领域的具体应用中 , 数据的不确定性普遍存在 .
2、 不确定性 数据的表 现形式 多种多 样, 它们可以 以关系 型数据、 半结构化数据、 流数据或移动对象数据等形式出现 . 目前, 根据应用特点与数 据形式差异, 研究者已经提出 了多种针对不确定数据的数据模型 . 这些不确定性 数据模型的 核心思 想都源自 于可能 世界模 型. 可能世界 模型从 一个或多个不确定的数据源演化出诸多确定的数据库实例 , 称为可能 世界实例, 而且所 有实例的 概率之和 等于 1. 尽管可以首先分别为各个实例计算查询结果 , 然后合并中间结 果以生 成最终查 询结果, 但由于可能 世界实 例的数 量远大于不确定性数据库的规模 , 这种方法并不可 行. 因此, 必
3、须运用排序、 剪枝等启 发式技术设 计新型算 法, 以提高效率. 文中介绍了不确定性数据管理技术的概念 、 特点与挑战, 综述了数据 模型、 数据预处理与 集成、 存储与索引、查询处理等方面的工作 .关键词 不确定性数据; 可能世界模型; 数据集成; 世系; 不确定数据流中图法分类号TP393号: 10. 3724/ SP. J. 1016. 2009. 00001ZHOU AoYingJIN CheQingWANG GuoRenLI JianZhong1)(Shangh ai2)3)1)1)2)3)Key Laboratory of T rustw orthy Computing , Sof
4、 twar e Engineering Institute , East China N ormal Univ ersity , Shang hai(School of Inf ormation Science and Engineer ing , N ortheastern University , Shenyang 110004)(S chool of Comp uter Science and Te chnolog y , H ar bin Institu te of Te chnolog y , H ar bin 150001)200062)T he importance of the
5、 data uncertainty was studied deeply with the rapid developm entin data gathering and processing in various fields,inclusive of economy,military,logistic, finance and telecom munication,etc. Uncertain data has many different styles,such as relationaldata, semistructured data, stream ing data, and mo
6、v ing objects.Accor ding to scenarios and datacharacter istics, tens of data models have been developed,stemming from the core possible worldmodel that contains a huge number of the possible world instances with the sum of probabilitiesequal to 1. However, the number of the possible world instances
7、is far greater than the volume ofthe uncertain database, making it infeasible to combine medial results generated from all of possible world instances for the final query results.T hus, some heuristic techniques,such as ordering, pruning,must be used to reduce the com putation cost for the high effi
8、ciency. T his paper intro duces the concepts, characteristics and challenges in uncertain data manag ement, proposes theadvance of the research on uncertain data management,including data model, preprocessing,integr ating, storag e, indexing, and query processing.uncertain data; possible world model
9、; data integration;lineage; uncertain stream收稿日期: 200809 05. 本课题得到国家自然科学基金 ( 60803020) 、 上海市重点 学科建设 项目( B412) 资助. 周傲英, 男, 1965 年生, 教授,博士生导师, 主要研究兴趣为数据管理与信息系统 , 包括: Web 数据管理、 中文 Web 基础设施、 Web 搜索与挖掘、 数据流与 数据挖掘、 复杂事件处理与实时商务智能、不确定数据管理及其应用、 数据密集的 计算、 分布存储与 计算、 对等计 算及其数 据管理、 Web 服务计算 等.金澈清( 通信作者) , 男, 197
10、7 年生, 博士, 副教授, 主要研究方向为数据流管理、 不确定性数据管理技术等 . Email: cqjin sei. ecnu. edu. cn.王国仁, 男, 1966 年生, 教授, 博士生导师, 主要研究领域为 XM L 数据管理、 生物信息学、 分布与并 行数据库、 多媒体 索引技术、 并行计 算等. 李建中, 男, 1950 年生, 教授, 博士生导师, 主要研究领域为数据库、 并行计算等.2计算机学报2009 年目的, 某些应用无法获取原始的精确数据, 而仅能够1 引 言近四十年来, 传统的确定性数据 ( deterministicdata) 管理技术得到了极大的发展, 造就了
11、一个数百亿的数据库产业. 数据库技术和系统已经成为信息化社会基础设施建设的重要支撑 . 在传统数据库的应用中, 数据的存在性 和精确性均确 定无疑. 近年来, 随着技术的进步和人们对数据采集和处理技术理解的不断深入, 不确定性数据 ( uncertain data) 得到了广泛的重视. 在许多现实的应用中 , 例如经济、军事、 物流、 金融、 电信等领域, 数据的不确定性普遍存在, 不确定性数据扮演着关键角色. 传统的数据管理技术却无法有效管理不确定性数据 , 这就引发了学术界和工业界对研发新型的不确定性数据管理技术的兴趣.不确定性数据的产生原因比较复杂 . 可能是原始数据本身不准确或是采用了
12、粗粒度的数据集合 ,也可能是为了满足特殊应用目 的或是在处理 缺失值、 数据集成过程中而产生的.( 1) 原始数据不准确. 这是产生不确定 性数据最直接的因素. 首先, 物理仪器所采集的数据的准确度受仪器的精度制约. 其次, 在网络传输 ( 特别是无线网络传输) 过程中, 数据的准确性受到带宽、传输延时、 能量等因素影响. 还有, 在传感器网络应用与 RFID 应用 3等场合, 周围环境也会影响原始数据的准确度.( 2) 使用粗粒度数据集合. 很明显, 从粗粒度数据集合转换到细粒度数据集合的过程会引入不确定性. 例如, 假设某人口分布数据库以乡为基础单位记录全国的人口数量, 而某应用却要求查询
13、以村为基础单位的人口数量, 查询结果就存在不确定性.( 3) 满足特殊应用目的. 出于隐私保护 等特殊 12得到变换之后的不精确数据.( 4) 处理缺失值. 缺失值产生的原因很多 , 装备故障、 无法获取信息、 与其他字段不一致、历史原因等都可能产生缺失值. 一种典型的处理方法是插值,插值之后的数据可看作服从特定概率分布. 另外, 也可以删除所有含缺失值的记录, 但这个操作也在一定程度上变动了原始数据的分布特征.( 5) 数据集成 . 不同数据源的数据信息可能是不一致的, 在数据集成过程中就会引入不确定性. 例如, Web 中含很多信息, 但是由于页面更新等因素 ,许多页面的内容并不保持一致
14、4.对某些应用而言, 还可能同时存在多种不确定性. 例如, 基于位置的服务( LocationBased Service,LBS)是移动计算领域的核心问题, 在军事、 通信、交通、 服务业等方面有着广泛 的应用. LBS 应用获取各移动对象的位置, 为用户提供定制服务, 该过程存在若干不确定性. 首先, 受技术手段( 例如 GPS 技术) 限制, 移动对象的位置信息存在一定误差. 其次,移动对象可能暂时不在服务区, 导致 LBS 应用采集的数据存在缺失值情况. 最后, 某些查询要求保护用户的隐私 信息, 必须采用 位置隐私等方式 处理查询 6.实际上, 针对不确定性数据的研究工作已经有几十年历
15、史了. 从 20 世纪 80 年代末开始, 针对概率数据库( probabilistic database) 的研究 工作就从未间断过 711. 这类研究工作将不确定性引入到关系数据模型中去, 取得了较大进展 . 近年来, 针对不确定性数据的研究工作则在更广的范围内取得了更大的进展, 即在更丰富的数据类型上处理更多种类的查询任务. 图 1 描述了不确定性数据管理技术的典型框架, 它包含 4 大部分: 模型定义、 预处理与集成、存储与索引和查询分析处理. 5图 1不确定性数据管理的框架模型定义. 定义与应用场景相匹配的数据模型是不确定性数据管理的首要任务 . 在不确定性数据管理领域, 最常用的模
16、型是可能世界模型 ( possibleworld model) 1213. 该模型从一个不确定性 数据库演化出很多 确定的 数据库 实例( 称为可能 世界实例) , 而且所有实例的概率之和为1. 不确定性数据的种类较多, 例如关系型数据、 半结构化数据、 流数据、 移动对象数据等, 尽管存在许多与数据类型紧密相关的数据模型, 但是这些模型最终都可以转化为可能世界模型.1 期周傲英等: 不确定性数据管理技术研究综 述3预处理与集成. 某些应用需要为数据执行预处理操作, 主动引入不确定性, 从而达到信息隐藏和隐私保护的目的. 这种不确定性会降低查询结果质量,必须在查询质量与信息隐藏程度之间进行权衡
17、 . 当应用需要使用多个数据源时, 数据不一致性问题就凸显出来. 这个问题在 WEB 上尤为突出. 数据集成所要应对的不确定性问题不仅 包括原始数据 不一致, 还包括模式匹配不确定、 待处理的查询语义不确定等多种因素.存储与索引. 有效的存储和索引技术能够大幅提高数据管理效率. 尽管可以基于传统的关系型数据存储技术实现不确定性数据库的存储任务 , 但仍有必要开发新型存储技术, 以提高特定查询任务( 例如数据世系, data lineage) 的执行效率. 概要数据结构( synopsis data structure ) 是存储流数据( datastream) 1415的典型技术. 不确定性数
18、据与确定性数据的最大区别在于不确定性数据含有概率维度 . 一部分查询任务仅使用基于非概率维度的索引. 例如,在处理不确定 T opk 查询的过程中 , 往往只需对值维度以 ranking 函数创建索引 . 另一类查询 则需针对概率维度开发新的索引技术, 例如, 范围查询( Rang e query ) 、 最近 邻查 询 ( NearestNeighbo rquery) 等. 当概率维度以概率密度函数 ( probabilistic density function, 简称 pdf) 描述而非概率值时 ,创建索引的难度更大.查询分析处理. 查询分析处理是不确定性数据管理的最终目标. 查询类型非
19、常丰富, 例如关系查询操作、 数据世系、 XML 处理、 流数据查 询、 Ranking查询、 Skyline 查询、 OLAP 分析、 数据挖掘等. 尽管可以分别针对各个可能世界实例计算查询结果 , 再合并中间结果以生成最终查询结果 , 但由于可能世界实例的数量远大于不确定数据库的规模 , 该方法并不可行. 因此, 必须采用排序、 剪枝等启发式技术优化处理, 以提高效率. 另外, 由于输入数据具有不确定性, 查询结果也往往是近似结果.目前在研的主要项目不确定数据管理正成为一个研究热点 . 表 1 列举了一些知名大学以及公司的研究机构正在进行的相关科研项目的基本情况.表 1不确定性数据管理的相
20、关研究项目科研机构University of Puget SoundUn iversity of T oron to项目名称proTDBConquer链接地址http: / / ww w. math. ups. edu/ anierman/ umich/ protdb/http: / / queens. db. toronto.edu/project/ conquer/http: / / orion. cs. purdue. edu/描述主要研究概率半结构化数据的查询处理技术 .主要研究针对不一致数据库( inconsistent database) 的高效管理技术. 主要应用查询重写技术、
21、实时和动态数据清洗技术.曾用名: UDBMS, 是一个 通用 目的 的不确 定性 数据 库系统.它支持离散或连续的概率密度函数 ; 高效的访 问不确定性数据的方法; 优化连接、 选择等操作; 图形可视化界面 .主要研究不确定数据 管理技术, 特别是 针对不 确定数 据的世系分析技术. 它基于 UL DB 模型, 使用 TriQL 语言.研究内容包括: 查询语言、 表示与存储技术、 支持 数据清洗、高效的查询处理、 更新等.研究内容包括: 数据模型、 查询处理技术、 关系代数计算等 .该项目试图将现有的确定性数据管理框架与不确 定性查询处理技术相结合, 从而 使得新增 的功能 模块能 够嵌入 到
22、现有框架中, 增强其性能.研究概率聚集查询的计算方法,开发空间时间概率数据库.该项目有两大目标: ( 1) 从非结构化数据中抽取结 构化的信息; ( 2)基于这类信息构建下一代搜索和商业智能应用 .Purdue U nivers ityOrionStanford Un iversityCornell UniversityUniversity of WashingtonIntel/ BerkeleyUn iversity of MarylandIBM AlmadenTrioMayBMSMystiQHeisenDataProb DBsAvatarhttp: / / infolab. stanfor
23、d. edu/ trio/http: / / ww w. cs. cornell. edu/ database/ maybm s/http: / / www. cs. washington. edu/homes/ suciu/projectmystiq. htmlhttp: / / ww w. eecs. berkeley. edu/Research/ Projects/ Data/ 102060.htmlhttp: / / ww w. cs. um d. edu/ vs/research. htm# pdbhttp: / / ww w. almaden. ibm. com/cs/pr oje
24、cts/ avatar/R 与 Suciu 16观察到不确 定性数据广泛 出现在诸多应用之中, 并总结了不确定性数据管理所面临的巨大挑战 . Dalvi 和 Suciu 17进一步从理 论角度阐述不确定性数据管理的基础与挑战 . Agg arwal与 Yu 18面的进展, 特别是他们自己的工作 , 包括范围查询、skyline 查询与 Ranking 查询等. 本文则以不确定性数据管理的框架为主线, 综述了不确定性数据管理技术在数据模型、 预处理与集成、 存储与索引、 查询分析处理等方面所取得的重要进展. 本文第 2 5 节分别介绍上述 4个方面的内容; 第 6 节总结全文.从算法与应用角度综
25、述了不确定数据管理 19技术. Pei 等人回顾了近期不确定性查询处理方4计算机学报2009 年之间可能独立也可能存在依赖关系 . 首先假设各个2 数据模型与挑战2. 1可能世界模型不确定数据库建模的研究工作很多 , 可能世界模型则是应用最广泛的数据模型 1213. 在该模型中,各元组的任一合法组合均构成 一个可能世界 实例( instance) , 实例的概率值可以通过相关元组的概率计算得到. 可能世界实例的数量远远高于不确定性数据库的规模, 甚至是后者的指数倍, 这也是不确定性数据管理技术所面临的最大难点 . 考虑如图 2 所示的一个例子. 图 2( a) 是一个不确定性数据库 , 包含
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 不确定性 数据管理 综述

限制150内