基于动态情境感知的w5模型研究-王峰.pdf
《基于动态情境感知的w5模型研究-王峰.pdf》由会员分享,可在线阅读,更多相关《基于动态情境感知的w5模型研究-王峰.pdf(7页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 第 45 卷 第 3 期 电 子 科 技 大 学 学 报 Vol.45 No.3 2016年 5月 Journal of University of Electronic Science and Technology of China May 2016 基于动态情境感知的 W5模型研究 王 峰1,2,李石君1(1. 武汉大学计算机学院 武汉 430072; 2. 长江大学计算机科学学院 湖北 荆州 434023) 【 摘要 】 Twitter、 Sina Micro-blog等社交网络应用为基于位置的服务提供了大量的情境信息,如用户 ID(who)、签到时间(when)、 GPS坐标 (wh
2、ere)、微博内容主题词 (what)和微博内容诱因词 (why)等,简称 5W。它们为用户的行为和偏好研究提供了契机。该文提出了基于 5W动态情境感知信息的 W5概率模型,并采用包含情境信息的联合概率分布分别从时间、空间和活动等方面挖掘用户动态行为,用于用户和位置的预测。该文实验基于两个数据集: Geo-text(GT)和 Sina-tweets(ST),在数据集上进行了用户预测 (UP)和位置预测 (LP)实验。实验结果表明, W5模型在 UP和 LP两方面准确率均高于 W4模型。同时, W5模型在时间误差和空间距离误差两方面也取得了较好的性能。 关 键 词 动态情境 ; 诱因 ; 用户行
3、为挖掘 ; W5模型 中图分类号 TP391 文献标志码 A doi:10.3969/j.issn.1001-0548.2016.02.020 Research of W5 Model Based on Dynamic Context Awareness WANG Feng1,2 and LI Shi-jun1(1. School of Computer, Wuhan University Wuhan 430072; 2. School of Computer Science, Yangtze University Jingzhou Hubei 434023) Abstract Social
4、network apps, such as Twitter, Sina Micro-blog and etc. have provided mass context-information associated with user IDs (who), check-in time (when), GPS coordinates (where), topic (what) and incentive (why) of tweets (5W for short) for location based services. The availability of such data received
5、from users offers a good opportunity to study the users behavior and preference. In this paper, we propose a W5 probabilistic model to exploit such data with context by jointly probability to discover users dynamic behaviors from temporal, spatial and activity aspects. Our work is applied to predict
6、ion for user and location. Experimental results on two real-world datasets show that W5 model is effective in discovering users spatial-temporal prediction, and outperforms state-of-the art baselines, such as W4, on accuracy UP: (GT: 3.75%, ST: 6.54%) and LP: (GT: 8.7%, ST: 20.6%) at aspects of user
7、 prediction and location prediction based on Geo-Text (GT) and Sina-Tweets (ST). Key words dynamic context; incentive; user behavior mining; W5 model 收稿日期: 2014 12 24;修回日期: 2015 09 30 基金项目:国家自然科学基金 (61272109) 作者简介:王峰 (1900 ),男,博士生,主要从事移动互联网和用户行为挖掘方面的研究 . 微博是一种通过 Twitter等社交网络平台发布短文本信息的服务,文本信息以 140个字为
8、上限,其中包含大量情境信息,如签到时间 (check-in time)、位置 (GPS坐标 )、人物 (用户 ID、昵称等 )、事件 (微博文本内容 )等1-5。 如何有效地组织和利用这些情境信息为用户服务是目前国内外研究的热门且有挑战性的课题6-7。情境就是生活中的场景,如小明中午 12点在食堂吃饭就是场景 (情境 ),其中包含人物、时间、位置等信息。现实场景通过情境建模被人们所理解的过程就是“情境感知” 。基于“情境感知” ,信息提供者可为用户提供更精确的信息过滤和消息推送服务。建立情境感知模型的目的在于提取用户的行为信息,通过分析其特征达到预测用户将来行为的目的。其中,最新且具代表性的
9、W4模型7就是利用Twitter用户信息分析其历史行为特征的典型情境模型。分析要素包括用户 (who)、时间 (when)、位置(where)和事件 (what)4个方面。该模型从中任意抽取3种信息就能较精确地推断出第 4种。但不足是通过该模型建立的情境是静态情境,它不仅切断上下情境间的连续性,而且无法了解情境发生的诱因。换言之,该模型只能推断用户当前情境 (Sn)在做什么,无法推断用户下一情境 (Sn+1) 做什么的概率(P(Sn+1|Sn),并且无法解释上一情境 (Sn1)为什么会导致当前情境 Sn,而不是另一情境nS,同样也无法解释为什么是情境 Sn而不是nS导致了 Sn+1的发生。 鉴
10、于上述两点不足,本文提出 W5模型来弥补, W5模 电 子 科 技 大 学 学 报 第 45 卷 430型是在 W4模型的基础上加入情境诱因 (why)信息。优势在于通过分析用户的历史信息,在给定时间和位置的条件下,通过诱因信息不但能推断用户当前时刻在做什么,而且可以推断用户下一时刻有可能去哪里和做什么。这样就把 W4模型建立的离散静态情境变成 W5模型建立的连续动态情境。事实上,现实生活中用户行为本就是连续变化的动态过程, W5模型研究更贴近于用户的真实行为。 1 W5模型 “情境”在城市计算中直观体现为 4个维度7:用户 who(u)、时间 when(t)、位置 where(l)和事件wh
11、at(e) ,因此可建立四元组构造向量空间T( , )utle= , 这就是基于静态情境感知的 W4模型。由引言论述可知, W4模型的情境信息不能恰当地解释上下文情境间的关联关系, 为解决该模型的不足,引入连接上下文情境的纽带诱因。 通过分析可知,W4模型由于缺少诱因 why的度量,导致上下文情境关联断层和连续性缺失。因此本文在 W4模型基础上加入诱因 why,建立向量空间T( , , )utlew= ,将W4模型扩展为基于动态情境的 W5模型,把离散情境片段串联为连续性整体,进而提高用户行为活动的预测精确度。静态情境被比作生活场景的每帧电影画面,那么动态情境就是由每帧画面串起来的电影。值得说
12、明的是,通过提取微博内容中的要素建立情境时,每种要素均对应一类信息库 (如事件库和诱因库 )。 1.1 定义 定义 1 诱因 (incentive):促使情境迁移而导致静态情境中的要素发生改变的诱导性因素。诱因是一个集合12, , , nwww w= _ ,其中 n为诱因数。文中要素特指 W5模型的 5个情境因素。情境迁移是由当前情境 Sn流向下一情境 Sn+1的过程。诱因导致用户who发生改变,表明它导致用户更替完成了情境迁移;诱因导致时间 when发生改变,表明它导致约定时间更替完成情境迁移。类推可解释诱因导致其他因素发生情境迁移的合理性。因而得出诱因导致诱因发生变化的可能性也是合理的,因
13、为此刻诱因导致诱因发生,形成了迭代诱因的情境迁移,同样也证明了诱因定义及其限定范围的合理性。 定义 2 静态情境 (static context):无诱因驱使下,用户 u在时间 t、位置 l从事事件 e的情境。 定义 3 动态情境 (dynamic context):相对静态情境,+1nntt 时刻,如果情境在诱因驱使下发生+1nnSS 的迁移,那么这种情境就是动态情境。用户针对各种诱因存在主观的重要性分级,根据重要程度从高到低进行情境迁移,依次完成各项活动。虽然随着时间的变化,用户对诱因重要程度的认识可能会发生变化,但已超出本文研究内容。因此,本文假设用户对诱因重要程度的认识不随时间变化,故
14、此定义诱因优先级。 定义 4 诱因优先级 (incentive order): 指诱因的重要程度,它是对诱因优先次序的描述。诱因优先级用诱因因子 f 度量,它由上下文事件的优先级决定。设上下文事件优先级分别为 IOn和 IOn+1(假设介于 0 10之间 ),那么诱因因子可用1IOIOnnf+= 计算。 1.2 W5动态情境感知模型 who、 when、 where、 what、 why是组成动态情境的 5个必要因素。它们在数据集中的直观体现是:用户 ID(user ID)区分不同用户或用户组,表示为T12(, , , )nuuu u= _ , n=1时,表示单用户或用户组;签到时间 (che
15、ck-in time)为用户产生行为的时间,时间序列集合为T12(, , , )nttt t= _ ; GPS 信息 (GPS messages)为用户产生行为的位置,用户的位置信息集合是一组成对的经纬度集合T012(, ,)illll l= _ ,其中,0 ,1(,)iiilll= ,,0il 表示纬度序列,,1il 表示经度序列,,0 ,1,iill 表示一组 GPS 经纬度坐标位置信息,1, 2, ,in= _ ;微博 (tweets)为用户行为的具体内容,假设用户的一条微博只有一个主题或只叙述一件事,那么事件集合表示为T12(, , , )neee e= _ ;微博上下文关系 (con
16、text of tweets)为用户行为的因果联系,以此为基础,建立诱因集合T123(, , , )nwwww w= _ 。把 5个集合组合起来,构成了 W5动态情境感知模型的直观表述:TW5 ( , , , , )utlew= 。 1.3 W5动态情境感知模型计算 表 1 W5模型:情境要素与数据的映射 情境要素 数据提取 数据形式 用户 (u) 用户资料与注册信息 用户 ID、用户名、年龄等时间 (t) 签到时间、登入登出时间等 日、周、年、是否节假日等位置 (l)GPS坐标, POI信息 区域,距离等 事件 (e) 微博中提取事件主题 微博文本内容 诱因 (w) 微博中提取诱因并分级 微
17、博文本内容 W5模型包括 5个情境要素,它们与数据间的映射关系如表 1所示,而它们生成 W5模型的过程如图 1所示。图中实线和虚线分别表示显式和隐式要素。显式要素指可从数据集中直接获取的要素,包括用 第 3期 王峰,等 : 基于动态情境感知的 W5模型研究 431 户 u、时间 t和位置 l;隐式要素指只能通过数据集的数据项间接生成和反映的要素, 包括事件 e和诱因 w;箭头末端标明该要素类型,实线箭头末端为显式要素,虚线箭头末端为隐式要素。 u tle w 显式要素流 隐式要素流 图 1 W5模型要素生成图 以用户或用户组 (u)为起点,以概率形式 ()pu表示用户占用户集的概率; u指向
18、t,生成要素流 ut并写出其概率形式 (| )pt u ,表示某用户或用户组 u在时间 t的概率; u指向 l,生成要素流 ul 并写出其概率形式 (| )pl u ,表示某用户或用户组 (u)在位置 l的概率;从 t指向 l,生成要素流 ult并写出其联合概率形式 (| ,)pl ut 或 (| ,)pt ul ,表示 u在时间 t出现在位置 l或 u在位置 l出现时其时间为 t的概率;同理,可以此规律生成要素流 ute ,utle和 utlew 等,并写出联合概率形式 (|,)peut , (|,)peutl 和 ( | , )pwutle 等,最终形成联合概率: (, , )pultew
19、= ( ) (| ) (| ,) ( | ,) ( | , )pu pt u pl ut pe utl pw utle (1) 由于用户信息在数据集中仅作为用户标识,因此式 (1)中凡是涉及 u的概率均可简化或消去, 从而简化式 (1)为: (, , , )ptlew ()(|)(|,)( |,)pt pl t pe tl pwtle= (2) 为在用户活动区域内计算位置 l的概率, 利用式 (3)通过区域内的 GPS坐标对来解决这个问题11,有: 22 2 2,0 ,1 ,0 ,122 2 2,0 ,1 ,0 ,1exp( ( ) exp( ( )(|)exp( ( ) exp( ( )ii
20、 i iii i ill l lpl tll ll11+= (3) 式中,,0 ,1 ,0 ,1(,)(,)ii i ill ll和 为位置il 和il 的 GPS坐标对,进一步写出联合概率为: (,) () ( | )ptl pt pl t= (4) 式中, ()pt 可从数据集中的签到时间直接获取,然后统计各用户在时间段 t内的频次以计算其分布概率。而解决事件 e和诱因 w的联合概率需要对微博内容进行处理,因此借鉴文本相似度评分的思想找出那些诱因意图显著的微博,采用式 (5)和式 (6)计算解决,有: 211() ( )nmiijiijpe Y Zw=+(5) 式中,iY 表示微博中针对第
21、 i个子句的评分;ijZ 用于统计评论中第 i个子句中第 j个词汇的词频;ijw 表示微博中第 i个子句中第 j个词汇的得分权重。 从而写出联合概率为: (|) () ()pwe fpw pe= + (6) 式中, f为诱因因子; ()pw为用户 u对诱因的概率,通过实验中用户标记获取,标记为 l表明用户对诱因关注,为 0表明用户对诱因忽略。结合式 (5)和式 (6),可写出联合概率为: (, ) ( | ) ()pew pwepe= (7) 而进一步结合式 (4)和式 (7)、式 (4)和式 (5),并赋予权重1 和2 (一般取 0.5),可写出联合概率为: 11(, , ) (,) (1
22、) ( , )ptlew ptl pew=+ (8) 22(, ) (,) (1 ) ( )ptle ptl pe=+ (9) 再结合式 (1)、式 (8)和式 (9)就可以计算出(|,)pwtle。 为了进行预测,文中引入 N阶 Markov状态空间 12 1,nXX X+_ ,其中假设当前情境的联合概率分布 (, , )nnnnnXptlew= ,那么根据 N阶 Markov的计算式 (10),结合用户的历史情境12 1, , nXX X_ ,预测出用户的下一情境11111(, , )nnnnnX ptlew+ + + += 。 11(|) (,|)dnn nnn nPX X PX X X
23、 X+= =11(|)(|)dnn nn nP XXPXX X+(10) 再结合式 (10)与式 (1)对式 (1)式 (9)进行逆运算就可预测出用户下一情境的行为活动。 由于诱因优先级来源于用户的主观认识,为计算实验中的诱因因子 f和 ()pw, 必需采用人工众包标注的方法获取诱因优先级数据,用户与标注微博数的映射关系如表 2所示。表中所示为随机选取的 4个用户对含有诱因优先级的微博数的标注。用户关系与 值的计算结果如表 3所示,用户关系 1,2表示用户1与用户 2之间的 值计算关系。对标注结果采用科恩卡帕系数 (Cohens kappa)9-10进行一致性评测,其计算方法为: Pr( )
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 动态 情境 感知 w5 模型 研究 王峰
限制150内