《开放式用户模型服务平台的设计与实现.pdf》由会员分享,可在线阅读,更多相关《开放式用户模型服务平台的设计与实现.pdf(4页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第 3 1 卷第 3 期 2 0 1 1年 3月 计算机应 用 J o u r n a l o f C o mp u t e r Ap p l i c a t i o n s Vo 1 31 No 3 Ma r 2 011 文章编号:1 0 0 1 9 0 8 1(2 0 1 1)0 3 0 8 1 8 0 4 d o i:1 0 3 7 2 4 S P J 1 0 8 7 2 0 1 t 0 0 8 1 8 开放式用户模型服务平台的设计与实现 王巧容,陈庆奎,赵 海燕(上海理工大学 光 电信息与计算机工程学院,上海 2 0 0 0 9 0)(h a p p y w a n g q i a o
2、 r o n g 1 6 3 c o rn)摘要:为了构建一个公共的共享数据 的用户模 型平 台,给各个接入该平 台的网站提 供更全 面、更准确的 用户信 息,平台提供 了数据接 口和算法接 口用于与 第三 方网站的 交互,重 点研 究 了如何 解决来 自不 同数 据源的 用户数据 的 冲突,从 而形成统一 的用户模型的问题,最终实现 了算法和模型以及数据 的共享。实验结果表 明,该平 台更能准确、全 面地构建用户模 型。关键词:We b服务;用户建模;数据融合;算法共享;数据共享 中图分类号:T P 3 9 1;T P 3 0 1 6 文献标志码:A De s i g n a n d i m
3、p l e me nt a t i o n o f o p e n u s e r mo de l s e r v i c e p l a t f o r m WA N G Q i a o r o n g,C H E N Q i n g-k u i,Z H A O H a i y a n (S c h o o l o f O p t i c a l E l e c t r i c a l a n d C o m p u t e r E n g i n e e ri n g,U n iv e r s i ty of S h a n g h a i f o r S c i e n c e a n
4、d T e c h n o l o g y,S h a n g h a i 2 0 0 0 9 0,C h i n a)Ab s t r a c t:T o b u i l d a c o mmo n u s e r mo d e l p l a t f o r m w h i c h c a n s h a r e d a t a a n d p r o v i d e mo r e c o mp r e h e n s i v e a n d a c c u r a t e u s e r i n f o r ma t i o n t o a l l s i t e s a c c e s
5、 s e d t o t h e p l a t f o rm,t h e p l a t f o rm p r o v i d e d d a t a i n t e rfa c e s a n d alg o r i t h m i n t e rfa c e s t o i n t e r a c t w i t h t h e t h i r d p a r t y s i t e s,f o c u s e d o n h o w t o s o l v e t h e c o n fl i c t o f u s e r d a t a f r o m d i f f e r e
6、n t d a t a s o u r c e s i n o r d e r t o f o rm a u n i f i e d u s e r mo d e l,fi n a l l y a c h i e v e d s h a r i n g o f alg o r i t h ms,mo d e l s a n d d a t a T h e e x p e ri me n t a l r e s u l t s s h o w t h a t i t i s mo r e a c c u r a t e a n d c o mpr e h e n s i v e t o b ui
7、 l d ri s e r mo d e l o n t h i s p l a t f o rm Ke y wor ds:W e b s e r v i c e;us e r mo d e l i n g;d a t a f u s i o n;a l g o r i t h m s h a ring;d a t a s h a ring 0 引言 在电子商务蓬勃发展的今天,网上购物作为一种新兴事 物得到了很多人的认可和喜爱,足不出户,就可以买到喜欢的 东西。由于网上的商家越来越多,如何留住用户,并快速准确 地向用户推荐合适的商品是每一个网上商家都要考虑的问 题。根据已有 的用户 网上行 为
8、对用户进 行建模,并根据模 型 向用户推荐商品是解决这个问题的一个有效途径。研究人员 提出了多种用户模型的构建方法 和算法;很多网站 采用了用户建模的方法,以根据用户模型进行个性化产品、服 务和 内容的推荐 等。在实际应用中,由于某种原因,例如新用户或者网站推出 了新的 内容,某一网站上相关 的数据可能较少,从而造成了用 户模型的准确度不高;用户的信息可能分布在不同的网站上,例如一个用户,他可能在当当网上买人文类的书,在卓越网上 买科技类和外文书。通过将多个网站上的用户模型数据进行 集成和融合,形成统一的用户模型,并为这些网站提供用户模 型服务,显然将大大提高用户模型的准确度和全面性。从商 业
9、的角度看,由于用户模型准确度的提高将给它带来利润的 提高,因此具有共享用户模型信息的动力。另一方面,对于某 一运营商,将多 个版块(或子 网站)中的用 户模 型进 行集成,同样存在必要性。在构造一个统一的用户模型服务平台时,需要解决一系 列关键技术。由于各个网站提供的用户模型数据的格式并不 统一,因此需要解决格式 的统一问题;而且对 于相同项 目,各 个网站提供的数据可能也不一致,需要将不同网站的数据进 行融合形成一个一致的结果。本文针对这种需求,提出了一个开放式用户模型服务平 台的体系结构,并针对其中的关键技术进行了研究。1 开放式用户模型服务平 台体系结构 图1为开放式用户模型服务平台的体
10、系架构。用户模型 用户模型 用户模型 l 模板管理 数据源管理 服务 I 用 户 模 型 用 户 模 型 数 据 数 据 接 口k 映 射 管 理 融 合 引 擎 用 户 模 型 安 全 管 理 l 融 合 规 则 管 理 l ;图 1 开放式用户模型服务平 台 各个用户模型数据 源通过注册模块可以动态 添加 到系统 中。不同的领域涉及到的用户模型信息是不同的。因此,在 本文的平台中,首先由用户建模专家根据业务或者领域的需 要创建用户模型模板,该用户模型模板定义了从哪些方面来 描述用户的兴趣,它提供了构建用户模型的规范化公共定义;收稿日期:2 0 1 0 0 9 0 6;修回日期:2 0 1
11、0 1 0 2 6。基金项目:国家自 然科学基金资助项 目(6 0 9 7 0 0 1 2;6 0 8 7 3 2 3 0);上海信息技术领域 重点科技攻关项 目(0 9 5 1 1 5 0 1 0 0 0);上海重点科技项 目(0 9 2 2 0 5 0 2 8 0 0);3 Z 海市重点学科建设项 目($3 0 5 0 1);上海 市科 委基础研究重点课题项 目 (0 8 J C 1 4 1 1 7 0 0)。作者 简介:王巧容(1 9 8 5一),女,湖北天 门人,硕士研究生,主要研究方 向:服务计算;陈庆奎(1 9 6 6一),男,黑龙 江哈尔滨人,教授,博士生 导师,主要研究方向:计
12、算机机群、并行数据库、并行理论、网格;赵海燕(1 9 7 5一),女,河南温县人,高级工程师,主要研究方 向:服务计算。第 3期 王巧容等:开放 式用户模型服 务平 台的设计与 实现 8 1 9 通过用户模 型映射 管理模块 定义 的映射规则,不 同数据 源的 信息将映射到统一的用户模型上,平台提供了一个标准的接 口,用于定期采集各个第 三方 网站 提供 的各 自的用户数 据并 按照映射规则对这些用户数据进行格式转换,将第三方的用 户数据进行标准化;在采集第三方数据的过程中,通过安全管 理模块对传递的数据进行加密,以免造成商业数据的泄露;而 用户模型融合规则管理模块定义了融合规则,以对不同数据
13、 源中提供的不一致信息进行统一化(融合)。用户模型数据 融合引擎 是整个平 台的核心,它将 定时 自动采集 各个用 户模 型数据源的数 据进行 整合。整个平台将向外界提供用户模型服务,包括整个用户模型 的获取,部分用户模型的获取 等;在获取用户模型时,通过安全 管理模块验证用户的登录,以确定其有获取该模型的权利。平台的数据流图如图2所示。图 2开放式用户模型服务平 台的数据流图 为 了实现该平 台,需要解 决一 系列 的技 术 问题。其 中最 为重要的 问题有两个:一个 是数据格式冲突问题;另外一个是 数据 内容 冲突 问题。后面两章将对这两个 问题 的解决方法进 行介绍。2 用户模 型数据
14、的格 式转化 由于各个 网站 的独立性 和 内容差异性,来 自不 同网站 的 用户模型数据格式并不统一,需要对 它们 进行 数据转换,使其 与用户模型模板文件一致。通常,各个网站的用户模型数据元素与用户模型模板数 据元素存在以下几种对应关系。1)一一对应的关系。数据源和用户模型模板的元素是 一一对应的,但是两者 的名称可 能一样或 者不一样。2)多对一的关系。数据源元素的信息层次比较低,数据 源的多个元素对应于用户模板的一个元素。3)一对多的关系。数据源元素的信息层次比较高,对应 于用户模 型模板 的多个元 素。例如,假设网站 A的用户数据模型为 名称,家用 电器,手机通信,手机配件,数码影像
15、,数码配件,日用百货 ,用户 模 型模板 为 用户名称,家用 电器,手机 数码,家具用 品,服装 鞋 帽 ,则两者 的元素对应关 系如 图 3所示。网站A 用户数据模型 用户模型模板 名 称 家用电器 一对:一对一 二 一 对 多 用户名称 家用电器 手机数码 其用最 鞋帽 图 3中,网站 A的“名称”与用户模型模板的“用户名称”是一对一的关系,但两个元素的名称不一致;网站 A的“家用 电器”与用户模 型模 板 的“家用 电器”也是 一对一 的关 系,两 者的名称也是一致的;网站 A的“手机通信”、“手机配件”、“数码影像”、“数码配件”是比较低层的产品分类,一起对应 于用户模型模板的“手机数
16、码”,是多对一的关系;网站 A的“日用百货”是比较高层次的产品分类,对应于用户模型模板 的“家具用品、服装鞋帽”,是一对多的关系。为了完成数据转换,本文采用了 X S L T转化技术。各个 网站 以 X ML格式定期 提交 各 自的用户数据,用户模型模板也 是 X ML格式 的,可 以事 先 建立 两者 S c h e ma之 问 的 X S L T文 件。在运行时,直接应用 X ML的转换机制达到 目的。值得指 出的是,对于多对一的关系,本文将数据源的多个元素的值取 均值作为 目的元素的值;对于一对多的关系,本文将数据源的 元素的取值复制到多个 目的元素。3 用户模型数据的内容一致性处理 对
17、于同一个用户,不同的网站可能有不同的信息。如张 三可能在 网站 A买 了很 多手机数码产品,所 以网站 A认 为张 三对手机数码产品很感兴趣,而张 三很少在 网站 B购买手机 数码产品,则网站 B认为张三对手机数码产品不感兴趣。为 了提供合理的用户模型信息,需要把各个网站中有关用户模 型的内容进行一致性处理。如果把每一个 网站看 做一个 评价者,用户模 型数 据 内容 一致性处理就可以看成为一个群体综合评价问题,即将 各个网站的用户模 型数 据(评价)按 照某种 方式 进行合 成得 到一致的用户模型数据(综合评价结果)。在应用群体综合评价方法时,依据用户模型融合的特点,需要考虑以下几个方面 的
18、问题。1)评价值的模糊性。由于技术原因,或者由于商业隐私方面的考虑,网站提供 的用户模型信息一般不会是一个精确值,而更可能是一个模 糊值。对 此,本文采用三 角模糊数 来统 一表示用 户模 型 中的 元素的语言评价值,如图 4所示为各个语言评价值对应的隶 属度函数。模糊数的界限一般并不明显,本文用 0 0 2 5表 示非常不喜欢,00 5表示不喜欢,0 2 5 0 7 5表示一般,0 51 0表示喜欢,0 7 5 1 0表示非常喜欢,它们之间互相 有交叉。非常 趔 11 1 啦 欢 模 糊数 图 4数据模糊表示 2)网站数据质量差别。在实际生活 中,各 个 网站 的大小、规 模、建 站 时间、
19、知 名 度、人气等不一样,网站 A和网站 B对于最终用户模型数据 的形成应该具有不 同的权重。例 如,网站 A的用 户数远远 大 于网站 B的用户数,则它对用户的评价对合成结果的影响应 该 比网站 B的大。3)各个网站评价一致性 的影 响。在将各个网站的用户数据进行合成时,除了考虑各个网 信件像绊货 遭 配影配百 税 机码码博 手手数数日 8 2 0 计算机 应用 第 3 1 卷 站 的权威性之外,还需要考虑群体意见 的一致性。如:虽然网 站 A的权重 比较大,但是其他权重小的网站的意见 比较一 致,则也要考虑如何尊重多数网站的意见。目前的群体评价方法一般采用加权合成的方法考虑专家 的不同权
20、重对结果 的影 响,也有一 些评价方 法考虑 了群体 意 见的一致性来合成评价意见。在将各 网站 的评价意见进行合 成时,既要考虑各个网站 的权 威性也要兼顾 到一致性。本 文 根据这种思想,使用 了将 网站权重 和一致性进 行有机结合 的 方法,使最终合成的群体评价结果更为合理。1)网站权重影响。依据由于规模、知名度、以往数据准确性等,确定网站的 权重,本文将网站 i 的权重记为 W 。2)数据一致性影响。首先定义两 个三 角模 糊 数 的相 似 度:设 R =(Z ,m ,r ),=(Z m,r,)为两个三角模糊数,s(,R,)为其相应 的 隶属度函数,则称:J m i n(R (),R,
21、()d x s(,R )=等一(1)f m a x(R (),R,()为两个三角模糊数的相似度。由于用户模型元素的取值用三角模糊数来表达,因此有 下面的定义:两个网站 与 中对用户模型某个元素的取值 分别 为两个模糊数 R =(Z ,m ,r ),R,=(z,r,),将两 个元素取值之间的一致度 S 定义为 和 的相似度,即 S :S(R ,R,)。为了衡量某一网站用户模型元素取值与其余所有网站用 户模型元素取值的一致性,定义该网站的用户模型元素的平 均一致度 S 为:1 n s =5 (2)为了便于比较,将平均一致度进行归一化,从而得到各网 站针对用户模型某一元素取值的相对一致度,网站 元素
22、取 值的相对一致度 S 如式(3)所示:s r _ s;S (3)网站 的用户模型元素取值的相对一致度反映了它与其 他网站上对该元素取值的一致性程度,其值越大越说明它的取 值代表 了大多数网站的取值。为了集结多数 网站 的取值,获得 一致性程度高的结果,应该考虑各网站的相对一致度 的影响。3)网站权重和数据一致性的综 合影 响。通过上面的分析可知,网站的评价对于合成结果的影响 大小与网站的权重、网站取值的相对一致度有关。因此。将这 两项进行合成得到用户模型元素取值 的合成权重:C =O t l W +O l 2 S:(4)其 中O L。+O t=1。对式(4)中系数 的取值,若 只考虑权威的作
23、 用而不考虑一致性的影响,则 O l。=1,=0。若只考虑网站 取值一致度的影响,则O t:=1,O l =0。4 系统实现 为了验证上述方法的可用性,本文实现了一个平 台原 型。假定数据来 自三个不 同的网站:A网站,B网站,C网站,考虑 到三个网站的用户规模 大小 不 同,假设这三个 网站 的权 重分 别为 0 5、0 3和 0 2。在该例子中,采用用户所购买的产品树及权重来描述用户 的兴趣。其 中,权重表示 了用户对该产 品的兴趣程度,通常各 网站可通过用户对该产品的浏览次数或者购买次数来获得相 关的权重。由于各个网站的商业性质,它们提供的数据一般都 不是一个确定的数据,通常采用一种模糊
24、的表示,假设该例子 中分为6类 非常喜欢”、“喜欢”、“一般”、“不喜欢”、“非常 不喜欢”,各个网站提交的用户张三的兴趣如表 1 3所示。表 1 网站 A提供的张三的数据 类别 兴趣 类别 兴趣 家用电器 非常喜欢 数码影像 一般 手机通信 一般 数码配件 不喜欢 手机配件 不喜欢 日用百货 一般 表 2网站 B提供 的张三的数据 类别 兴趣 类别 兴趣 家用电器 喜欢 家具用品 一般 手机数码 喜欢 服装鞋帽 喜欢 表 3网站 C提供 的张三的数据 类别 兴趣 类别 兴趣 家用电器 不喜欢 家具用品 非常喜欢 手机数码 一般 服装鞋帽 非常喜欢 最终,系统将根据 A、B、C网站提交 的用户
25、兴 趣数据 的格 式,对比分析字段,创建合适 的 X S L T转 换文件,导入数据 并 进行数据融合,得到综合的用户兴趣数据。整个系统的使用过程如下。1)用户建模专家添加用户模型模板,添加完成后的用户 模型模板界面如图5所示。日电子商务网站用户模型模板 口 用户名称 口家用电器 口手机数码 口家具用品 口服装鞋帽 f 删 除1 -图 5 电子商务 网站用户模型模板 2)创建数据转换文件。首先将第三方网站提交的数据 转换为三角模糊数,即将模糊表示的 X M L文件转换为用三角 模糊数表示的 X ML文件,然后根据各个网站数据 与用户数据 模板 的数据映射关系,编写转换用 的 X S L T文件
26、,对于每个 网 站,该 X S L T文件只需编写一 次。在该例子中,只有 A网站的数据需要转换,图 6所示为 其数据转换 X S L T文件。3)各个网站以 X M L格式定期 提交各 自的用 户数据。系 统根据第一次编写的相应的 X S L T文件对数据进行转化,得 到用户模型模板格式的用户数据。网站 A的源数据和转换数据如图 7所示。4)最后,平台采用式(4)所示的方法将三份数据融合,在 这里,取。=0 6,=0 4,得到数据融合的结果如图8。将数据融合得到的结果代入三角模糊数,重新转换为模 糊表示,可以得 到张三 的兴趣爱好如表 4所示。表 4融合 多个网站数据所得到的张三的兴趣爱好
27、类别 兴趣 类别 兴趣 家用电器 非常喜欢 家具用品 一般 手机数码 喜欢 服装鞋帽 非常喜欢 第 3期 王巧容等:开放 式用户模 型服 务平 台的设计与 实现 8 2 1 穗拥户 横垫慎撮 l 理 愿 e b S e t nc e 曹 疆 嗽镕t理 霉第三弗教据 已有数 据蔓糌 慷 教据格式转换 数据i 皓 t 查t 1 l s U文件 xml 垤 =t 0 en c adi n g=”u 圩-8 I e t 三 N)bt u 0 75c Ap#n0 tMo l eC0 mmun l c耻10 0 25 Hebi e_Co m 0 雌 M0 l ep h0 0,0 b e n e a cc
28、es so r i es O 2S,0 0 b 0 埔L 0 c 0 0 L一$f s tMer ch an d一0,2 S Ne “d s e)b i ur bI 一 APP an c es M l c s0 7 曲:c0 m M0 I e-p h0 唑煳5 0ne暮,0 2 s(Mo bi 彻 e一 鲋 I酷 0 口l 抽 b 0 75 I D l g i t a l t?xm。0 dI 口z 盯 F-8”c 5 日 嗽 er L 8 F e 三,)S u O 75 App l 靠 M#酬 口 q I 0 控 s!Mo bi l e I t )f u 叩 ur e)口 2 5 0 bl。d
29、 口 如0 e2 s 埘 曲 l I ed g r c a!F u n u 9 7 50 7 5,C 鼬 韩 ,8 l 一 e 1 r e _ t,5 结语 本文介绍了一个开放式用户模型服务平台,该系统首先由 用户建模专家根据业务或者领域的需要创建用户模型模板文 件,然后对传人的用户数据进行格式化,使网站数据格式与模 型模板文件的格式一致,然后 融合各个不 同 网站 的数据,对 用 户建模。本文详细介绍 了实现该系统 的主要思想和关键技术,并实现了一个面向网上购物的例子,证实了系统的可行性。参考文献:1 戢镁钧 面向个性化 服务的用户建 模相关 问题研究 J】情报 方 法,2 0 0 6(3)
30、:7 7 7 9 2 方惠敏,杨国胜,丁文珂 基 于人性化 网站界 面设计 的用户建模 J 计算机技术 与发展,2 0 0 8,1 8(2):1 8 71 9 0 【3】应晓敏 面向 I n t e me t 个性化 服务 的用户建 模技 术研究【D 长 沙:国防科学技 术大学,2 0 0 3 4】S Y ME O N I D I S P,N AN O P OU L O S A,MA N O L O P O U L O S Y F e a t u r e w e i g h t e d u s e r m o d e l for r e c o mm e n d e r s y s t e m
31、 s【C】UM0 7:P r o c e e d i n g s o f t h e 1 1 t h I n t e r n a t i o n a l C o n f e r e n c c o n Us e r Mo d e l i n g,L NCS 45 1 1 Be di m S p r i ng e r,2 0 0 7:9 7 1 0 6 5 Z HA N G H,S ON G H T C o n s t r u c t i o n o f o n t o l o g y-b a s e d u s e F m o d e l f o r We b p e r s o n a l
32、i z a t i o n C】U M0 7:P r o c e e d i n g s o f t h e 1 1 t h I n t e r n a t i o n a l Co n f e r e n c e o n Us e r Mo d e l i n g,L NC S 4 5 1 1 Be r l i n:S p r i n g e r,2 0 0 7:6 77 6 6 周彩兰,王鹏 基 于空 间向量模 型的用户建模算法改进 J】计算 机与数字工程,2 0 1 0,3 8(2):1 5 1 7 7】当当 网 个性 化推 荐【E B OL】【2 0 1 0一1 02 4 1 h t
33、t p:r e c o d a n g d a n g c o r n 8】Am a z o n C O IT I O n l i n e s h o p p i n g for e l e c t r o n i c s,a p p a r e l,c o m p u t e r s,b o o k s,D V D s m o r e【E B O L】2 0 1 01 O一2 4 h t t p:w w w am azon corn 9】D Y E R J S,S U R L I N R KG r o u p p ref e r e n c e a g g r e g a t i o n r u l e s b a s e d o n s t r e n g t h of p r e f e r e n c e【J】Ma n a g e m e n t S c i e n c e,1 9 7 9,2 5(9):2 23 4 1 0】司艳杰,魏法杰 基于二元语义 的项 目成功度群体综合评价方法【J】系统工程,2 0 0 9,2 7(3):7 37 8
限制150内