阿里巴巴首次揭秘电商知识图谱AliCoCo!淘宝搜索原来这样玩!.docx
《阿里巴巴首次揭秘电商知识图谱AliCoCo!淘宝搜索原来这样玩!.docx》由会员分享,可在线阅读,更多相关《阿里巴巴首次揭秘电商知识图谱AliCoCo!淘宝搜索原来这样玩!.docx(22页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、阿里巴巴首次揭秘电商知识图谱AliCoCo!淘宝搜索原来这样玩!小叽导读电商技术进入认知智能时代将给亿万用户带来更加智能的购物体验。经过两年度的探究与理论阿里巴巴的电商认知图谱AliCoCo已成体系规模并在搜索推荐等电商核心业务场景上获得佳绩关于AliCoCo的文章?AliCoCo:AlibabaE-commerceCognitiveConceptNet?也已被国际顶会SIGMOD接收这是阿里巴巴首次正式揭秘领域知识图谱。本文将通过介绍AliCoCo的背景、定义、底层设计、构建经过中的一些算法问题和在电商搜索以及推荐上的广泛应用共享AliCoCo从诞生到成为阿里巴巴核心电商引擎的基石这一路走来
2、的考虑。本文搜索推荐事业部认知图谱团队XushengLuo,LuxinLiu,YonghuaYang,LeBo,YuanpengCao,JinhangWu,QiangLi,KepingYangandKennyQ.Zhu背景近年度来电商搜索、推荐算法已经获得了长足的进步但面对用户多样化的需求目前的电商体验仍然还称不上“智能。多年度来我们的搜索引擎在引导用户怎样输入关键字才能更快地找到需要的商品而这种基于关键字的搜索适用于对明确清楚详细商品的用户。但很多时候用户面临的往往是一些问题或者场景如“举办一场户外烧烤需要哪些工具在淘宝上购置什么商品能有效“预防家里的老人走失他们需要更多的“知识来帮助他们决
3、策。而在商品推荐中重复推荐、买过了又推荐、推荐缺少新意等问题也是经常为人诟病。当前的推荐系统更多的是从用户历史行为出发通过i2i等手段来召回商品而不是真正从建模用户需求出发。深究这些问题背后的原因其根源在于电商技术所依赖的底层数据缺少对于用户需求的刻画。详细来讲目前淘宝用于管理商品的体系是一套基于类目-属性-属性值CPVCategory-Property-Value的体系它缺乏必要的知识广度以及深度去描绘以及理解各类用户需求进而导致基于此的搜索、推荐算法在认知真实的用户需求时产生了语义的隔膜进而限制了用户体验的进一步提升。为了打破这个隔膜让电商搜索、推荐算法更好地认知用户需求我们提出建立一种新
4、的电商知识图谱将用户需求显式地表达成图中的节点构建一个以用户需求节点为中心的概念图谱链接用户需求、知识、常识、商品以及内容的大规模语义网络阿里巴巴电商认知图谱AlibabaE-commerceCognitiveConceptNet简称AliCoCo。我们祈望AliCoCo能为电商领域的用户理解、知识理解、商品以及内容理解提供统一的数据根底。经过两年度的努力我们已经完成了整体的构造设计以及核心数据的建立并在电商搜索、推荐等多个详细的业务场景落地获得了不错的效果提升了用户体验。AliCoCo如下列图所示AliCoCo是一个概念图谱主要由四局部构成电商概念层E-commerceConcepts原子概
5、念层PrimitiveConcepts分类体系Taxonomy商品层Items在电商概念层E-commerceConcepts作为AliCoCo最大的创新点我们将用户需求显式地用一个符合人话的短语表示为图中的节点如“户外烧烤outdoorbarbecue、“儿童保暖keepwarmforkids等并称之为“电商概念。用户需求固然一直被提及但在电商领域还未被正式地定义过。在很多下游应用如推荐系统的工作中常常用类目或者品类节点商品的分类作为用户需求的表达。但用户需求是远不止于这些的很多场合下用户面临的是一个“场景或“问题他们并不知道详细什么商品可以帮助解决因此我们将用户需求的定义进一步泛化为电商概
6、念详细详见下文章节。所有用于表示用户需求的电商概念组成了这一层。在原子概念层PrimitiveConcepts我们为了更好地理解上面讲到的电商概念即用户需求我们将这些短语进展拆解细化到词粒度用这些细粒度的词来更系统地描绘用户需求这些细粒度的词称为“原子概念。如对于电商概念“户外烧烤而言它可以被表示成“动作烧烤地点户外天气晴这里的“烧烤、“户外以及“晴都是原子概念。所有原子概念组成了这一层。在分类体系Taxonomy中为了更好地管理上述的原子概念我们构建了一个描绘大千世界根本概念的分类体系它不局限于电商领域但目前是为电商领域的概念理解所效劳。在这一层中我们定义了诸如“时间、“地点、“动作、“功能
7、、“品类、“IP等一级分类class并在每个分类下继续细分出子分类形成一颗树形构造。在每个分类中包含了分类的实例instance即原子概念如上述的“烧烤、“户外以及“晴就分属于“动作-消耗性动作、“地点-公共空间以及“时间-天气。同时不同分类之间有不同的关系relation如“品类-服饰-服装-裤子以及“时间-季节之间定义了一个“适用于季节的关系。因此相应的会有一条三元组实例棉裤适用于冬季。假如将上述的分类体系以及原子概念层合起来实际上可以看做一个相对完好的本体Ontology它以及Freebase、DBpedia等大众熟知的开放领域的知识图谱非常相似唯一的区别是我们的实例不仅有实体entit
8、y还包括了大量的概念concept。而相比ProbaseConceptNet等概念图谱我们又定义了一套完好的类型系统typesystem。在商品内容层阿里巴巴平台上数十亿的商品以及内容将会以及电商概念、原子概念层进展关联。如以及“户外烧烤相关联的商品可能会包括烧烤架、炭火、食材等等。但这里要注意的一点是有些商品可以关联到“户外烧烤这个电商概念但不一定可以以及相应的原子概念“户外直接关联。对于商品来讲电商概念像是这个商品会被用于的某个场景而原子概念更像是细粒度的属性用于刻画商品的特性。综上所述在AliCoCo的体系中用户需求被表达成短语级别的电商概念。在这之下有一套定义完备的分类体系以及原子概念
9、实例去描绘所有的电商概念。最后电商平台上的所有商品都会以及电商概念或者是原子概念相关联。下面我们详细介绍每一层的细节和在构建经过中所遇到的算法问题。分类体系TaxonomyAliCoCo的分类体系是一个宏大的树形构造包含了百万级别的原子概念实例。由于分类体系的构建对专家知识的要求非常高并且这局部的设计对于整个知识体系都至关重要因此我们人工定义了约20个一级分类下列图其中专为电商领域所设计的有“品类、“图案、“功能、“材质、“花色、“形状、“气味、“口味。每个一级分类还会继续细分为二级、三级直至叶子分类其中对于电商领域最为重要的“品类包含了约800个叶子分类。诸如“时间、“地点、“受众、“IP等
10、分类以及开放领域的知识图谱可以交融如“IP中包含了大量的明星、运发动、电影、音乐等。原子概念层PrimitiveConcepts在原子概念层我们祈望这些细粒度的词可以去完好地描绘所有的用户需求这是用于组成电商概念的根底在这一层我们主要讨论两个问题原子概念词汇的挖掘原子概念之间的上下位关系构建词汇挖掘在定义好分类体系之后一般有两种方式快速扩大分类下的实例词汇。第一种是交融多种来源的构造化数据这种方法采用的技术通常是本体对齐ontologymatching在理论经过中我们主要采用规那么人工映射的方式将不同来源的构造化数据对齐到我们的分类体系进展词汇的交融。第二种是通过在大规模的语料上进展自动挖掘来
11、补充分类下的词汇这里我们将其定义为序列标注任务并采用基于BiLSTMCRF1的模型来挖掘发现分类下的新词。由于叶子分类的数量过于庞大我们使用一级分类作为label先对词汇进展粗粒度的挖掘。上图为BiLSTMCRF模型的简单示意BiLSTM双向LSTM层用于捕捉句子上下位的语义特征而CRF条件随机场层那么用于捕捉当前词的label以及前后词label之间的相关性。而在模型挖掘得到可能属于某个分类的新词之后后续还会经由众包投放审核、外包质检等人工把关环节最终才会入库成为真正的原子概念。不同的原子概念可能拥有一样的名字但分属不同的类别代表了不同的语义每个原子概念有一个ID这也是AliCoCo将来可以
12、用概念消歧的根底。上下位关系构建在某个一级分类下的词汇挖掘到一定量后我们需要继续讲所有词汇分到不同层次的类别中去这个经过可以抽象成为一个上下位关系发现hypernymdiscovery的经过给定一个下位词在词表中找到其可能的上位词。我们采用基于pattern的无监视方法以及基于projectionlearning的监视方法两种方式结合来完成上下位关系的构建。Patternbased基于pattern的方式2是最直观且准确率最高的方法通过归纳以及发现一些可用于判断上下位关系的pattern从文本句子中直接抽取上下位词对。典型的pattern如“XX一种XX、“XX包括XX等。但这种方式的缺点是默
13、认上下位词对在句子中必须共现会影响召回。此外利用中文的一些特点我们可以用过“XX裤一定是“裤子等来自动构建起一批置信度较高的上下位关系。ProjectionlearningProjectionlearning的方式是给定一个下位词embedding以及上位词embedding有监视去学习一个映射函数使得以及尽可能地接近。这方面有很多前人的工作3,4其中有一些工作会先将不同的词进展聚类在每个类别上分别学习不同的映射获得了较好的效果。详细地我们学习一个打分函数用于表征一对候选词之间的上下位关系强弱并使用多个matrix来模拟不同维度的特征隐式的聚类其中第k个score计算如。最后将k个score过
14、一层全连接得到最终的probability。之后我们采用穿插熵损失函数进展训练。模型中使用的预训练的词向量是在前面提到的电商语料上用word2vec进展训练的。同时我们针对局部品类词在语料中出现较为稀疏的问题用ALaCarteembedding5进展了强化其主要思想是学习一个映射关系矩阵利用稀疏词周围的context的embeddings之以及对其进展表征而可以通过利用语料中所有的词进展训练得到Activelearning模型产出候选以及众外包审核是一个同时进展的经过人工审核的数据可以不断反哺强化模型。因此我们在迭代的经过中考虑用activelearning来进一步提升效率降低人工审核的本钱。
15、我们采用了一种uncertaintyandhighconfidence(UCS)的samplingstrategy除了考虑模型难以判断正负的样例之外预测值接近0.5我们还额外添加了一定比例的高置信度判正的样例一起送标这是因为在上下位关系的判别中很容易被诸如同义或相关关系所干扰尤其在前期样本数量少且质量不一和负采样不平衡的情况下模型对于区分相关关系以及上下位的表现不是太好。而通过人工标注纠正这样的判断错误可和时惩罚这一类的误判。实验说明这样的策略可以帮助我们减少35%的人力本钱。电商概念层E-commerceConcepts在电商概念层每一个节点代表了一种购物需求这种购物需求可以用至少一个原子概
16、念来描绘。我们首先介绍电商概念的定义然后介绍电商概念是怎样被挖掘以及生成的最后介绍电商概念以及原子概念之间的链接。电商概念的定义我们定义一个符合标准的电商概念需要知足以下要求1有消费需求即一个电商概念必须可以让人很自然地联想到一系列商品反例如“蓝色天空、“母鸡下蛋等就不是电商概念。2通顺反例如“仔细妈咪肥皂等就不是电商概念。3合理即一个电商概念必须符合人类常识反例如“欧式韩风窗帘、“儿童性感连衣裙等就不是电商概念因为一个窗帘不可能即是欧式还是韩风的而我们通常不会用性感去修饰一件儿童的连衣裙。4指向明确即一个电商概念必须有明确的受众反例如“儿童宝宝辅食等就不是电商概念因为儿童的辅食以及宝宝的辅食
17、差异较大会造成用户的疑惑。5无错别字反例如“印渡神油等。电商概念的生成我们采用一个两阶段的方式来生成电商概念首先我们用两种不同的方式生成大量的候选然后用一个判别模型来过滤那些不知足我们的标准的候选。候选生成候选生成有两种方式一种是从文本语料中去挖掘可能的短语这里我们采用了AutoPhrase6在大规模的语料上进展挖掘语料包括电商生态内的querylog商品的标题、评论还有很多达人商户写的购物攻略等。另一种方式是用词粒度的原子概念进展组合生成短语粒度的电商概念。我们挖掘并人工审核了一些pattern来赋值生成局部pattern如下列图所示我们可以通过“事件用的功能品类这个pattern来生成“旅
18、游用的保暖帽子这样的电商概念。而这些pattern可以以及下面的判别经过结合通过迭代的方式来进展不断地挖掘以及补充。电商概念判别判断一个候选短语是否知足电商概念的要求最大的挑战是上文提到的第三点即“合理要符合人的常识。其他一些要求我们可以通过字级别或者是词级别的语言模型就能过滤掉大局部的badcase但常识错误的识别对机器来讲是非常困难的。此外电商概念判别任务中的候选短语又严重缺少上下文信息进一步增加了判别的难度。为解析决这个难题我们设计了一种知识增强的判别模型如下列图所示整体是一个WideDeep7的构造。在Deep侧我们利用字级别以及词级别的BiLSTM来提取特征同时对于词级别的输入我们还
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 阿里巴巴 首次 揭秘 知识 图谱 AliCoCo 淘宝 搜索 原来 这样
限制150内