阿里巴巴首次揭秘电商知识图谱AliCoCo!淘宝搜索原来这样玩!.docx
阿里巴巴首次揭秘电商知识图谱AliCoCo!淘宝搜索原来这样玩!小叽导读电商技术进入认知智能时代将给亿万用户带来更加智能的购物体验。经过两年度的探究与理论阿里巴巴的电商认知图谱AliCoCo已成体系规模并在搜索推荐等电商核心业务场景上获得佳绩关于AliCoCo的文章?AliCoCo:AlibabaE-commerceCognitiveConceptNet?也已被国际顶会SIGMOD接收这是阿里巴巴首次正式揭秘领域知识图谱。本文将通过介绍AliCoCo的背景、定义、底层设计、构建经过中的一些算法问题和在电商搜索以及推荐上的广泛应用共享AliCoCo从诞生到成为阿里巴巴核心电商引擎的基石这一路走来的考虑。本文搜索推荐事业部认知图谱团队XushengLuo,LuxinLiu,YonghuaYang,LeBo,YuanpengCao,JinhangWu,QiangLi,KepingYangandKennyQ.Zhu背景近年度来电商搜索、推荐算法已经获得了长足的进步但面对用户多样化的需求目前的电商体验仍然还称不上“智能。多年度来我们的搜索引擎在引导用户怎样输入关键字才能更快地找到需要的商品而这种基于关键字的搜索适用于对明确清楚详细商品的用户。但很多时候用户面临的往往是一些问题或者场景如“举办一场户外烧烤需要哪些工具在淘宝上购置什么商品能有效“预防家里的老人走失他们需要更多的“知识来帮助他们决策。而在商品推荐中重复推荐、买过了又推荐、推荐缺少新意等问题也是经常为人诟病。当前的推荐系统更多的是从用户历史行为出发通过i2i等手段来召回商品而不是真正从建模用户需求出发。深究这些问题背后的原因其根源在于电商技术所依赖的底层数据缺少对于用户需求的刻画。详细来讲目前淘宝用于管理商品的体系是一套基于类目-属性-属性值CPVCategory-Property-Value的体系它缺乏必要的知识广度以及深度去描绘以及理解各类用户需求进而导致基于此的搜索、推荐算法在认知真实的用户需求时产生了语义的隔膜进而限制了用户体验的进一步提升。为了打破这个隔膜让电商搜索、推荐算法更好地认知用户需求我们提出建立一种新的电商知识图谱将用户需求显式地表达成图中的节点构建一个以用户需求节点为中心的概念图谱链接用户需求、知识、常识、商品以及内容的大规模语义网络阿里巴巴电商认知图谱AlibabaE-commerceCognitiveConceptNet简称AliCoCo。我们祈望AliCoCo能为电商领域的用户理解、知识理解、商品以及内容理解提供统一的数据根底。经过两年度的努力我们已经完成了整体的构造设计以及核心数据的建立并在电商搜索、推荐等多个详细的业务场景落地获得了不错的效果提升了用户体验。AliCoCo如下列图所示AliCoCo是一个概念图谱主要由四局部构成电商概念层E-commerceConcepts原子概念层PrimitiveConcepts分类体系Taxonomy商品层Items在电商概念层E-commerceConcepts作为AliCoCo最大的创新点我们将用户需求显式地用一个符合人话的短语表示为图中的节点如“户外烧烤outdoorbarbecue、“儿童保暖keepwarmforkids等并称之为“电商概念。用户需求固然一直被提及但在电商领域还未被正式地定义过。在很多下游应用如推荐系统的工作中常常用类目或者品类节点商品的分类作为用户需求的表达。但用户需求是远不止于这些的很多场合下用户面临的是一个“场景或“问题他们并不知道详细什么商品可以帮助解决因此我们将用户需求的定义进一步泛化为电商概念详细详见下文章节。所有用于表示用户需求的电商概念组成了这一层。在原子概念层PrimitiveConcepts我们为了更好地理解上面讲到的电商概念即用户需求我们将这些短语进展拆解细化到词粒度用这些细粒度的词来更系统地描绘用户需求这些细粒度的词称为“原子概念。如对于电商概念“户外烧烤而言它可以被表示成“动作烧烤地点户外天气晴这里的“烧烤、“户外以及“晴都是原子概念。所有原子概念组成了这一层。在分类体系Taxonomy中为了更好地管理上述的原子概念我们构建了一个描绘大千世界根本概念的分类体系它不局限于电商领域但目前是为电商领域的概念理解所效劳。在这一层中我们定义了诸如“时间、“地点、“动作、“功能、“品类、“IP等一级分类class并在每个分类下继续细分出子分类形成一颗树形构造。在每个分类中包含了分类的实例instance即原子概念如上述的“烧烤、“户外以及“晴就分属于“动作-消耗性动作、“地点-公共空间以及“时间-天气。同时不同分类之间有不同的关系relation如“品类-服饰-服装-裤子以及“时间-季节之间定义了一个“适用于季节的关系。因此相应的会有一条三元组实例棉裤适用于冬季。假如将上述的分类体系以及原子概念层合起来实际上可以看做一个相对完好的本体Ontology它以及Freebase、DBpedia等大众熟知的开放领域的知识图谱非常相似唯一的区别是我们的实例不仅有实体entity还包括了大量的概念concept。而相比ProbaseConceptNet等概念图谱我们又定义了一套完好的类型系统typesystem。在商品内容层阿里巴巴平台上数十亿的商品以及内容将会以及电商概念、原子概念层进展关联。如以及“户外烧烤相关联的商品可能会包括烧烤架、炭火、食材等等。但这里要注意的一点是有些商品可以关联到“户外烧烤这个电商概念但不一定可以以及相应的原子概念“户外直接关联。对于商品来讲电商概念像是这个商品会被用于的某个场景而原子概念更像是细粒度的属性用于刻画商品的特性。综上所述在AliCoCo的体系中用户需求被表达成短语级别的电商概念。在这之下有一套定义完备的分类体系以及原子概念实例去描绘所有的电商概念。最后电商平台上的所有商品都会以及电商概念或者是原子概念相关联。下面我们详细介绍每一层的细节和在构建经过中所遇到的算法问题。分类体系TaxonomyAliCoCo的分类体系是一个宏大的树形构造包含了百万级别的原子概念实例。由于分类体系的构建对专家知识的要求非常高并且这局部的设计对于整个知识体系都至关重要因此我们人工定义了约20个一级分类下列图其中专为电商领域所设计的有“品类、“图案、“功能、“材质、“花色、“形状、“气味、“口味。每个一级分类还会继续细分为二级、三级直至叶子分类其中对于电商领域最为重要的“品类包含了约800个叶子分类。诸如“时间、“地点、“受众、“IP等分类以及开放领域的知识图谱可以交融如“IP中包含了大量的明星、运发动、电影、音乐等。原子概念层PrimitiveConcepts在原子概念层我们祈望这些细粒度的词可以去完好地描绘所有的用户需求这是用于组成电商概念的根底在这一层我们主要讨论两个问题原子概念词汇的挖掘原子概念之间的上下位关系构建词汇挖掘在定义好分类体系之后一般有两种方式快速扩大分类下的实例词汇。第一种是交融多种来源的构造化数据这种方法采用的技术通常是本体对齐ontologymatching在理论经过中我们主要采用规那么人工映射的方式将不同来源的构造化数据对齐到我们的分类体系进展词汇的交融。第二种是通过在大规模的语料上进展自动挖掘来补充分类下的词汇这里我们将其定义为序列标注任务并采用基于BiLSTMCRF1的模型来挖掘发现分类下的新词。由于叶子分类的数量过于庞大我们使用一级分类作为label先对词汇进展粗粒度的挖掘。上图为BiLSTMCRF模型的简单示意BiLSTM双向LSTM层用于捕捉句子上下位的语义特征而CRF条件随机场层那么用于捕捉当前词的label以及前后词label之间的相关性。而在模型挖掘得到可能属于某个分类的新词之后后续还会经由众包投放审核、外包质检等人工把关环节最终才会入库成为真正的原子概念。不同的原子概念可能拥有一样的名字但分属不同的类别代表了不同的语义每个原子概念有一个ID这也是AliCoCo将来可以用概念消歧的根底。上下位关系构建在某个一级分类下的词汇挖掘到一定量后我们需要继续讲所有词汇分到不同层次的类别中去这个经过可以抽象成为一个上下位关系发现hypernymdiscovery的经过给定一个下位词在词表中找到其可能的上位词。我们采用基于pattern的无监视方法以及基于projectionlearning的监视方法两种方式结合来完成上下位关系的构建。Patternbased基于pattern的方式2是最直观且准确率最高的方法通过归纳以及发现一些可用于判断上下位关系的pattern从文本句子中直接抽取上下位词对。典型的pattern如“XX一种XX、“XX包括XX等。但这种方式的缺点是默认上下位词对在句子中必须共现会影响召回。此外利用中文的一些特点我们可以用过“XX裤一定是“裤子等来自动构建起一批置信度较高的上下位关系。ProjectionlearningProjectionlearning的方式是给定一个下位词embedding以及上位词embedding有监视去学习一个映射函数使得以及尽可能地接近。这方面有很多前人的工作3,4其中有一些工作会先将不同的词进展聚类在每个类别上分别学习不同的映射获得了较好的效果。详细地我们学习一个打分函数用于表征一对候选词之间的上下位关系强弱并使用多个matrix来模拟不同维度的特征隐式的聚类其中第k个score计算如。最后将k个score过一层全连接得到最终的probability。之后我们采用穿插熵损失函数进展训练。模型中使用的预训练的词向量是在前面提到的电商语料上用word2vec进展训练的。同时我们针对局部品类词在语料中出现较为稀疏的问题用ALaCarteembedding5进展了强化其主要思想是学习一个映射关系矩阵利用稀疏词周围的context的embeddings之以及对其进展表征而可以通过利用语料中所有的词进展训练得到Activelearning模型产出候选以及众外包审核是一个同时进展的经过人工审核的数据可以不断反哺强化模型。因此我们在迭代的经过中考虑用activelearning来进一步提升效率降低人工审核的本钱。我们采用了一种uncertaintyandhighconfidence(UCS)的samplingstrategy除了考虑模型难以判断正负的样例之外预测值接近0.5我们还额外添加了一定比例的高置信度判正的样例一起送标这是因为在上下位关系的判别中很容易被诸如同义或相关关系所干扰尤其在前期样本数量少且质量不一和负采样不平衡的情况下模型对于区分相关关系以及上下位的表现不是太好。而通过人工标注纠正这样的判断错误可和时惩罚这一类的误判。实验说明这样的策略可以帮助我们减少35%的人力本钱。电商概念层E-commerceConcepts在电商概念层每一个节点代表了一种购物需求这种购物需求可以用至少一个原子概念来描绘。我们首先介绍电商概念的定义然后介绍电商概念是怎样被挖掘以及生成的最后介绍电商概念以及原子概念之间的链接。电商概念的定义我们定义一个符合标准的电商概念需要知足以下要求1有消费需求即一个电商概念必须可以让人很自然地联想到一系列商品反例如“蓝色天空、“母鸡下蛋等就不是电商概念。2通顺反例如“仔细妈咪肥皂等就不是电商概念。3合理即一个电商概念必须符合人类常识反例如“欧式韩风窗帘、“儿童性感连衣裙等就不是电商概念因为一个窗帘不可能即是欧式还是韩风的而我们通常不会用性感去修饰一件儿童的连衣裙。4指向明确即一个电商概念必须有明确的受众反例如“儿童宝宝辅食等就不是电商概念因为儿童的辅食以及宝宝的辅食差异较大会造成用户的疑惑。5无错别字反例如“印渡神油等。电商概念的生成我们采用一个两阶段的方式来生成电商概念首先我们用两种不同的方式生成大量的候选然后用一个判别模型来过滤那些不知足我们的标准的候选。候选生成候选生成有两种方式一种是从文本语料中去挖掘可能的短语这里我们采用了AutoPhrase6在大规模的语料上进展挖掘语料包括电商生态内的querylog商品的标题、评论还有很多达人商户写的购物攻略等。另一种方式是用词粒度的原子概念进展组合生成短语粒度的电商概念。我们挖掘并人工审核了一些pattern来赋值生成局部pattern如下列图所示我们可以通过“事件用的功能品类这个pattern来生成“旅游用的保暖帽子这样的电商概念。而这些pattern可以以及下面的判别经过结合通过迭代的方式来进展不断地挖掘以及补充。电商概念判别判断一个候选短语是否知足电商概念的要求最大的挑战是上文提到的第三点即“合理要符合人的常识。其他一些要求我们可以通过字级别或者是词级别的语言模型就能过滤掉大局部的badcase但常识错误的识别对机器来讲是非常困难的。此外电商概念判别任务中的候选短语又严重缺少上下文信息进一步增加了判别的难度。为解析决这个难题我们设计了一种知识增强的判别模型如下列图所示整体是一个WideDeep7的构造。在Deep侧我们利用字级别以及词级别的BiLSTM来提取特征同时对于词级别的输入我们还参加了一些词性特征如POStag以及NERlabel等。为了进展知识增强来辅助常识理解我们将局部词链接到Wikipedia上如“性感就可以找到对应的页面。然后将页面上的gloss通常是一段简单的介绍用Doc2vec8的方式进展encode得到知识表达。在经过self-attentionmax-pooling之后将两者交融。在Wide侧我们主要计算了concept的一些统计特征包括了BERT9语言模型产出的ppl值。最后通过一个全连接层我们得到最终衡量一个候选短语是否符合电商概念要求的分数。我们祈望模型能辅助我们过滤掉大量的badcase此后我们对模型判别正确的电商概念通过众包投放审核以及外包多轮质检的方式来保证数据质量。同时审核入库的数据会继续迭代地帮助模型进一步进步准确率。以及原子概念的链接对于那些通过从原子概念组合而得到的电商概念它们天然地以及原子概念关联了起来但对于那些从文本中直接挖掘得到的短语概念我们需要进一步将它们以及原子概念层进展链接以便更好地去理解以及描绘这些用户需求。回首前文提到的电商概念“户外烧烤我们需要预测“户外是一个“地点“烧烤是一个“动作。但“烧烤在我们的体系中也有可能是一个“电影所以这里的难点在于怎样进展消歧。我们把这个任务定义为一个短文本的NER任务由于电商概念普遍只有2-3个词组成缺少上下文也让这个任务具有挑战。为解析决这个问题我们设计了一种文本增强的方式对短文本中待链接的词进展外部上下文的补充用以为消歧带来额外的信息辅助。模型如上图所示左边局部是比拟常规的特征抽取右边是一个信息增强的模块。我们将目的词映射到高质量的外部文本中通过doc2vec将其周边的上下文信息encode成embedding最终最为额外的输入交融到最终的表达中。此外由于局部电商概念中的原子概念可以属于多个类型如“乡村半身裙中的“乡村既可以是“地点可以以是“风格。因此我们将CRF层改为Fuzzy-CRF10用以建模多个正确的label序列商品关联ItemAssociation在构建完原子概念以及电商概念层之后最重要的是将电商平台上的所有商品进展关联。前面提到原子概念更像是属性因此我们更关注商品与电商概念的关联因为后者表达的是一个用户需求常常有着较为复杂的语义。此外电商概念与商品的关联不能直接从对应的原子概念到商品的关联组合得到因为会出现“语义漂移的问题。例如“户外烧烤所需要的商品往往以及属性“户外没有任何关系。我们将这个问题抽象为一个语义匹配semanticmatch11,12的问题因为现阶段我们暂时只用到商品侧标题的信息实际上商品是一个多模态的构造有着非常丰富的文本、图像甚至越来越多的商品开场有了短视频的介绍。这个任务最大的挑战照旧在于我们的电商概念非常简短直接进展匹配往往会遇到诸如某些不那么重要词对结果产生了宏大的影响等问题。针对上述难点我们在语义匹配模型上引入了一些必要的外部知识来提升性能。详细模型如上图所示除了常规的特征抽取attention注意力机制模块等建模商品以及电商概念之间的关联外我们主要做了两个地方的增强1引入了电商概念对应的原子概念的特征表达增加了类型等构造化信息。2引入外部Wikipediagloss对局部词进展知识增强以更好地建立与商品之间的关联。引入这些知识带来的典型的优点例如在关联“中秋节送礼时可以把不包含中秋节字样的的月饼类商品给排上来。应用目前AliCoCo已经根本完成了1.0版本的建立共包含2.8m的原子概念5.3m的电商概念超过千亿级别的关系。淘宝天猫上超过98%的商品均已纳入到AliCoCo的体系之中平均每个商品关联了14个原子概念以及135个电商概念。通过对用户需求的统计相较于之前的商品管理体系AliCoCo对于搜索query中用户需求的覆盖从35%提升到了75%。AliCoCo已经支持了阿里巴巴集团核心电商的多个业务应用这里我们主要介绍在电商搜索以及推荐上已经落地的、正在进展的和将要进展的一些应用。电商搜索相关性是搜索引擎的核心问题其最大的挑战在于用户输入的query以及商品端之间存在语义隔膜。AliCoCo中已经为大量的原子概念以及电商概念关联了相应的商品为商品理解提供了从用户视角出发的大量标签同时AliCoCo包含了大量的同义以及上下位关系这些数据帮助了搜索相关性获得显著的提升进而进一步改善了用户体验。语义搜索以及自动问答一直人们对于搜索引擎的梦想。在电商的场景中我们可以充分发挥AliCoCo的优势当用户搜索命中电商概念的时候通过一个知识卡片的形式透出该电商概念下多样化的商品类似Google的知识图谱帮助搜索引擎在用户检索一些实体时透出知识卡片。如上图a所示当用户在淘宝搜索“烘焙时命中了相应的电商概念“烘焙工具于是会透出一个卡片上面的商品按照不同品类来进展排序展示。此外我们还可以透出一些对于烘焙知识的文字解释用于辅助用户进展决策。而电商场景中的自动问答更多出如今语音交互的场景中我们可以在家里问天猫精灵“周末要组织一场户外烧烤我需要准备哪些东西AliCoCo可以为这样的场景提供底层知识的支持。电商推荐目前电商推荐主要以商品推荐的形式为主但为了知足用户丰富多样的购物需求我们也需要为用户做一些主题式的推荐让用户可以明显感悟到推荐系统能更人性化地在知足其购物需求。AliCoCo中的电商概念正是为了表达用户需求同时2-3个词的长度也非常合适直接推送给用户。如上图b中所示在手机淘宝首页信息流推荐中我们在商品坑位之间插入了以电商概念为主题的知识卡片当用户点击卡片时就会跳到相应的页面展示该电商概念下的商品。这个应用目前已经稳定运行了超过一年度知足了用户多样化的推荐需求进一步提升了用户的满意度。此外电商概念简短的文字也非常合适用作推荐理由展示在商品坑位中进一步吸引用户如上图c所示。AliCoCo为可解释的推荐提供了数据根底。总结为了支持电商技术从个性化时代全面迈入认知智能时代我们投入了宏大的心血以及努力探究并构建了全新一代的电商知识图谱AliCoCo目前AliCoCo已成为阿里巴巴电商核心引擎的底层根底赋能搜索、推荐、广告等电商核心业务。同时通过海量的线上用户反应AliCoCo也在不断地对其自身的构造以及数据进展补充与完善形成了一个良性生长的循环。对于AliCoCo2.0的方向我们将来考虑1继续补充大量电商常识性关系如将电商概念与原子概念的链接从短文本NER扩展成属性推理任务我们需要为“男孩T恤预测出“季节夏天尽管“夏天没有出如今文本之中这样的购物常识对于进一步理解用户需求、改善购物体验是非常有帮助的。2将电商概念以及商品之间的关系建模为概率分根据分数来进一步将用户体感进展分层让用户有更明显的感悟。3AliCoCo将响应集团国际化以及本地化的战略朝着多语言multi-lingual以及餐饮等方向进展探究。参考文献 1ZhihengHuang,WeiXu,andKaiYu.2021.BidirectionalLSTM-CRFmodelsforsequencetagging.arXiv(2021). 2MartiA.Hearst.1992.Automaticacquisitionofhyponymsfromlargetextcorpora.InProceedingsofthe14thconferenceonComputationallinguistics-Volume2,volume2,pages539545.AssociationforComputationalLinguistics. 3JosukeYamane,TomoyaTakatani,HitoshiYamada,MakotoMiwa,andYutakaSasaki.2016.Distributionalhypernymgenerationbyjointlylearningclus-tersandprojections.InProceedingsofCOLING2016,the26thInternationalConferenceonCompu-tationalLinguistics:TechnicalPapers,pages18711879. 4DmitryUstalov,NikolayArefyev,ChrisBiemann,andAlexanderPanchenko.2017.Negativesamplingimproveshypernymyextractionbasedonprojectionlearning.InProceedingsofthe15thConferenceoftheEuropeanChapteroftheAssociationforCompu-tationalLinguistics:Volume2,ShortPapers,pages543550,Valencia,Spain.AssociationforCompu-tationalLinguistics. 5Khodak,Mikhail,etal.Alacarteembedding:Cheapbuteffectiveinductionofsemanticfeaturevectors.arXivpreprintarXiv:1805.05388(2018). 6JingboShang,JialuLiu,MengJiang,XiangRen,ClareRVoss,andJiaweiHan.2018.Automatedphraseminingfrommassivetextcorpora.IEEETransactionsonKnowledgeandDataEngineering30,10(2018),18251837. 7Heng-TzeCheng,LeventKoc,JeremiahHarmsen,TalShaked,TusharChandra,HrishiAradhye,GlenAnderson,GregCorrado,WeiChai,MustafaIspir,etal.2016.Widedeeplearningforrecommendersystems.InProceedingsofthe1stWorkshoponDeepLearningforRec-ommenderSystems.ACM,710. 8QuocLeandTomasMikolov.2021.Distributedrepresentationsofsen-tencesanddocuments.InInternationalconferenceonmachinelearning.11881196. 9JacobDevlin,Ming-WeiChang,KentonLee,andKristinaToutanova.2018.Bert:Pre-trainingofdeepbidirectionaltransformersforlanguageunderstanding.arXivpreprintarXiv:1810.04805(2018). 10JingboShang,LiyuanLiu,XiangRen,XiaotaoGu,TengRen,andJiaweiHan.2018.Learningnamedentitytaggerusingdomain-specicdictionary.arXivpreprintarXiv:1809.03599(2018). 11Po-SenHuang,XiaodongHe,JianfengGao,LiDeng,AlexAcero,andLarryHeck.2021.Learningdeepstructuredsemanticmodelsforwebsearchusingclickthroughdata.InProceedingsofthe22ndACMinternationalconferenceonInformationKnowledgeManagement.ACM,23332338. 12LiangPang,YanyanLan,JiafengGuo,JunXu,ShengxianWan,andXueqiCheng.2016.Textmatchingasimagerecognition.InThirtiethAAAIConferenceonArticialIntelligence.阿里搜索推荐事业部知识图谱、自然语言处理校招/社招阿里搜索推荐算法技术团队负责阿里电商搜索业务致力于研究下一代电商搜索引擎所带来的技术以及业务变革。近年度来在人工智能、信息检索、自然语言处理等前沿领域发表了上百篇国际顶级会议期刊论文充分展现了团队产学研结合的强大技术实力。同时团队以及国内外诸多知名高校、研究机构保持长期的学术合作。这里既有最前沿算法技术的打破又有阿里最大规模的业务场景欢送优秀的你参加我们识别下方二维码或者点击文末“浏览原文查看招聘详情?如今在知乎也能找到我们了进入知乎首页搜索PaperWeekly点击关注订阅我们的专栏吧关于PaperWeeklyPaperWeekly是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。假如你研究或者从事AI领域欢送在公众号后台点击沟通群小助手将把你带入PaperWeekly的沟通群里。PaperWeekly