[2] 淘宝文本中的语义分析以及技术展望.pdf
《[2] 淘宝文本中的语义分析以及技术展望.pdf》由会员分享,可在线阅读,更多相关《[2] 淘宝文本中的语义分析以及技术展望.pdf(38页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、淘宝网语义分析产品、技术介绍 王天舟(空海)淘宝网-交易线-语义分析 个人介绍 花名空海 淘宝网中的文本 淘宝主站:30亿店铺、宝贝浏览 10亿计的在线宝贝数 千万量级交易笔数 文本数据:用户评论 商品标题、详情页 用户query数据 SNS、论坛等其他数据 海量文本数据带来的价值和挑战 有限框架数据的补充、用户UGC信息 如何结构化、高效计算 呈现文本数据挖掘文本价值 文本源数据 抽取特征、构建向量 评估、展现 向量算法 语义分析平台架构总览 评价 详情页 SNS/分享数据 文本 数据 层次聚类 谱系聚类 聚类算法 SVM/ANN/决策树/贝叶斯 分类算法 大家印象 U站推荐 UE反馈 产品
2、 分词/新词 特征计算层 商品标题 词之间相关 序列标注 句法分析 实体语义 北极圈 Kmeans KNN 今天的话题 相关业务场景:标签、内容、分类打标 相关算法和问题 文本技术拓展 文本标签服务 内容相关、相似 框架提取 文本分类 单品标签“大家印象”商品导购标签 标签范围不确定:标签范围不确定:卖家自填商品标签;买家行为标签 通过算法圈定标签,如搜索query:1、关键字聚合(商品重合度购买人群重合度)2、关键字筛选(搜索UV商品数量购买转化)标签范围确定标签范围确定:买家自然属性 BI根据以往数据确定标签范围(如:18岁以下18岁25岁25岁-35岁35岁以上)怎么样的标签的规模是合适
3、的,长尾标签怎么处理?怎么样的标签的规模是合适的,长尾标签怎么处理?需要BI提供数据模型,对标签的规模、数量提供界定范围;根据标签覆盖的商品数来确定需要增加的标签。根据商品和标签的关联性,对商品进行打标。如用户偏好点击、购买、收藏的商品;商品的标题、属性相关性;商品与商品之间的关联性 商品打标 名校大学生 北京白领 白富美 牙痛 情侣 苍老师 头层皮 惠美 小清新 海宁 真皮 深V 禅 西湖 美女送货 24 夜市 复古 胖妞 独家 广货 村姑 原创 卡通 果粉 陌陌 屌 大妈 宅男 高端 90后 婆婆 甜蜜蜜 夜店 结婚 那些事 业务主线人的维度重组推荐 逛店铺.业务框架:类目类目listli
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2 淘宝文本中的语义分析以及技术展望 淘宝 文本 中的 语义 分析 以及 技术 展望
限制150内