2022年超参数的意义 .pdf
《2022年超参数的意义 .pdf》由会员分享,可在线阅读,更多相关《2022年超参数的意义 .pdf(4页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、超参数的意义,并提供某种方法在数据中估计它的标量值。6.1 解释通常意义上, 狄利克雷超参数对多项式参数有平滑影响。通过降低和的值,减少 LDA中的平滑影响, 最终会导致更加直接的话题关联,因而和将变得更加稀疏。由控制的的稀疏性说明模型倾向于赋予每个话题较少的词项,又一次影响模型在数据中已有的话题数量。这意味着为了发现词语同属一个话题,词语之间的“相似” 度需要很高(即是它们在不同的上文中共现的频繁程度1) 。对于稀疏话题,如果K 值更高,模型会与数据更加匹配,因为模型将会最大限度地将多个话题赋予一个词项。这就是模型的学习K 值,例如不带参数的贝叶斯方法 TJB+06的其中一个原因,K 值强烈
2、地依赖于超参数。由控制的稀疏度意味着模型倾向于用更少的话题刻画文档。当超参数、话题数量和模型行为之间的关系是相互的,它可形成具有特定性质的模型,以及对数据的内在特点进行分析。模型质量的试探性,报道性,良好性(见下章,用于分析方法) ,并且GSt04。另一方面,给定话题数量K,从数据中学习和可以用于提高模型质量(指的是估计方法的目标),更进一步说,超参数估计可以揭示建模数据集的特定属性。估计可以指示不同文档的(潜在)语义是相当程度的不同,并且对的估计暗示了一般性的共现词语组有多大。但是,估计超参数的解释并不总是简单的,对文档内容的特定群集的影响尚未得到彻底调查。6.2 抽样了解了很多从数据中学习
3、狄利克雷参数向量的方法,但很遗憾目前还不存在正确的闭合解。最精确的方法是迭代近似方法。Mink00 对此进行了全面的概述。事实上,学习狄利克雷参数的最好办法是使用吉布斯采样(参考等式79)已经得到的结果。例如话题相关性的计数统计信息而不是多项式参数和,对它们进行积分分析。这说明超参数的最佳估计是狄利克雷多项式分布的参数(参考等式52) 。对于对称的狄利克雷分布,对于 LDA更加普遍,在吉布斯采样中运行良好的和估计,却在文字里并未明确的说明。因此这里推荐使用的贝叶斯方法。狄利克雷分布没有减小运算的共轭先验分布,因此不会选择先验。但是,与狄利克雷处理常常一起使用的先验分布是gamma 分布,这种选
4、择被用在了狄利克雷分布上。对于的吉布斯采样的全条件可通过以下方式得到:其中,使用等式 74 中的, 含有 gamma 分布的参数: 形状和标量。这些参数可以通过关于可能的区间和的先验知识进行选择。某个具体的参数集合是“ 引用” 先验, EsWe95中表示的(它在=0 处有一个奇异值,因此在实际的实现中,参数是趋于零的集合,例如NGS+06) 。相似的,的全条件可以通过等式70 得到:1潜在话题常常来源于高阶的共现,例如与共现的与共现代表着和直接的次阶共现关系,等等。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 -
5、 - - - - - - 第 1 页,共 4 页 - - - - - - - - - 注意两个分布和直接含有LDA吉布斯采样的统计参数。可以使用蒙特卡洛模拟的方法从这些分布中采样,从而计算和的值。例如:自适应舍选抽样(ARS GiWi92 ) ,一个从任何log 密度抽样的方法得到,它是提供给这些分布的一个参照。6.3 高效估计作为抽样的替代品,存在一种高效的非迭代方法,能够通过狄利克雷精度找到的最大似然估计。 它基于适合于狄利克雷分布密度的距和多项式参数的距Mink00 。在坍塌的 LDA吉布斯采样中,参数不能够被直接访问,而是使用了点估计,可以通过比率的模型统计量获得。使用Mink00 的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年超参数的意义 2022 参数 意义
限制150内