Apache Kylin v2.5.0正式发布开源分布式分析引擎-精品文档资料整理.docx

资源ID：73269000 资源大小：16.66KB 全文页数：11页
资源格式： DOCX 下载积分：14.8金币

快捷下载

会员登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要14.8金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

Apache Kylin v2.5.0正式发布开源分布式分析引擎-精品文档资料整理.docx

Apache Kylin v2.5.0正式发布，开源分布式分析引擎文章转载自开源中国作者 Apache Kylin 社区日前 Apache Kylin 社区宣布 Apache Kylin v2.5.0 正式发布。 Apache Kylin 是一个开源的分布式分析引擎旨在为极大数据集提供 SQL 接口以及多维分析 OLAP 的才能。这是继 Kylin v2.4.0 版本后的又一个新功能版本该版本引入了许多极具价值的改良包括但不限于以下几类 All-in-Spark 的 Cubing 引擎 Kylin 的 Spark 引擎将使用 Spark 运行 Cube 计算中的所有分布式作业包括获取各个维度的不同值将 Cuboid 文件转换为 HBase HFile 合并 Segment 合并词典等。默认的 Spark 配置也经过优化使得用户可以获得开箱即用的体验相关开发任务是 KYLIN-3427, KYLIN-3441, KYLIN-3442。 Spark 任务管理也有所改良一旦 Spark 任务开场运行用户就可以在 Web 控制台上获得作业链接假如用户丢弃该作业 Kylin 将立即终止 Spark 作业和时释放资源假如重新启动 Kylin 它可以从上一个作业恢复而不是重新提交新作业。 MySQL 做 Kylin 元数据的存储在过去 HBase 是 Kylin 元数据存储的唯一选择。在某些情况下 HBase 不适用例如使用多个 HBase 集群来为 Kylin 提供跨区域的高可用这里复制的 HBase 集群是只读的所以不能做元数据存储。如今我们引入了 MySQL Metastore 以知足这种需求此功能如今处于测试阶段更多内容参见 KYLIN-3488。 Hybrid model 图形界面 Hybrid 是一种用于组装多个 Cube 的高级模型它可用于局部知足 Cube 的 Schema 要发生改变的情况。这个功能过去没有图形界面因此只有一小局部用户知道它,如今我们在 Web 界面上开启了它以便更多用户可以尝试。默认开启 Cube Planner Cube planner 可以极大地优化 Cube 构造减少构建的 Cuboid 数量进而节省计算/存储资源并进步查询性能。它是在 Kylin v2.3 中引入的但默认情况下没有开启为了让更多用户看到并尝试它我们默认在 v2.5 中启用它。算法将在第一次构建 Segment 的时候根据数据统计自动优化 Cuboid 集合。改良的 Segment 剪枝 Segment 分区修剪可以有效地减少磁盘以及网络I / O 因此大大进步了查询性能。过去 Kylin 只按分区列 (partitiondate column) 的值进展 Segment 的修剪。假如查询中没有将分区列作为过滤条件那么修剪将不起作用会扫描所有 Segment。如今从 v2.5 开场 Kylin 将在 Segment 级别记录每个维度的最小/最大值。在扫描Segment 之前会将查询的条件与最小/最大索引进展比拟, 假如不匹配将跳过该Segment 。更多详情请查看 KYLIN-3370 。在 YARN 上合并字典当 Segment 合并时它们的词典也需要合并。在过去字典合并发生在 Kylin 的 JVM 中这需要使用大量的本地内存以及 CPU 资源在极端情况下假如有几个并发作业可能会导致 Kylin 进程崩溃。因此一些用户不得不为 Kylin 任务节点分配更多内存或者运行多个任务节点以平衡工作负载。从 Kylin v2.5 开场 Kylin 将把这项任务提交给 Hadoop MapReduce 以及 Spark 这样就可以解决这个瓶颈问题更多信息请查看 KYLIN-3471。改良使用全局字典的 Cube 构建性能全局字典 (Global Dictionary) 是 Bitmap 准确去重计数的必要条件。假如去重列具有非常高的基数那么 GD 可能非常大在 Cube 构建阶段 Kylin 需要通过 GD 将非整数值转换为整数尽管 GD 已被分成多个切片可以分开加载到内存但是由于去重列的值是乱序的 Kylin 需要反复载入以及载出 (swapin/out) 切片这会导致构建任务非常缓慢。该增强功能引入了一个新步骤为每个数据块从全局字典中构建一个缩小的字典随后每个任务只需要加载缩小的字典进而防止频繁的载入以及载出性能比以前快3倍。查看 KYLIN-3491 解析更多信息。改良含 TOPN,COUNT DISTINCT 的 cube 大小的估计 Cube 的大小在构建时是预先估计的并被后续几个步骤使用例如决定 MR / Spark 作业的分区数计算 HBase region 切割等它的准确与否会对构建性能产生很大影响。当存在 COUNTDISTINCT TOPN 的度量时因为它们的大小是灵敏的因此估计值可能跟真实值有很大偏向。在过去用户需要调整假设干个参数以使尺寸估计更接近实际尺寸这对普通用户有点困难。如今 Kylin 将根据采集的统计信息自动调整大小估计。这可以使估计值与实际大小更接近。查看 KYLIN-3453 解析更多信息。支持 Hadoop 3.0/HBase 2.0 Hadoop 3.0 以及 HBase 2.0 开场被许多用户采用。如今 Kylin 提供使用新的 Hadoop 以及 HBaseAPI 编译的新二进制包。我们已经在 Hortonworks HDP 3.0 以及 Cloudera CDH 6.0 上进展了测试。所有v2.5.0相关的改动可在 release notes 上找到 s:/kylin.apache.org/docs/release_notes.html 要下载 Apache Kylin v2.5.0 源代码或者二进制包请访问下载页面 :/kylin.apache.org/download/ 晋级参考晋级指南 upgrade guide s:/kylin.apache.org/docs/howto/howto_upgrade.html 原文地址 s:/ 推荐浏览给理工男女的一个神奇网站【完】 2018 AI开发者大会只讲技术回绝空谈 2018 AI开发者大会首轮重磅嘉宾及深度议题现已炽热出炉扫码抢“鲜看。国庆特惠购票立享 5 折优惠

注意事项

本文（Apache Kylin v2.5.0正式发布开源分布式分析引擎-精品文档资料整理.docx）为本站会员（安***）主动上传，淘文阁 - 分享文档赚钱的网站仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知淘文阁 - 分享文档赚钱的网站（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。