欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    数据治理专题立足数据标准化框架挖掘基本面量化通用指标.docx

    • 资源ID:69329024       资源大小:850.51KB        全文页数:20页
    • 资源格式: DOCX        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    数据治理专题立足数据标准化框架挖掘基本面量化通用指标.docx

    数据量与丰富度快速提升,但难以直接赋能投研数据爆发趋势难挡,数据质量参差与低价值密度成应用痛点随着智能手机、传感器、新一代无线网络、人工智能技术的应用普及,人们的生产经 营生活都催生出大量的数据,数据规模呈现爆发式增长。根据IDC预测显示,全球数据量 将从2020年的64.2ZB增长到2025年的175ZB,这些数据尤其是其中的另类数据正在不 断翻新投研应用场景,例如,曾有国外分析师借助上百幅沃尔玛停车场的卫星图像统计了 该超市的客流量,并据此对沃尔玛的盈利状况进行了预测,证明了这种方法可以更及时可 靠得帮助分析师获得相应因子;借助自然语言处理(NLP)技术对新闻联播文本数据进行 情绪量化及跟踪,并通过建立相应的择时策略获得了一定的超额利润。由此可见,利用另 类数据可以丰富投研的信息维度,帮助分析师做出更精准的判断。根据Alternative Data 的定义,另类数据作为典型的大数据,具备“5V”的特点:> 数据体量大(Volume):数据的采集,存储,管理,分析规模很大,带来由量变引起 质变的数据总量价值。> 数据多样性(Variety):另类数据形式多样,并根据数据的产生方式分为社交媒体、 商品评价等个人网络行为产生的数据,交易记录等商业活动数据,卫星图片、全球定 位等地理信息系统(GIS)数据和政策文本等自然语言数据等。> 数据时效高(Velodty):相比于传统财务数据,另类数据的获取和传输是实时或接近 实时,可以帮助分析师及时洞察宝贵商机资源。> 低价值密度(Value):伴随着物联网的广泛应用,信息感知密度的提升不可避免的稀 释了信息的价值密度。> 数据的真实性(Veracity):大数据与真实世界的运转息息相关,因此数据的准确性、 可信赖度和完整度至关重要。不难看出,虽然大数据在投研应用中具有非常广阔的前景,然而低价值密度和数据的 真实性挑战也为其带来了不小的技术门槛,如何在大数据中披沙拣金,定位真实有效的数 据并发掘数据中有价值的信息,是当前研究员面临的难题,也是机器学习和人工智能发展 的目标之一。但受制于技术水平和专家经验上的差异,数据产品在质量上大多存在较大的 参差。在这种背景下,若研究机构存在数据与技术匹配不足,缺乏对数据的逻辑解读,非 常容易陷入数据陷阱,得到与现实存在偏差的结论。主动与量化投资的互相试探,基本面量化有望实现1+1>2主流投资策略根据研究方法的不同可分为基本面研究和量化研究两类。基本面研究通 常着眼于未来标的的盈利成长空间,对宏观、行业和公司等维度进行分析并形成投资组合, 更加依赖投资经理对产业趋势、基本面、情绪面的把握以及对公司和产业的深度调研。量化 研究则更多通过统计分析来寻找市场规律和不合理的定价,基于统计规律利用部分因子的可 持续性形成投资策略。在投资风格上,基本面研究呈现出研究深度大、投资广度低、图11:中信一级行业政策情绪年度统计示例中信证券 一级行业20182019202020212022年1-9月综合金融0. 000. 001.001.294. 00纺织服装1.001.002. 050. 503.512. 471.021.861.573. 192.91-0. 532. 743.722. 74电力及公用事业0. 821.091.351.662. 13农林牧渔0. 681.321.401.511.63电力设备及新能源1.011.001.461.001.60交通运输0. 35-0. 361.641.271.58消费者服务0. 761.001.761. 181.51机械0. 880. 591.47-0. 081.48国防和军工0. 850. 331.291.471.40基础化工0. 140. 503. 131.401.27计算机0. 831.000. 981.001. 15家电0. 761.081.221.001.09食品饮料1.020. 951.551.431.02有色金属1.011.882. 091.940. 98商贸零售0. 320. 501.251.440. 94通信0. 621.071.430.950.91建筑0. 791.002. 540.950. 82传媒0. 601.031.790.670. 75电子0. 941.031.230. 140. 59轻工制造0. 381.671.971. 140. 40石油石化-0. 331.000. 880. 600. 36银行-2. 60-1.36-1.06-1.670.21建材1.001.631.470.910. 08非银行金融-0. 85-1.331.02-0. 090. 00综合0. 530. 091.030. 33-0. 47煤炭0.37-0. 971.07-0. 37-1.26钢铁-1.24-0. 83-1.64-2. 09-3.21房地产-0. 170.71-0. 12-1. 11 |-4. 90资料来源:中国政府网,各部委官网,Wind维度2 :景气度模型聚合海量基本面指标,提炼景气变化趋势图12:中观行业景气指数构建步骤标准财务数据集群指标行业归集有效序列、缺失率评价线性回归模型资料来源:基于行业基本面分析逻辑,实时跟踪和预估行业景气程度。本研究的目标得到“现在 时”或者短期“未来时”的行业景气情况。我们首先构建了中观景气度跟踪的数据支持体 系,结合国家统计局、第三方数据商等多个数据源,为覆盖的54个中信证券行业构建代 理指标库,纳入了超过500个行业高频指标,并设计了行业指标库清洗、评价、筛选的程 序化处理流程,最后利用机器学习框架生成行业景气指数,定位是对发布滞后的行业财务指标(如:营业收入、净利润、ROE等)进行预估。在实际投资应用中,面向月度行业配 置,我们基于标准化指标库分别衡量了行业政策情绪、行业景气度以及行业流动性,并进 行月度行业配置。其流程包括数据群构建、代理指标预处理、评价与筛选、行业指数合成 四步。三大底层数据集群构建。对于行业景气度的构建,数据底层主要可以分成三大数据集 群:标准财务核心数据集群、传统另类特色专业数据集群、投研流程数据集群。标准财务 数据集群数据公司指向性明确且财务相关度高,获取自动化容易且数据来源明确,但对于投 资来看附加价值低;特色行业数据标准化程度适中,对投资一般具有高频和前瞻的优势,但 部分数据的可持续性不明确;投研流程数据集群是由分析师在研究过程中产生的数据,如: 财务模型、研报、电话会议、公司调研等。在实际运用中,数据通常是不完整的、不一致的、 存在噪声的干扰,而且数据集经常来自多个异种数据源,低质量的数据将导致低质量的数据 应用。表2:三大底层数据集群简介资料来源:数据源分类数据库名称数据来源更新频率标准财务数据集群标准财务数据Wind、巨潮资讯网等季度经济数据国家统计局、工信部、财政部、务部等商月度特色行业数据集群政策文本数据中共中央、国务院、国家部委、 地方政府各周度公司、行业扩产指标各公司扩产能公告月度社媒数据B站、抖音、小红书等月度地产、线下门店数据贝壳、大众点评、百度地图等月度分析师财务模型数据Wind 等月度研报数据Wind 等月度寸父研沉惇双姑果林电话会议进门财经等月度机构调研Wind 等月度指标程序化预处理。行业各项指标通常带有关于单个行业独特的信息,并且来自不同 的部门或者机构,拥有不同的口径。这也导致其类型繁杂、口径不统一、数据质量参差不 齐。因此,我们设计了自动化数据处理流程,主要包括了季节性调整、数据标准化、缺失 值填充等步骤,为了方便接下来的量化分析和指标比较,将所有指标统一到月频、同比增 长率口径:1 .量价指标季节性调整:主要目的是消除季节性因素和月度的系统性偏差,季节性因 素可能包括春节效应。所谓春节效应,是指因春节假期分布的不固定、调休不固定等因素,导 致历年1月、2月的T作日天数不同,进而对指标数据的可比性产生影响.处理方法的基 本思想是把不同的工作日调整为相同的工作日,并假设指标数值和工作日天数成正比。具 体方法为:统计历年1月、2月工作天数Mi、“2,计算1月、2月长期平均开工天数加、 孩 并把按照实际工作日发布的指标数值%,转化为按照平均工作日天数计算的数值/ 能够近似消除春节效应,再将数值统一到同比增长率口径,消除月度的系统性偏差;y = x Afi = 1,2i M i2 .数据标准化:原始指标序列存在多个极值点,直接使用不平稳的序列拟合会导致模 型失效,因此我们采用卡尔曼滤波对序列进行平滑,再强制对0.05, 0.95分位以外的点进 行缩尾处理;x( x/: " 二 12 ,兀- xy/n3.插值处理:原始指标序列存在缺失值,基于线性插值法,对序列中需要插值的点的 左右邻近两个数据点来进行数值的估计,估值依据是以这两个点的距离来分配比重。指标评价和筛选流程。以主观逻辑选取的指标可能失效,若将整个指标库直接用于模 型训练,模型很难生成期望的景气指数。对此,我们以四维度的指标评价方式,寻求模型 能够大概率得到较优结果的适用条件,从而为指标选取提供定量方法:1 .选取有效序列长度大于10年,至少季频的经济指标。尽可能地降低过拟合风险, 从而使得样本外的预测更为稳健;2 .指标对营收同比的解释度评价。我们使用指标对营收同比开展单元线性回归的声来 刻画解释度,拟合优度越大,指标对预估目标的解释程度越高,指标引起的变动占总变动 的百分比高;另一方面,在拟合景气指数时,采用的机器学习模型具有自我学习能力,能 够筛选出关键的经济数据,可以关注各个指标的特征重要性(模型中所有指标的重要性得 分之和为1),重要性分数越高,说明该指标在模型中区分能力越强。因此,我们根据t检 验值,逐步剔除冗余变量,精简模型;3 .确定指标序列的最优滞后期数。我们分别计算不同滞后期的指标与营收同比的相关 系数,并选择相关性最高的滞后期为最优滞后期数。在计算过程中,如果指标与营收同比 应当呈现正相关,例如:行业主营产品的销量、过固定资产扩张,则仅在正相关的滞后序 列中选取;如果应当呈现负相关,例如:原材料价格、开工率,则仅在负相关的滞后序列 中选取;如果相关性不确定,例如:主营产品价格波动、库存情况,则选择相关系数绝对 值最高的滞后序列;arg max corry), (%, y)正相关opt lay = argmax abs(co"Qmy,y),(居 y)相关性不确定 arg max corr(-x/ay, y), (%, y)负相关4 .指标序列的数据缺失状况评价。我们计算含缺失值占全体序列的比率来刻画指标序 列缺失状况(缺失率)。在实际建模中,主要面临数据缺失或者披露不及时的问题。例如, 国家统计局发布的发电量指标在每年的1月和2月没有数据,3月份的数据在4月中旬才 发布。对于行业景气度的研究,最好选择有监督学习的机器学习模型。行业基本面因子预估 的研究符合机器学习算法的特点,模型对行业营收同比的预测是一个具体数值,且是有监 督学习,符合机器学习算法中“标注的数据集具有数值型的目标变量”的特点。机器学习算法有其不同的适配和应用场景,能够进一步挖掘传统线性模型以外的非线性信息,可以 作为经典线性回归的补充。梯度提升树(XGBoost)是一种集成式提升算法,通过多个弱学习器(如回归决策树 CART),以串联方式组合起来的一个强学习器,其方式是每次生成下一个弱学习器,把损失 函数的梯度作为学习目标,相当于利用梯度下降法进行优化来逼近损失函数的最小值。具 体的训练流程:模型的每一轮预测都会和真实值有误差,这个误差在统计学上成为残差,下 一轮模型继续对残差进行预测,最后将所有预测结果相加,得到最终结果。图13: XGBoost串行集成算法不意图资料来源:由于机器学习算法参数较多,算法对参数较为敏感。我们对XGBoost模型的重要超 参数组合进行网格搜索,使用交叉验证选择损失值最小的超参数组合作为模型最终选定的 参数集。表3: XGBoost重要模型参数以及参数选择范围资料来源:名称类型选择范围说明弱学习器类型框架参数gbtree每次迭代的弱学习器类型,gbtree为 基于决策树的模型弱学习器个数框架参数3, 5, 8, 10, 15弱学习器的个数,数越多模型越复杂树的最大深度弱学习器参数2, 3, 4, 5树的最大深度越大,模型越复杂学习率弱学习器参数0.025, 0.05, 0.075, 0.1模型收敛速度,学习率越大收敛越快最小的子节点权重弱学习器参数1,3, 5, 7最小子节点权重越大,模型越简单正则项弱学习器参数0, 0.01, 0.1, 1叶子节点分裂所需的最小损失减少 量,值越大,叶子节点分裂越难,算 法越保守依据机器学习交叉验证方法,在时间序列上划分训练集和测试集,取2010年至2020 年的数据作为训练集,2021年的数据作为测试集。在训练集上采用不同的参数组合训练 多个模型,将训练得到的多个模型在测试集上验证,以此来评价模型的性能,选择验证误 差最小的模型作为最终的模型。缸包XGBoost模型交叉验证过程测试误差1测试误差1参数组合1kK模型1数据集训练集测试集测试集3,窝试误差2测试误差n资料来源:机器学习方法可以捕捉符合行业逻辑认知、与营收相关性较弱的经济指标。如汽车行 业的新能源汽车保有量指标相关性较弱,相关系数为0.34;在XGBoost非线性模型中, 该指标的重要性排名位于前五,说明了机器学习在景气度跟踪方面的价值,能够进一步挖 掘传统线性模型以外的非线性信息。资料来源:机器学习方法可以捕捉符合行业逻辑认知、与营收相关性较弱的经济指标。如汽车行 业的新能源汽车保有量指标相关性较弱,相关系数为0.34;在XGBoost非线性模型中, 该指标的重要性排名位于前五,说明了机器学习在景气度跟踪方面的价值,能够进一步挖 掘传统线性模型以外的非线性信息。图15:近三年汽车行业平均特征重要性前五的指标Wind 注:平均特征重要性是指指标历年模型的特征重要性均值从复现度来看,基本面逻辑长期较为稳定的行业表现优异。从行业真实营收同比的复 现度来看,2014-01至2021-09,模型对周期板块(如:钢铁、煤炭、石油石化、有色金属 等)有着较好的拟合效果,拟合指标与真实营收同比的相关系数为0.9左右,说明模型对于 历史数据具有一定拟合能力;但在成长性行业(如:电子、计算机、通信等)效果不佳,主 要是由于行业逻辑随时间不断变化,导致历史数据学习到的统计规律更加容易失效,同时部 分行业很难通过少数基本面指标客观反映行业景气度。图16:钢铁拟合指标和营收同比走势(r=0.94)图17:煤炭拟合指标和营收同比走势(r=0.94)拟合指标营收同比()4080拟合指标营收同比(% )506040203020o1120一Tc cccc 69Rod go,RO<J OR。 6。宫。7 gooeoCM Looeod 696L0Z 90,63CM L96SQ 60,85CM goaoCM Locosz 6。,二。CM 99ZSCM Ln 60,93CM go,98CM L998CM 6。,史。 goLOse Lolnse 60,F0e g。,寸sd 二04SC o-240Tc CCCC 60 二 Zoe 3二CMoe 600。 gooCMoe soeod 696SOU g。,68CM L963d 60CO5OJ gocose LO008OJ 60,二。e g9z5e 3M3C 699S。 goCDoCM 0957 6。,归。 goussou ogse 604SC gosse LO4OCM 20一100. 80, 60, 40, 20. 0- -20- -40Wind注:r表示行业拟合指标和真实营收同比的相关系数Wind注:r表示行业拟合指标和真实营收同比的相关系数维度3 :行业流动性多维指标对比历史分位,刻画市场交易热点多维度数据趋势聚合,构建行业月度流动性指标。考虑成交量、机构行为和融资融券 三个维度,在每个维度下将多个个股指标按照月度进行加总,得到月度个股原始流动性指 标。对不同维度多个原始流动性指标通过PCA方法聚合得到“成交量PCA聚合”、“机构 行为PCA聚合”、“两融PCA聚合”三个综合指标流动性PCA综合指标”是通过“成 交量PCA聚合”、“机构行为PCA聚合”、“两融PCA聚合”三个指标再次通过PCA方法 聚合得到。图18:流动性指标构建结果展示(2022年9月)中信证券 一级行业资金净流入成交量机构行为两融增减持IPO聚合指标净流入金 额(万元)净流入量(手)成交笔数 (笔)成交 (手)成交金额 (千元)月换手率机构买入 金额(万元)机构买入 总量(手)机构卖出 金额(万 元)机构卖出 总量(手)融资买入 额(元)融资偿汪 额(元)融资余额 (元)融券卖出 量(手)融券偿汪 量(手)融券余额(元)重要股东 增持衷要股东 减持开集万 首发资流动性 综合指标 PCA环比变化煤炭78. 262. 658.2、42.6%46.46. 5%29. 1、32.2%28. 5%30. 3%40. 1,43.8%74. 3%82.6%99.5%100.0%1.2%21.9%一曜10. ?!-0.29 ;石油石化36. 8、50. 1%62.8%39. 3%43.8%100.0%27.2%24.8%27.6%25. 6%21.4%25.3*81.2%50. 0%58.4%88. 7%0. 1%5.5%2.5%0. 11-0. 19 1.房地产78. 8%75. 9%55. 7%49.6%43. 3%59. 3%17.9%29.9%12.7%26. 1%4.9$8.9$14.9,42. 1%39.6%':!. :!;3. 1节31.7%0.0%0. 3 10. 22电力及公用事业57. 6%56.5%57.9%35. 7%32.6、14. 3%18. 5、19. 3%19. 5;,20.0%19.4«22.7*467.0%59. 8%73.9%34. 2%8.2%19.0%0.0%0. 2 1-0.E4 消费者服务58. I、63.6%53. 1%48. 8%35.9、10. 9%6. 1S29. 1%5.3、19.9%11.8%18.5%64. 4%55. P,59.5%19. 4%0.0%16.9%0.0%0. 10. 14综合27. 4%20. 0%55. 9、51. 5%45. 8、60. 7<21. 1、23.6%23.8%29.222.7%25.5%70.8%57.5%55.2%69.2%6.6%18. 7%0.0%0. 14M 5 |轻工制造41. 0%42. 0%64. 0、35. 3%32. 1、50. 8%16.8、14. 0%12.5%11.6*8.8%10.6%59.2%100. os100.0%68. 2%8.0%18. 7%8.8%0.(:0. 02建材41. 3、37. 1$55. 5、37. 4%32.7%13. 3、14.8%22. 4、14.6、21. 5%2.8、5.6%66. 7%69. 6%72.0%31.0%100.0%64. 1 %55.9%o. a4 商贸零售42. I、13.4、58.8、38.9%19 1、46. 6%2.9、10.9%2.5、12. 6、7. 8.8%31. 5%18. 3%19.4%67. 1%10.8%62. 1%0.0%0.(0. 08基础化工27.6%30.7%50.8%28. 2%29.3、11.2%11.8、10.612. 111. 1%17. 3%19.6%84. 4%76.0%84. 5%61.8%13.0%29.3%34. 2%-0. 2-0.19 1机械52. 9%50.5%56. 6、44. 2%44. 6、42. 2%24.8%21. 1%23.6%23.2%23. 3%27.0%74. 9%46. 9%39.5%87.5%3.2%26.3%16.4%-0. 51.78 |!电力设备及新能源37. 9%39. 1%53. 3、31. 8%41.5、38. 7%27.9%14.8%28. 0%15. 1%21. 0%27. 1%75.0%61. 3%67. 1%85.0%67.7%28.8%55.9%-0. 7-1. 39 J通信69. 52.2、51. 734. 2%16.2%34. 3%6.5、16.2%5.9、I4.fi4. 4、5.2%23. 1%54. 6、60. 1%34. 8%65.4、55. 1 9.2%-0. 7-O.4:国防军工61.0、52.5%46.0、23. 5%30.5、29.3%14.7%13. 113. 7'13. 0%15. 7%19.3062.4%68.2%81.9%100.0%10.9%36.3、17.8%-0. 0-Q.13 建筑60. 8%50. 3%50.947. 0%36. 5%36. 0%21. 8、31.0%17.2%23.0%12.2%15.8、61. 3%25. 2%25. 3%62.6%9.4、8.3%0.0%-0. 2-0. 27 |家电66. 3、62. 4、75.8S41. 8、-11.159. 1%20. 721.2%15. 1%17. 1%8.9、12.6%60.3%26. 1%31.0%26.2%14.0%16.0%0.0%-0. 34).(9 |纺织服装62.64. 9、83.4、36.9%36.2%57. 5S13.5%23.2%12.6、15. 1%18.9%20.5%61.9%18.6%18.2%;遇13.6%30. 1 %24.9%-0. 90. 16 )汽车57. 3、63. 3 也54. 1 %30. 7!39.8%31. 6%24. 7y21.2«l27. 4、23.9、21. 7、26.7%76. 6、27. 4%35. 6a25. 2%3.8*35.3%0.0%.5-1. 33 1有色金属32. 5%35.3%46. 4、29. 1、28.8、27. 6、17. 1%16.3%17. 7'15. 5%19.2%22.0%71.4'63.9,59.7%67.2%17.3%24.0%0.0%.8-OJ9 !交通运输61. H18. 4%80.0、73. 4%77. 1%65. 8%38. 4%37.5%38. 6%36. 133. 8»,40.6%63.9%66. 6%28.2%100. 00.0%27.0%0.0%,0-0.(4 :钢铁24. 5%16.8%26.8、17.9%16.8、35. 7%10.9%11.4%9.7'10.2%10.9%13.3%50. 145. 1%56.7%31.3%1.0%30.8%0.0%.3-0. 271非银行金融67. 5%50.7%21.2、7. 6%1.5%21.0%0.4、1. 3%0.8、0.9%0. 10.6%40. 5<18.3、37.0%23. 1%3.4%12.5%0.0%.1261银行74. 3%76.收51. 4_21.9i18. 617.1%5. 8工14.8%_5.213.49. 015.9 缸48. 2%39. 7%29. 3i_9.3、3. 7V7.6%0.0%.50. 09食品饮料13. 6、11. 055. P3s. 3%24. 0%52. 0%0.0、1 O 9«l1R0.0%14. 3%0.0%2.6%69. 563. 0%47.7%23. 2%0.5%36.9%18.2%.9-0. 161传媒36. 1%22. 1%32. 521.9%8.2、11. 4%0.0%2.5%0. 1%4.9%0.8、2.3%61. 5%14. 5%44. 9%55. 9%3. 1%24.2%16. 8%,3<';医药70. 677.0%30. 212. 3%15. 119. 5%0.0、0.9%0.0、0.2%0.9、5.3%62. 2%60. 0%53.9%18. 9%2.7%16.6%17.9%.4£23 |;综合金融77. 7、11.5%23. 8S8.3%1.8、11. 4%0.0、0. 3%0.7、2. 3%0.9、1. 1%20. 8<19. 0%14.5%55. 9% (0.0%0.0%0.0%. 40.23 ;电子53. 5、51. 4%35. 49.914. 135. 2%2.3、1. N3.0工2. 18. 1%6.2%74. 2、45.3%63. 5%51. 1 %MS10. 2%19. 0%-0. 2-1. 51农林牧渔39. 3、32.3%41. U16.0%7.8%27.2%0.0*0.8%0.011.0%0. 040.0工42. 8、42. 0%50.2$29.0%0.0今97.8、2.9%-0.-O. 5,计算机68.150.7s25.8、8. 5%0.0、31. 1%0. 5%0.0%1.5%0.0%0.0%0.0%43. 6%35. 0%38.7%58. 4%23. 2%25. 84.5$-0. 1-0.1-Wind,测算I标准化数据资产存储与调用原始数据的存储与调用父系型数据库(Oracle )可以结构化存储大量的原始数据,方便进行有效的存储和管 理。数据库能够实现对海量原始数据进行访问、存储、管理等操作;主要表现在数据共享、 数据集中控制、数据维护性、数据安全性、数据一致性等方面。由于,目前大多数原始数 据能够以二元关系表示,可以用关系型数据库将复杂的原始数据以二维表的格式进行存储。图19:维度1政策文本数据存储格式政策发布时间政簟正文政策发布单忖攻箪文号政策'刑技 产业相关竹政微。消费 产相关依政戢基地 卢相关性政策,切施 产业和美性行相关愎政戢。农林 致油行业相 美性政第4用权政策被财经2022-06-07 00:00:00关于通步推动新*优籍参与电力市场和重度坛州的通知%缴助新P储8发改委发改办运行(20221 4750.03730.00110.002S0.9880.001730.0000482022-06-23 00:00:00国务院XiTR弘数了政引法设的瓶号第W.$现.为应人效7国务院国发(2022) H 号0.06370.00 的0.00100.00560.00180.00130.0000392022-0-17 11:04:45五品门关于浮动轻工业高啦0"展的揖早意见A经定.如内需工信部工信却疑消费(2022) 3号0.08270.08270.00940.10380.00190.0M00.0000232022-0-14 00:00:00国务庆关于印发广州南沙洋化面向世界的学通澳全台什总体方案 的通知P.收我所低机国务院国发(2022) 13 号0.Z890.01070.01750.00150.002«0.0000202022-06-13 00:00:00国务贷办公rr关于避独程选&以卜力政体m改革工作的指悖理处体制改革和建立国务院国办发12022)20号OlOOOO0.00000.00050.00000.00040.00000.0000192O22-OG-O7 10:05:17国*发域或革委办公厅3*舱源用煤合司关迸加猿助新中幺 能叁。电力市场和调网必用的通知W期也等优给.国京帔源同发改办母行(2022) 475号0.03520.00090.0030098090.00150.0000182032-06-29 08:45:00工业和信息化的等六笛门大于印发I:业能我提升打动“疑的引立精市通信旨JIfS«EttttRW20221 76片0.01750.00090.00760.0005a oom0.0000182022-06-07 00:00:00国务院关于-卜四五一新型城锹化女他方案的假复安全发展.13务院田函(2022) 52 号0.00070. OOJ5g0.01500.00040.00090.0000162022-06-02 22:37:00中国银保由会办公厅关于退力做好受限情影响国雇行业企业等金 融恨芬的殖让信贷先舞持缄银保物公例保龄办发(20221 64号0.00370. 06560.00370.00070.00060.0013102022-06-07 00:00:00关丁犷大全WflifJB依税留跃樱族政策行业菰国的公告 一'.、林、ft«««0.00000.000820.00320.00000.00000.000092022-06-09 00:00:00国务忘办公厅关干H2O2I年落实百美«大政第指篇真灵实干成依明 髭地方F以*自渔劝的曲步新发梅冏.A国务院国办发(M221号0.09010.00570.00120.00000.00000.00000.000082022-06-29 00:00:00国务辕关税税则金员会关于对美加怔关税曲品今八次掉陈亚胡消柒 的公令3.缰谖不加怔财政部0.00000.00000.00000.00120.00000.000082022-06-28 00:00:00关于印发浊介iT螳收费专班整治行动方案)的通颊发改委发改阶格(2022 9泗0.01130.00090.09810.00090. 00260 000042022-06-01 21:43:44业和信息化部关于印发优M中小企业帏度焙UW声誉行办法 的他知国中小企业悔笠4Xffi«工信3:企业(20221 63号0.00210. 00300.00270.00090.00000.00180.000032O22-OMI7 00:00:00XH卬发革命2区变点城出妁”介作工作方篁的婚知E病城多建设部、发改委发,欠振共12022)7M号0.00080.00130.28140.00000.00000.00000.000032022-06-10 00:00.00国务除办公厅关印发

    注意事项

    本文(数据治理专题立足数据标准化框架挖掘基本面量化通用指标.docx)为本站会员(太**)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开