数据治理专题立足数据标准化框架挖掘基本面量化通用指标.docx
《数据治理专题立足数据标准化框架挖掘基本面量化通用指标.docx》由会员分享,可在线阅读,更多相关《数据治理专题立足数据标准化框架挖掘基本面量化通用指标.docx(20页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据量与丰富度快速提升,但难以直接赋能投研数据爆发趋势难挡,数据质量参差与低价值密度成应用痛点随着智能手机、传感器、新一代无线网络、人工智能技术的应用普及,人们的生产经 营生活都催生出大量的数据,数据规模呈现爆发式增长。根据IDC预测显示,全球数据量 将从2020年的64.2ZB增长到2025年的175ZB,这些数据尤其是其中的另类数据正在不 断翻新投研应用场景,例如,曾有国外分析师借助上百幅沃尔玛停车场的卫星图像统计了 该超市的客流量,并据此对沃尔玛的盈利状况进行了预测,证明了这种方法可以更及时可 靠得帮助分析师获得相应因子;借助自然语言处理(NLP)技术对新闻联播文本数据进行 情绪量化及跟
2、踪,并通过建立相应的择时策略获得了一定的超额利润。由此可见,利用另 类数据可以丰富投研的信息维度,帮助分析师做出更精准的判断。根据Alternative Data 的定义,另类数据作为典型的大数据,具备“5V”的特点: 数据体量大(Volume):数据的采集,存储,管理,分析规模很大,带来由量变引起 质变的数据总量价值。 数据多样性(Variety):另类数据形式多样,并根据数据的产生方式分为社交媒体、 商品评价等个人网络行为产生的数据,交易记录等商业活动数据,卫星图片、全球定 位等地理信息系统(GIS)数据和政策文本等自然语言数据等。 数据时效高(Velodty):相比于传统财务数据,另类数
3、据的获取和传输是实时或接近 实时,可以帮助分析师及时洞察宝贵商机资源。 低价值密度(Value):伴随着物联网的广泛应用,信息感知密度的提升不可避免的稀 释了信息的价值密度。 数据的真实性(Veracity):大数据与真实世界的运转息息相关,因此数据的准确性、 可信赖度和完整度至关重要。不难看出,虽然大数据在投研应用中具有非常广阔的前景,然而低价值密度和数据的 真实性挑战也为其带来了不小的技术门槛,如何在大数据中披沙拣金,定位真实有效的数 据并发掘数据中有价值的信息,是当前研究员面临的难题,也是机器学习和人工智能发展 的目标之一。但受制于技术水平和专家经验上的差异,数据产品在质量上大多存在较大
4、的 参差。在这种背景下,若研究机构存在数据与技术匹配不足,缺乏对数据的逻辑解读,非 常容易陷入数据陷阱,得到与现实存在偏差的结论。主动与量化投资的互相试探,基本面量化有望实现1+12主流投资策略根据研究方法的不同可分为基本面研究和量化研究两类。基本面研究通 常着眼于未来标的的盈利成长空间,对宏观、行业和公司等维度进行分析并形成投资组合, 更加依赖投资经理对产业趋势、基本面、情绪面的把握以及对公司和产业的深度调研。量化 研究则更多通过统计分析来寻找市场规律和不合理的定价,基于统计规律利用部分因子的可 持续性形成投资策略。在投资风格上,基本面研究呈现出研究深度大、投资广度低、图11:中信一级行业政
5、策情绪年度统计示例中信证券 一级行业20182019202020212022年1-9月综合金融0. 000. 001.001.294. 00纺织服装1.001.002. 050. 503.512. 471.021.861.573. 192.91-0. 532. 743.722. 74电力及公用事业0. 821.091.351.662. 13农林牧渔0. 681.321.401.511.63电力设备及新能源1.011.001.461.001.60交通运输0. 35-0. 361.641.271.58消费者服务0. 761.001.761. 181.51机械0. 880. 591.47-0. 08
6、1.48国防和军工0. 850. 331.291.471.40基础化工0. 140. 503. 131.401.27计算机0. 831.000. 981.001. 15家电0. 761.081.221.001.09食品饮料1.020. 951.551.431.02有色金属1.011.882. 091.940. 98商贸零售0. 320. 501.251.440. 94通信0. 621.071.430.950.91建筑0. 791.002. 540.950. 82传媒0. 601.031.790.670. 75电子0. 941.031.230. 140. 59轻工制造0. 381.671.971
7、. 140. 40石油石化-0. 331.000. 880. 600. 36银行-2. 60-1.36-1.06-1.670.21建材1.001.631.470.910. 08非银行金融-0. 85-1.331.02-0. 090. 00综合0. 530. 091.030. 33-0. 47煤炭0.37-0. 971.07-0. 37-1.26钢铁-1.24-0. 83-1.64-2. 09-3.21房地产-0. 170.71-0. 12-1. 11 |-4. 90资料来源:中国政府网,各部委官网,Wind维度2 :景气度模型聚合海量基本面指标,提炼景气变化趋势图12:中观行业景气指数构建步骤
8、标准财务数据集群指标行业归集有效序列、缺失率评价线性回归模型资料来源:基于行业基本面分析逻辑,实时跟踪和预估行业景气程度。本研究的目标得到“现在 时”或者短期“未来时”的行业景气情况。我们首先构建了中观景气度跟踪的数据支持体 系,结合国家统计局、第三方数据商等多个数据源,为覆盖的54个中信证券行业构建代 理指标库,纳入了超过500个行业高频指标,并设计了行业指标库清洗、评价、筛选的程 序化处理流程,最后利用机器学习框架生成行业景气指数,定位是对发布滞后的行业财务指标(如:营业收入、净利润、ROE等)进行预估。在实际投资应用中,面向月度行业配 置,我们基于标准化指标库分别衡量了行业政策情绪、行业
9、景气度以及行业流动性,并进 行月度行业配置。其流程包括数据群构建、代理指标预处理、评价与筛选、行业指数合成 四步。三大底层数据集群构建。对于行业景气度的构建,数据底层主要可以分成三大数据集 群:标准财务核心数据集群、传统另类特色专业数据集群、投研流程数据集群。标准财务 数据集群数据公司指向性明确且财务相关度高,获取自动化容易且数据来源明确,但对于投 资来看附加价值低;特色行业数据标准化程度适中,对投资一般具有高频和前瞻的优势,但 部分数据的可持续性不明确;投研流程数据集群是由分析师在研究过程中产生的数据,如: 财务模型、研报、电话会议、公司调研等。在实际运用中,数据通常是不完整的、不一致的、
10、存在噪声的干扰,而且数据集经常来自多个异种数据源,低质量的数据将导致低质量的数据 应用。表2:三大底层数据集群简介资料来源:数据源分类数据库名称数据来源更新频率标准财务数据集群标准财务数据Wind、巨潮资讯网等季度经济数据国家统计局、工信部、财政部、务部等商月度特色行业数据集群政策文本数据中共中央、国务院、国家部委、 地方政府各周度公司、行业扩产指标各公司扩产能公告月度社媒数据B站、抖音、小红书等月度地产、线下门店数据贝壳、大众点评、百度地图等月度分析师财务模型数据Wind 等月度研报数据Wind 等月度寸父研沉惇双姑果林电话会议进门财经等月度机构调研Wind 等月度指标程序化预处理。行业各项
11、指标通常带有关于单个行业独特的信息,并且来自不同 的部门或者机构,拥有不同的口径。这也导致其类型繁杂、口径不统一、数据质量参差不 齐。因此,我们设计了自动化数据处理流程,主要包括了季节性调整、数据标准化、缺失 值填充等步骤,为了方便接下来的量化分析和指标比较,将所有指标统一到月频、同比增 长率口径:1 .量价指标季节性调整:主要目的是消除季节性因素和月度的系统性偏差,季节性因 素可能包括春节效应。所谓春节效应,是指因春节假期分布的不固定、调休不固定等因素,导 致历年1月、2月的T作日天数不同,进而对指标数据的可比性产生影响.处理方法的基 本思想是把不同的工作日调整为相同的工作日,并假设指标数值
12、和工作日天数成正比。具 体方法为:统计历年1月、2月工作天数Mi、“2,计算1月、2月长期平均开工天数加、 孩 并把按照实际工作日发布的指标数值%,转化为按照平均工作日天数计算的数值/ 能够近似消除春节效应,再将数值统一到同比增长率口径,消除月度的系统性偏差;y = x Afi = 1,2i M i2 .数据标准化:原始指标序列存在多个极值点,直接使用不平稳的序列拟合会导致模 型失效,因此我们采用卡尔曼滤波对序列进行平滑,再强制对0.05, 0.95分位以外的点进 行缩尾处理;x( x/: 二 12 ,兀- xy/n3.插值处理:原始指标序列存在缺失值,基于线性插值法,对序列中需要插值的点的
13、左右邻近两个数据点来进行数值的估计,估值依据是以这两个点的距离来分配比重。指标评价和筛选流程。以主观逻辑选取的指标可能失效,若将整个指标库直接用于模 型训练,模型很难生成期望的景气指数。对此,我们以四维度的指标评价方式,寻求模型 能够大概率得到较优结果的适用条件,从而为指标选取提供定量方法:1 .选取有效序列长度大于10年,至少季频的经济指标。尽可能地降低过拟合风险, 从而使得样本外的预测更为稳健;2 .指标对营收同比的解释度评价。我们使用指标对营收同比开展单元线性回归的声来 刻画解释度,拟合优度越大,指标对预估目标的解释程度越高,指标引起的变动占总变动 的百分比高;另一方面,在拟合景气指数时
14、,采用的机器学习模型具有自我学习能力,能 够筛选出关键的经济数据,可以关注各个指标的特征重要性(模型中所有指标的重要性得 分之和为1),重要性分数越高,说明该指标在模型中区分能力越强。因此,我们根据t检 验值,逐步剔除冗余变量,精简模型;3 .确定指标序列的最优滞后期数。我们分别计算不同滞后期的指标与营收同比的相关 系数,并选择相关性最高的滞后期为最优滞后期数。在计算过程中,如果指标与营收同比 应当呈现正相关,例如:行业主营产品的销量、过固定资产扩张,则仅在正相关的滞后序 列中选取;如果应当呈现负相关,例如:原材料价格、开工率,则仅在负相关的滞后序列 中选取;如果相关性不确定,例如:主营产品价
15、格波动、库存情况,则选择相关系数绝对 值最高的滞后序列;arg max corry), (%, y)正相关opt lay = argmax abs(coQmy,y),(居 y)相关性不确定 arg max corr(-x/ay, y), (%, y)负相关4 .指标序列的数据缺失状况评价。我们计算含缺失值占全体序列的比率来刻画指标序 列缺失状况(缺失率)。在实际建模中,主要面临数据缺失或者披露不及时的问题。例如, 国家统计局发布的发电量指标在每年的1月和2月没有数据,3月份的数据在4月中旬才 发布。对于行业景气度的研究,最好选择有监督学习的机器学习模型。行业基本面因子预估 的研究符合机器学习算
16、法的特点,模型对行业营收同比的预测是一个具体数值,且是有监 督学习,符合机器学习算法中“标注的数据集具有数值型的目标变量”的特点。机器学习算法有其不同的适配和应用场景,能够进一步挖掘传统线性模型以外的非线性信息,可以 作为经典线性回归的补充。梯度提升树(XGBoost)是一种集成式提升算法,通过多个弱学习器(如回归决策树 CART),以串联方式组合起来的一个强学习器,其方式是每次生成下一个弱学习器,把损失 函数的梯度作为学习目标,相当于利用梯度下降法进行优化来逼近损失函数的最小值。具 体的训练流程:模型的每一轮预测都会和真实值有误差,这个误差在统计学上成为残差,下 一轮模型继续对残差进行预测,
17、最后将所有预测结果相加,得到最终结果。图13: XGBoost串行集成算法不意图资料来源:由于机器学习算法参数较多,算法对参数较为敏感。我们对XGBoost模型的重要超 参数组合进行网格搜索,使用交叉验证选择损失值最小的超参数组合作为模型最终选定的 参数集。表3: XGBoost重要模型参数以及参数选择范围资料来源:名称类型选择范围说明弱学习器类型框架参数gbtree每次迭代的弱学习器类型,gbtree为 基于决策树的模型弱学习器个数框架参数3, 5, 8, 10, 15弱学习器的个数,数越多模型越复杂树的最大深度弱学习器参数2, 3, 4, 5树的最大深度越大,模型越复杂学习率弱学习器参数0
18、.025, 0.05, 0.075, 0.1模型收敛速度,学习率越大收敛越快最小的子节点权重弱学习器参数1,3, 5, 7最小子节点权重越大,模型越简单正则项弱学习器参数0, 0.01, 0.1, 1叶子节点分裂所需的最小损失减少 量,值越大,叶子节点分裂越难,算 法越保守依据机器学习交叉验证方法,在时间序列上划分训练集和测试集,取2010年至2020 年的数据作为训练集,2021年的数据作为测试集。在训练集上采用不同的参数组合训练 多个模型,将训练得到的多个模型在测试集上验证,以此来评价模型的性能,选择验证误 差最小的模型作为最终的模型。缸包XGBoost模型交叉验证过程测试误差1测试误差1
19、参数组合1kK模型1数据集训练集测试集测试集3,窝试误差2测试误差n资料来源:机器学习方法可以捕捉符合行业逻辑认知、与营收相关性较弱的经济指标。如汽车行 业的新能源汽车保有量指标相关性较弱,相关系数为0.34;在XGBoost非线性模型中, 该指标的重要性排名位于前五,说明了机器学习在景气度跟踪方面的价值,能够进一步挖 掘传统线性模型以外的非线性信息。资料来源:机器学习方法可以捕捉符合行业逻辑认知、与营收相关性较弱的经济指标。如汽车行 业的新能源汽车保有量指标相关性较弱,相关系数为0.34;在XGBoost非线性模型中, 该指标的重要性排名位于前五,说明了机器学习在景气度跟踪方面的价值,能够进
20、一步挖 掘传统线性模型以外的非线性信息。图15:近三年汽车行业平均特征重要性前五的指标Wind 注:平均特征重要性是指指标历年模型的特征重要性均值从复现度来看,基本面逻辑长期较为稳定的行业表现优异。从行业真实营收同比的复 现度来看,2014-01至2021-09,模型对周期板块(如:钢铁、煤炭、石油石化、有色金属 等)有着较好的拟合效果,拟合指标与真实营收同比的相关系数为0.9左右,说明模型对于 历史数据具有一定拟合能力;但在成长性行业(如:电子、计算机、通信等)效果不佳,主 要是由于行业逻辑随时间不断变化,导致历史数据学习到的统计规律更加容易失效,同时部 分行业很难通过少数基本面指标客观反映
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 治理 专题 立足 标准化 框架 挖掘 基本面 量化 通用 指标
限制150内