企业文化专题研究:定量视角看企业文化_基于机器学习的研究.docx
《企业文化专题研究:定量视角看企业文化_基于机器学习的研究.docx》由会员分享,可在线阅读,更多相关《企业文化专题研究:定量视角看企业文化_基于机器学习的研究.docx(36页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、企业文化专题研究:定量视角看企业文化_基于机器学习的研究1、引言本文利用最新的机器学习技术(词嵌入模型),基于 209480 份财报电话会议 记录文本数据,生成了一套文化词典;而后分别针对创新、诚信、质量、尊重 和团队合作五大价值观,对 2001-2018 年间每家企业的企业文化进行年度打分。 相比于传统的基于研发支出和专利数量的企业创新能力度量方法,本文的企业文 化度量方法可以反映企业的更多信息,涉及的范围更为广泛。此外,通过实证, 我们发现企业文化与企业业务成果之间存在相关性(业务成果包括经营效率、风 险承担能力、盈余管理能力、高管薪酬设计、企业价值和交易能力)。并且在经 济不景气的情况下
2、,企业文化与企业绩效的联系更加紧密。最后,本文提供了一 些具有启发性的证据,表明企业文化可以由重大的企业事件(例如兼并和收购) 塑造。什么是企业文化?据 OReilly 和 Chatman (1996, p. 160),企业文化是“一 个共用的价值观系统和一套组织成员的态度行为准则”。与根深蒂固的国家文化 价值观不同的是,企业文化具有路径依赖性,并且可以被某些企业事件改变和塑 造 (Weber、Shenkar 和 Raveh 1996; Guiso、Sapienza 和 Zingales 2015; Graham et al. 2018; Grennan 2018)。企业文化之所以重要,是因为
3、企业员工难免会面临无法被 事先妥当规范的情景 (OReilly 1989; Kreps 1990)。尽管这一主题非常重要,然 而现存文献对大样本的研究仍十分有限,这可能是由于企业文化的概念比较模糊, 导致了实证研究中的度量问题在本文中,我们提出了一种半监督机器学习方法来衡量企业文化。我们的出 发点是标普 500 中的企业在其网站上常提及的五个价值观(Guiso、Sapienza 和 Zingales 2015):“创新”、“诚信”、“质量”、“尊重”和“团队合作”,这其中的每 一个词汇都代表了企业的核心价值观。我们通过引入一种量化文本的新型机器学 习方法(Mikolov 等人,2013 年;w
4、ord2vec 模型),基于词嵌入模型对金融和会 计领域相关研究做出了重要的方法论贡献。首先,本文基于词嵌入模型训练了一 个神经网络模型,针对财报电话会议文本数据,通过联系上下文的方式来学习其 中所有单词和短语的含义。然后,基于该模型的结果,我们构建了一套“文化词 典”,其中包含了与每个文化价值观密切相关的单词和短语。例如,这个神经网 络会自动学习像“联盟(alliance)”和“生态系统(ecosystem)”这样的单词、像 “双赢(win-win)”这样的短语、甚至是像“肩并肩(shoulder to shoulder)”和 “亲密的(hand in glove)”这样的俚语,然后将其分类
5、为企业文化词典中的“团队 合作”部分。接着,通过对会议记录中的该类单词和短语进行加权频率计数,我 们可以得到一个企业在“团队合作”这一项的得分。使用财报电话会议记录来计算企业文化的得分的原因如下:第一,高管团队 会极大地影响一个企业目前的文化(例如,Guiso, Sapienza 和 Zingales 2015; Graham 等人 2019)。Guiso、Sapienza 和 Zingales (2015)进一步说明,要想使一个 特定的价值观深入人心,企业领导必须以身作则,践行并宣传这个价值观。如果 管理者可以做到“言行一致”,那么其在电话会议中的发言在一定程度上可以真实反映公司的价值观。第
6、二,财报电话会议的主要目的并不是讨论一个企业的价值 观,而是企业的经营和绩效。一个企业的网站或者新闻稿中所描述的信息并非一 定有效,因为在那里他们将相对容易地运用“套话”来宣扬他们的价值观。为了确 保信息有效,我们衡量企业文化时使用的是电话会议中的问答环节(QA),而 不是演讲的部分,以此减少企业过度的自我营销问题。在问答环节中,管理者几 乎没有机会选择要讨论的主题 (Lee 2016)。第三点,我们的方法判别并分类了与 特定的企业文化最相关的单词和短语,创建了一个相对详尽的文化词典。此外, 我们的方法在对企业文化进行打分时,对出现得较频繁的单词/短语赋予了更低 的权重这将有助于解决过度关注“
7、声明”价值观的问题。在打分之前,我们也 会删除主观感情色彩过于浓重的段落(Larcker 和 Zakolyukina 2012)。正如 Loughran 和 McDonald (2011)所指出的,电话会议记录中的非平凡的词语会不可 避免地面临被错误分类的问题,我们关心的是错误分类的情况占比有多少。在本 文中,我们将尽可能地用通俗易懂的语言,介绍一种全新的机器学习方法,助力 金融和会计领域的研究。首先,本文基于 2001 至 2018 年间 Thomson Reuters StreetEvents 数据库中的 209480 份财报电话会议记录,训练了词嵌入模型,获得了 7501 个不同企业的企
8、 业文化价值观(共 62664 条企业的年度数据)。我们选择运用“创新”、“诚信”、 “质量”、“尊重”和“团队合作”这些最成熟、最实用的指标,来检验我们的企业文 化衡量方法的有效性。我们发现企业文化价值观与这些标志有很强的正相关关系。 同时,我们也将本文基于 QA 部分的度量方法与基于以下内容的度量方法进行了 比较:(a)基于整个电话会议(包括讲演部分和 QA 部分);(b)对 QA 部分的种子词语的简单统计,包括一些表示价值观的词语,如 “创新”;(c)将词嵌入模型应用于年度报告( 10 - Ks )中的管理层讨论与分析部分(MD & A)。接下来,我们将探讨强大的企业文化对企业业务成果的
9、影响。我们发现,拥 有强大企业文化的公司,通常有着更高的运行效率、更高的风险承受能力、更 少的盈余管理、更有效的高管薪酬设计方案(更有利于培养风险承担能力和明 确长期导向),以及更高的企业价值。并且,在经济不景气的时期,企业文化与 绩效之间具有更明显的联系。在另一个应用实例中,我们检验了企业文化在兼并 收购(M&As)中扮演的角色,使用的数据是 2003 至 2018 年间近 8000 次兼并收 购数据。首先,我们发现,在“创新”和“尊重”这两项价值观得分高的企业更有可 能成为收购者,而在“诚信”和“质量”这两项价值观得分高的企业则不大可能成为 收购者。就兼并双方的匹配度而言,我们发现,文化价
10、值观更相近的企业更有可 能达成交易。我们进一步发现,在控制了并购方与目标企业的企业文化匹配程度 后,并购方的价值观与其目标企业在并购前的价值观有着正相关关系这表明 企业文化本身也受到并购的影响。本文对管理、会计、财务等领域的企业文化相关研究做出了重要的、长远的 贡献。尽管这一主题很重要,但在以往有关企业文化与企业政策的研究中,主要 是采用企业文化的代理指标(Biggerstaff、Cicero和 Puckett 2015; Davidson、Dey和 Smith 2015)或依赖调查/访谈所提供的证据(例如,Guiso、Sapienza 和 Zingales 2015; Graham 等人 2
11、018, 2019)。本文通过使用一种最新的机器学习技术词嵌 入模型(Mikolov 等人 2013)来衡量企业文化。该模型可以随着时间的推移,轻松 适用于大量的公司样本,从而扩展和补充了以往的研究工作。研究表明,相比于 传统的基于研发支出和专利数量的企业创新性度量方法,本文的企业文化度量方 法可以反映企业的更多信息,涉及的范围更为广泛。并且我们发现,基于大样本 数据,企业文化与效益产出在任何维度都存在相关性。据我们所知,本文是金融和会计学领域中的第一篇将神经网络语言模型应 用于定性分析公司披露的文章。这个神经网络语言模型是“深度学习”的前沿理论 (e.g., LeCun, Bengio 和
12、Hinton 2015)中的一个重要部分。从方法论的角度来看,我们的贡献主要有两个方面。 首先,我们引入词嵌入模型作为一种量化单词含义的新方法。Loughran 和 McDonald(2016)指出,大多数文本分析方法仅仅在文档层面进行,且忽略了 文字间的顺序和其所处的语境,将单词视作了一个个独立个体。在许多应用场景 背后都包含着这种“词袋”的假设。比如语气(情感)的测量、手动构建单词表 (Loughran 和 McDonald 2011; Henry 和 Leone 2016)、文本分类(Routledge 和 Sacchetto和 Smith 2018)和主题建模(Huang等人 2018
13、; Lowry、Michaely和 Volkova 2020)。词嵌入模型( word2vec )通过使用神经网络,实现对词的上下文语境进行 深度解析,从而超越了这个假设。因此,单词和短语被编码成数字向量,而不是 被视作单独的标志。这种矢量化提供了一种在表达层面量化语义而不仅仅是句法 的有效方法。第二,我们提出了一种全新的用于文本分析的半监督机器学习方法。这个方 法介于监督学习方法和无监督学习方法之间。监督学习方法需要大量带标记的观 测值作为训练集这些观测值通常以企业效益产出的形式呈现(例如预测并购, 参见 Routledge, Sacchetto 和 Smith 2018;管理层竞选,参见
14、Erel 等人2019); 无监督学习则最大限度地减少了人为的输入,让数据自动呈现其内在含义(例如 主题建模,参见 Huang 等人2018和 Li 等人2020)。相比而言,我们的方法并不 依赖人为标记的文档,但是我们仍然可以为算法提供有限但关键的指导(即文化 价值及其种子词), 让它能够从财报电话会议文本数据中归纳和收集企业文化信息。 因此,我们的方法可被应用于在以下两种情况中,从企业披露报告中衡量其他预 定义的企业属性:(1)缺乏明确的企业效益产出结果或者人为标记的数据,这种 情况下监督学习并不适用;(2)预定义的企业属性相当微妙,无法在数据中自动 显现,这种情况下主题建模(例如隐式狄利
15、克雷方法,即 LDA 方法)也不适用。2、数据、预处理、句法分析和短语学习2.1 使用财报电话会议文本数据来给企业文化打分调查显示(Graham 等人,2018 年),当高管们被问及对建立企业文化影响 最大的因素时,超过一半的人认为,其现任 CEO 是影响最大的因素,而不是公 司所有者、创始人、市场声誉或形象、内部政策和程序以及过去经历的困难时期 等。早期的研究结果(Biggerstaff, Cicero, Puckett (2015), Davidson, Dey, Smith (2015), Guiso, Sapienza, 和 Zingales (2015))与该调查结论保持一致。这些研
16、究运 用了 CEO 的属性和行为来作为企业文化的代理变量。财报电话会议是一种常用 的企业外部沟通渠道,主要涉及 CEO(有时也有其他高管)与分析师们的交谈 我们希望,它能解释这些企业领导人以及其领导企业的重要企业价值观; Graham 等人(2018) 也推荐将财报电话会议作为衡量企业文化的主要途径。诚然,使用财报电话会议作为数据来源时存在一个重要问题:管理者可能会 试图在会议期间粉饰自己的企业文化。值得说明的是,这些会议的首要目的应该 是讨论企业的运营和绩效,而不是营销自己的企业文化。以往的研究表明,财报 电话会议除了提供关于营收的信息之外,还提供了与价值观息息相关的信息。电 话会议的信息质
17、量大多归功于其交互性,这种交互性也使得电话会议包含更多针 对会议参与者提出的具体问题的即时性回答(Frankel, Johnson, and Skinner 1999; M atsumoto, Pronk, and Roelofsen 2011; Lee 2016)。因此,高管对企业经营和绩效进 行的讨论,使得我们最终可以应用财报电话会议,对企业文化进行评分。相较于 QA 部分,电话会议中的演讲部分很可能是提前打好了草稿,或者经过企业律师 和投资者关系部精修的。而 QA 部分有更强的自主性,让管理者们几乎无法作假。 在实验中,我们担心样本数据中混入了太多管理者们的“套话”,所以选择了 QA 部
18、分来衡量企业文化。从方法论的角度来看,我们使用的方法也有助于提高样本数据的有效性。一 个合理的假设是,“讲套话”的管理者会更倾向于使用常用词,如表示价值观的 词本身。我们的方法能够学习成百上千、甚至成千上万的与每一个文化价值观存 在关联的单词和短语。而企业的文化得分是由所有这些词和短语的组合共同决定 的,而不仅仅是管理者更容易提及的表示价值观的词所决定的。此外,由于词嵌 入方法是从相邻的词/短语中学习一个词或短语的意义,所以,除非管理者能够在 QA 部分特意将某个流行词放在上下文中来帮助我们理解该词的含义,否则我 们的方法不一定会将这个流行词收录在文化词典中。最后,我们采用了单词加权 的方案:
19、在对企业文化进行评分时,对电话会议中出现频率较高的词或者词组赋 予较低的权重,这有助于减轻我们可能捕捉“陈述”价值观的担忧。为了进一步 缓解这一担忧,我们将在第 4 节中就本文方法的有效性提供证明。尽管如此,我们的单词列表和衡量方式是无法摆脱噪声的影响的,我们在未 来仍需要做更多的工作来改进我们的方法。本研究中,尽管管理者们的意图是不 可观测的,我们的目标是提供一种基于最佳可用数据源来衡量企业文化的新方法。2.2 数据,预处理,语义分析和短语学习我们从 homson Reuters StreetEvents (SE)数据库中获取了 2001 年 1 月 1 日至 2018 年 5 月 25 日
20、之间的财报电话会议记录。每个文件都包含了每次电话会议的 通话记录正文和有助于我们在 Compustat 数据库中匹配公司信息的元数据:股票 代码、公司名称、事件标题、电话会议的日期。匹配后,电话会议数据集由 64,511 条企业年度数据(包括 209,480 个 QA 部分)组成。我们使用 Stanford CoreNLP 包来对文本进行预处理和解析。3 Internet Appendix 的第 2、3 部分提供了这些步骤的详细说明。我们把文档分割为句子和 单词,然后把单词还原成它们的基本形式。我们进行命名实体识别( Named Entityecognition,NER ),以用预先定义的标记
21、替换命名实体如位置、时间、人 员和公司名称。4最重要的是,就像 Routledge, Sacchetto 和 Smith (2018)所说明的 那样,从企业披露中收集信息时,短语(搭配)起着至关重要的作用。在其工作的 基础上,我们采用两步法来提取一般和特定语料的短语。在步骤一中,我们使用 CoreNLP 包中的依赖解析器来识别固定的、由多个词语组成的表达(例如“相对 于”)和复合词(例如 “知识产权”、“医疗提供商”)。这些短语通常是普通英语词汇 中的一部分,或者是可以根据词与词之间的语法关系而进行推断的短语。5在步 骤二当中,我们利用 gensim 库的短语模块,来查找特定语料库的两词和三词
22、短 语 (即在财报电话会议记录里 QA 部分中,在统计学意义上显著地共同出现的词 语)。6例如,在第二部分中学习到的短语,包括“前瞻声明(forward-looking statement)”和“多此一举(beat (a) dead horse)”。我们使用下划线“_”将所有短语 连接成一个单词。结果表明,在财报电话会议中,短语是文化价值观传播的关键 部分。3、词嵌入模型,word2vec和模型训练3.1 为什么使用词嵌入模型?越来越多金融和会计领域的研究者依赖自动化文本分析技术来从企业披露中 提取有用信息。一个普遍使用的方法是对具有共同含义的字典中的单词进行计数。 例如,一些字典,像 Har
23、vards General 标签类别, Loughran 和 McDonald (2011), Linguistic Inquiry 和 Word Count (LIWC) (Pennebaker et al. 2015),已经被广泛用于 测量文本的语气(情感)。然而,开发用于衡量企业文化的词典可能是一项艰巨的 任务。就像 Loughran 和 McDonald (2016)所指出的,创建一个实用的词典需要很 好地把握商业案例的语境。像 Loughran,McDonald (2011)和 LIWC所提出的,传 统的解决方法是让专家手动检查特定语境中常见的词汇,并将其分类。在应用这 种方法生成企
24、业文化词典时,会出现几个直接的难题。首先,企业文化的讨论通常会以一种微妙的方式进行。与反映一般商业观点 的语言不同,企业文化可以用频率较低的单词、缩略语、短语或习语来描述,而 这些单词只有在特定的语境中才有意义。例如,在财报电话会议当中,人们可以 理解“双向车道(two-way street)”这个短语是与团队合作有关的,然而,脱离了 这个语境,即使是金融专家也很难从数百万个孤立的单词和短语中辨认出这个短 语。其二,企业文化可以是一个难以捉摸的多维度的结构。这种内在的复杂性意 味着,即使可以从一组文档中提取所有与文化相关的词和短语,与语气分析相比, 对它们进行分类也将是一项更复杂的任务。当人们
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 企业文化 专题研究 定量 视角 基于 机器 学习 研究
限制150内