企业文化专题研究:定量视角看企业文化_基于机器学习的研究.docx
企业文化专题研究:定量视角看企业文化_基于机器学习的研究1、引言本文利用最新的机器学习技术(词嵌入模型),基于 209480 份财报电话会议 记录文本数据,生成了一套文化词典;而后分别针对创新、诚信、质量、尊重 和团队合作五大价值观,对 2001-2018 年间每家企业的企业文化进行年度打分。 相比于传统的基于研发支出和专利数量的企业创新能力度量方法,本文的企业文 化度量方法可以反映企业的更多信息,涉及的范围更为广泛。此外,通过实证, 我们发现企业文化与企业业务成果之间存在相关性(业务成果包括经营效率、风 险承担能力、盈余管理能力、高管薪酬设计、企业价值和交易能力)。并且在经 济不景气的情况下,企业文化与企业绩效的联系更加紧密。最后,本文提供了一 些具有启发性的证据,表明企业文化可以由重大的企业事件(例如兼并和收购) 塑造。什么是企业文化?据 OReilly 和 Chatman (1996, p. 160),企业文化是“一 个共用的价值观系统和一套组织成员的态度行为准则”。与根深蒂固的国家文化 价值观不同的是,企业文化具有路径依赖性,并且可以被某些企业事件改变和塑 造 (Weber、Shenkar 和 Raveh 1996; Guiso、Sapienza 和 Zingales 2015; Graham et al. 2018; Grennan 2018)。企业文化之所以重要,是因为企业员工难免会面临无法被 事先妥当规范的情景 (OReilly 1989; Kreps 1990)。尽管这一主题非常重要,然 而现存文献对大样本的研究仍十分有限,这可能是由于企业文化的概念比较模糊, 导致了实证研究中的度量问题在本文中,我们提出了一种半监督机器学习方法来衡量企业文化。我们的出 发点是标普 500 中的企业在其网站上常提及的五个价值观(Guiso、Sapienza 和 Zingales 2015):“创新”、“诚信”、“质量”、“尊重”和“团队合作”,这其中的每 一个词汇都代表了企业的核心价值观。我们通过引入一种量化文本的新型机器学 习方法(Mikolov 等人,2013 年;word2vec 模型),基于词嵌入模型对金融和会 计领域相关研究做出了重要的方法论贡献。首先,本文基于词嵌入模型训练了一 个神经网络模型,针对财报电话会议文本数据,通过联系上下文的方式来学习其 中所有单词和短语的含义。然后,基于该模型的结果,我们构建了一套“文化词 典”,其中包含了与每个文化价值观密切相关的单词和短语。例如,这个神经网 络会自动学习像“联盟(alliance)”和“生态系统(ecosystem)”这样的单词、像 “双赢(win-win)”这样的短语、甚至是像“肩并肩(shoulder to shoulder)”和 “亲密的(hand in glove)”这样的俚语,然后将其分类为企业文化词典中的“团队 合作”部分。接着,通过对会议记录中的该类单词和短语进行加权频率计数,我 们可以得到一个企业在“团队合作”这一项的得分。使用财报电话会议记录来计算企业文化的得分的原因如下:第一,高管团队 会极大地影响一个企业目前的文化(例如,Guiso, Sapienza 和 Zingales 2015; Graham 等人 2019)。Guiso、Sapienza 和 Zingales (2015)进一步说明,要想使一个 特定的价值观深入人心,企业领导必须以身作则,践行并宣传这个价值观。如果 管理者可以做到“言行一致”,那么其在电话会议中的发言在一定程度上可以真实反映公司的价值观。第二,财报电话会议的主要目的并不是讨论一个企业的价值 观,而是企业的经营和绩效。一个企业的网站或者新闻稿中所描述的信息并非一 定有效,因为在那里他们将相对容易地运用“套话”来宣扬他们的价值观。为了确 保信息有效,我们衡量企业文化时使用的是电话会议中的问答环节(QA),而 不是演讲的部分,以此减少企业过度的自我营销问题。在问答环节中,管理者几 乎没有机会选择要讨论的主题 (Lee 2016)。第三点,我们的方法判别并分类了与 特定的企业文化最相关的单词和短语,创建了一个相对详尽的文化词典。此外, 我们的方法在对企业文化进行打分时,对出现得较频繁的单词/短语赋予了更低 的权重这将有助于解决过度关注“声明”价值观的问题。在打分之前,我们也 会删除主观感情色彩过于浓重的段落(Larcker 和 Zakolyukina 2012)。正如 Loughran 和 McDonald (2011)所指出的,电话会议记录中的非平凡的词语会不可 避免地面临被错误分类的问题,我们关心的是错误分类的情况占比有多少。在本 文中,我们将尽可能地用通俗易懂的语言,介绍一种全新的机器学习方法,助力 金融和会计领域的研究。首先,本文基于 2001 至 2018 年间 Thomson Reuters StreetEvents 数据库中的 209480 份财报电话会议记录,训练了词嵌入模型,获得了 7501 个不同企业的企 业文化价值观(共 62664 条企业的年度数据)。我们选择运用“创新”、“诚信”、 “质量”、“尊重”和“团队合作”这些最成熟、最实用的指标,来检验我们的企业文 化衡量方法的有效性。我们发现企业文化价值观与这些标志有很强的正相关关系。 同时,我们也将本文基于 QA 部分的度量方法与基于以下内容的度量方法进行了 比较:(a)基于整个电话会议(包括讲演部分和 QA 部分);(b)对 QA 部分的种子词语的简单统计,包括一些表示价值观的词语,如 “创新”;(c)将词嵌入模型应用于年度报告( 10 - Ks )中的管理层讨论与分析部分(MD & A)。接下来,我们将探讨强大的企业文化对企业业务成果的影响。我们发现,拥 有强大企业文化的公司,通常有着更高的运行效率、更高的风险承受能力、更 少的盈余管理、更有效的高管薪酬设计方案(更有利于培养风险承担能力和明 确长期导向),以及更高的企业价值。并且,在经济不景气的时期,企业文化与 绩效之间具有更明显的联系。在另一个应用实例中,我们检验了企业文化在兼并 收购(M&As)中扮演的角色,使用的数据是 2003 至 2018 年间近 8000 次兼并收 购数据。首先,我们发现,在“创新”和“尊重”这两项价值观得分高的企业更有可 能成为收购者,而在“诚信”和“质量”这两项价值观得分高的企业则不大可能成为 收购者。就兼并双方的匹配度而言,我们发现,文化价值观更相近的企业更有可 能达成交易。我们进一步发现,在控制了并购方与目标企业的企业文化匹配程度 后,并购方的价值观与其目标企业在并购前的价值观有着正相关关系这表明 企业文化本身也受到并购的影响。本文对管理、会计、财务等领域的企业文化相关研究做出了重要的、长远的 贡献。尽管这一主题很重要,但在以往有关企业文化与企业政策的研究中,主要 是采用企业文化的代理指标(Biggerstaff、Cicero和 Puckett 2015; Davidson、Dey和 Smith 2015)或依赖调查/访谈所提供的证据(例如,Guiso、Sapienza 和 Zingales 2015; Graham 等人 2018, 2019)。本文通过使用一种最新的机器学习技术词嵌 入模型(Mikolov 等人 2013)来衡量企业文化。该模型可以随着时间的推移,轻松 适用于大量的公司样本,从而扩展和补充了以往的研究工作。研究表明,相比于 传统的基于研发支出和专利数量的企业创新性度量方法,本文的企业文化度量方 法可以反映企业的更多信息,涉及的范围更为广泛。并且我们发现,基于大样本 数据,企业文化与效益产出在任何维度都存在相关性。据我们所知,本文是金融和会计学领域中的第一篇将神经网络语言模型应 用于定性分析公司披露的文章。这个神经网络语言模型是“深度学习”的前沿理论 (e.g., LeCun, Bengio 和 Hinton 2015)中的一个重要部分。从方法论的角度来看,我们的贡献主要有两个方面。 首先,我们引入词嵌入模型作为一种量化单词含义的新方法。Loughran 和 McDonald(2016)指出,大多数文本分析方法仅仅在文档层面进行,且忽略了 文字间的顺序和其所处的语境,将单词视作了一个个独立个体。在许多应用场景 背后都包含着这种“词袋”的假设。比如语气(情感)的测量、手动构建单词表 (Loughran 和 McDonald 2011; Henry 和 Leone 2016)、文本分类(Routledge 和 Sacchetto和 Smith 2018)和主题建模(Huang等人 2018; Lowry、Michaely和 Volkova 2020)。词嵌入模型( word2vec )通过使用神经网络,实现对词的上下文语境进行 深度解析,从而超越了这个假设。因此,单词和短语被编码成数字向量,而不是 被视作单独的标志。这种矢量化提供了一种在表达层面量化语义而不仅仅是句法 的有效方法。第二,我们提出了一种全新的用于文本分析的半监督机器学习方法。这个方 法介于监督学习方法和无监督学习方法之间。监督学习方法需要大量带标记的观 测值作为训练集这些观测值通常以企业效益产出的形式呈现(例如预测并购, 参见 Routledge, Sacchetto 和 Smith 2018;管理层竞选,参见 Erel 等人2019); 无监督学习则最大限度地减少了人为的输入,让数据自动呈现其内在含义(例如 主题建模,参见 Huang 等人2018和 Li 等人2020)。相比而言,我们的方法并不 依赖人为标记的文档,但是我们仍然可以为算法提供有限但关键的指导(即文化 价值及其种子词), 让它能够从财报电话会议文本数据中归纳和收集企业文化信息。 因此,我们的方法可被应用于在以下两种情况中,从企业披露报告中衡量其他预 定义的企业属性:(1)缺乏明确的企业效益产出结果或者人为标记的数据,这种 情况下监督学习并不适用;(2)预定义的企业属性相当微妙,无法在数据中自动 显现,这种情况下主题建模(例如隐式狄利克雷方法,即 LDA 方法)也不适用。2、数据、预处理、句法分析和短语学习2.1 使用财报电话会议文本数据来给企业文化打分调查显示(Graham 等人,2018 年),当高管们被问及对建立企业文化影响 最大的因素时,超过一半的人认为,其现任 CEO 是影响最大的因素,而不是公 司所有者、创始人、市场声誉或形象、内部政策和程序以及过去经历的困难时期 等。早期的研究结果(Biggerstaff, Cicero, Puckett (2015), Davidson, Dey, Smith (2015), Guiso, Sapienza, 和 Zingales (2015))与该调查结论保持一致。这些研究运 用了 CEO 的属性和行为来作为企业文化的代理变量。财报电话会议是一种常用 的企业外部沟通渠道,主要涉及 CEO(有时也有其他高管)与分析师们的交谈 我们希望,它能解释这些企业领导人以及其领导企业的重要企业价值观; Graham 等人(2018) 也推荐将财报电话会议作为衡量企业文化的主要途径。诚然,使用财报电话会议作为数据来源时存在一个重要问题:管理者可能会 试图在会议期间粉饰自己的企业文化。值得说明的是,这些会议的首要目的应该 是讨论企业的运营和绩效,而不是营销自己的企业文化。以往的研究表明,财报 电话会议除了提供关于营收的信息之外,还提供了与价值观息息相关的信息。电 话会议的信息质量大多归功于其交互性,这种交互性也使得电话会议包含更多针 对会议参与者提出的具体问题的即时性回答(Frankel, Johnson, and Skinner 1999; M atsumoto, Pronk, and Roelofsen 2011; Lee 2016)。因此,高管对企业经营和绩效进 行的讨论,使得我们最终可以应用财报电话会议,对企业文化进行评分。相较于 QA 部分,电话会议中的演讲部分很可能是提前打好了草稿,或者经过企业律师 和投资者关系部精修的。而 QA 部分有更强的自主性,让管理者们几乎无法作假。 在实验中,我们担心样本数据中混入了太多管理者们的“套话”,所以选择了 QA 部分来衡量企业文化。从方法论的角度来看,我们使用的方法也有助于提高样本数据的有效性。一 个合理的假设是,“讲套话”的管理者会更倾向于使用常用词,如表示价值观的 词本身。我们的方法能够学习成百上千、甚至成千上万的与每一个文化价值观存 在关联的单词和短语。而企业的文化得分是由所有这些词和短语的组合共同决定 的,而不仅仅是管理者更容易提及的表示价值观的词所决定的。此外,由于词嵌 入方法是从相邻的词/短语中学习一个词或短语的意义,所以,除非管理者能够在 QA 部分特意将某个流行词放在上下文中来帮助我们理解该词的含义,否则我 们的方法不一定会将这个流行词收录在文化词典中。最后,我们采用了单词加权 的方案:在对企业文化进行评分时,对电话会议中出现频率较高的词或者词组赋 予较低的权重,这有助于减轻我们可能捕捉“陈述”价值观的担忧。为了进一步 缓解这一担忧,我们将在第 4 节中就本文方法的有效性提供证明。尽管如此,我们的单词列表和衡量方式是无法摆脱噪声的影响的,我们在未 来仍需要做更多的工作来改进我们的方法。本研究中,尽管管理者们的意图是不 可观测的,我们的目标是提供一种基于最佳可用数据源来衡量企业文化的新方法。2.2 数据,预处理,语义分析和短语学习我们从 homson Reuters StreetEvents (SE)数据库中获取了 2001 年 1 月 1 日至 2018 年 5 月 25 日之间的财报电话会议记录。每个文件都包含了每次电话会议的 通话记录正文和有助于我们在 Compustat 数据库中匹配公司信息的元数据:股票 代码、公司名称、事件标题、电话会议的日期。匹配后,电话会议数据集由 64,511 条企业年度数据(包括 209,480 个 QA 部分)组成。我们使用 Stanford CoreNLP 包来对文本进行预处理和解析。3 Internet Appendix 的第 2、3 部分提供了这些步骤的详细说明。我们把文档分割为句子和 单词,然后把单词还原成它们的基本形式。我们进行命名实体识别( Named Entityecognition,NER ),以用预先定义的标记替换命名实体如位置、时间、人 员和公司名称。4最重要的是,就像 Routledge, Sacchetto 和 Smith (2018)所说明的 那样,从企业披露中收集信息时,短语(搭配)起着至关重要的作用。在其工作的 基础上,我们采用两步法来提取一般和特定语料的短语。在步骤一中,我们使用 CoreNLP 包中的依赖解析器来识别固定的、由多个词语组成的表达(例如“相对 于”)和复合词(例如 “知识产权”、“医疗提供商”)。这些短语通常是普通英语词汇 中的一部分,或者是可以根据词与词之间的语法关系而进行推断的短语。5在步 骤二当中,我们利用 gensim 库的短语模块,来查找特定语料库的两词和三词短 语 (即在财报电话会议记录里 QA 部分中,在统计学意义上显著地共同出现的词 语)。6例如,在第二部分中学习到的短语,包括“前瞻声明(forward-looking statement)”和“多此一举(beat (a) dead horse)”。我们使用下划线“_”将所有短语 连接成一个单词。结果表明,在财报电话会议中,短语是文化价值观传播的关键 部分。3、词嵌入模型,word2vec和模型训练3.1 为什么使用词嵌入模型?越来越多金融和会计领域的研究者依赖自动化文本分析技术来从企业披露中 提取有用信息。一个普遍使用的方法是对具有共同含义的字典中的单词进行计数。 例如,一些字典,像 Harvards General 标签类别, Loughran 和 McDonald (2011), Linguistic Inquiry 和 Word Count (LIWC) (Pennebaker et al. 2015),已经被广泛用于 测量文本的语气(情感)。然而,开发用于衡量企业文化的词典可能是一项艰巨的 任务。就像 Loughran 和 McDonald (2016)所指出的,创建一个实用的词典需要很 好地把握商业案例的语境。像 Loughran,McDonald (2011)和 LIWC所提出的,传 统的解决方法是让专家手动检查特定语境中常见的词汇,并将其分类。在应用这 种方法生成企业文化词典时,会出现几个直接的难题。首先,企业文化的讨论通常会以一种微妙的方式进行。与反映一般商业观点 的语言不同,企业文化可以用频率较低的单词、缩略语、短语或习语来描述,而 这些单词只有在特定的语境中才有意义。例如,在财报电话会议当中,人们可以 理解“双向车道(two-way street)”这个短语是与团队合作有关的,然而,脱离了 这个语境,即使是金融专家也很难从数百万个孤立的单词和短语中辨认出这个短 语。其二,企业文化可以是一个难以捉摸的多维度的结构。这种内在的复杂性意 味着,即使可以从一组文档中提取所有与文化相关的词和短语,与语气分析相比, 对它们进行分类也将是一项更复杂的任务。当人们面临五种或五种以上的选择(例如我们设定的五种文化价值观)时,很难以一致和客观的方式对每个单词进行 分类。第三,即便是专家也无法创建和维护能够适应商业世界不断变化的词典。 随着技术和产业的发展,商业词汇体系会不断吸收和排除新的词语。例如,在 20 世纪初创建的一本词典可能无法预知"人工智能"这个单词将在 20 年后与企业 创新息息相关;同样,它可能会忽视“自由职业者”这样的词它无法预料到自 由职业者在当今劳动力队伍中的作用越来越大。总的来说,虽然深入了解业务运营的专家在理论上可以根据上下文理解单词 和短语的细微的含义,但这样的做法往往是不切实际且成本效益低下的。因此, 我们提供了一种基于机器学习的替代方案来应对这些挑战。我们提出的这个方法 从定义每个文化价值观的种子词语开始,并基于定性的企业披露报告,自动创建 一套高质量的词典。这个方法的核心是基于语境学习单词(短语)的含义的词嵌 入模型。7我们的方法不仅仅可以生成衡量企业文化的词典,也可用来生成适用 于其他学科领域的词典。3.2 词嵌入模型介绍词嵌入模型的目标是用数值向量表示语义(即词的意义)。反过来,词向量允 许我们使用简单的向量算法来确定词与词之间的关系。在我们的实践中,我们首 先计算任意两个词向量之间的余弦相似度,以此来判断两个词是否为同义词。 基于学习到的词语与特定文化价值观的种子词之间的相似关系,可以识别出描述 文化价值的一组广义词和短语的集合,并据此对企业进行评分。词嵌入模型的原理是基于语言学中一个简单的、经过时间检验的概念之上: 与相同的相邻词共同出现的词具有相似的意义( Harris 1954 );因此,该模型从常 见的相邻词中识别同义词。一个简单的词嵌入方法是构造一个计数向量,该向量 会计算语料库中出现在焦点词附近的其他词(例如,离焦点词不超过一定距离的 词)的次数。一旦 我们通过对每个词的相邻词进行计数而建立一个这样的计数向量,理论上,我们 便可以通过计算任意一对词语的计数向量的余弦相似度,来估算它们之间的关联 度。然而事实上,所有词语和它们可能的相邻词的组合是巨大的,使得简单的基 于计数的词嵌入方法很难被实现;因此,我们需要一个全新的方法。3.3 word2vec 及其实现作为自然语言处理(NLP)技术的突破,word2vec (Mikolov 等人 2013)采用 神经网络来高效地学习可以表明词语含义的、密集且低维的向量。从本质上来说, word2vec 通过一个“阅读”文本文档的神经网络,来“学习”一个具体词语的含义, 并由此学着去预测其所有相邻词语。神经网络中的参数是随机初始化的。随着学 习的进行,神经网络中的参数通过反向传播(即神经网络的标准训练算法)进行调整,从而不断提高神经网络对词语邻近词的预测能力。在对文档进行多次迭代后 完成学习之时,这些参数将成为一个单词的有效向量表示。该向量具有固定的维 度,通常在 50 - 500 之间,并将捕获该词与其相邻词之间原始共现关系的属性。 Levy 和 Goldberg ( 2014 )的研究表明,word2vec 实现的向量化,类似于相邻单词 计数矩阵的奇异值分解(即是降维技术)。请读者参考 Internet Appendix 中的 4.4 部 分以便获得 word2vec 更多理论推导。我们使用 Python 中的 gensim 库来训练 word2vec 模型。其他深度学习包,如 TensorFlow和PyTorch,也可以用于训练模型。我们将词向量的维数设定为300; 如果两个单词在句子中相距不超过 5 个单词,我们将它们定义为相邻词,同时我 们省略了语料库中出现少于 5 次的单词。Internet Appendix 中 4.5 节进一步解释了 训练该模型的超参数。8训练后,该模型将语料中的 764,276 个单词全部转换为 300 维向量,用以表示该单词的含义。4、用word2vec衡量企业文化4.1 种子词衡量企业文化的出发点是标普 500 企业在其企业网站上最常提到的五个价值 观( Guiso,Sapienza,Zingales 2015 ),这五个价值观与对应出现频率分别为:创 新( 80 %)、诚信( 70 % )、质量( 60 % )、尊重( 70 % )和团队合作( 50 % )。Guiso, Sapienza 和 Zingales ( 2015 )在考察了每个企业自己的、企业之间的每一个价值观 聚类的所有词及其出现频率后,为每个价值观提供了其含义单位(即种子词)。 Loughran 和 McDonald ( 2011 )指出,为其他学科开发的词表会错误地对金融文本 中的常用词进行分类,因此,在我们使用财报电话会议来衡量企业文化的背景下, 从公司网站( Guiso、Sapienza 和 Zingales 2015 )中筛选出的词表,可能并不完全适 用。因此,在训练了 word2vec 模型之后(据此我们可以获得每个价值观/种子词 的词向量),我们手动地检查了 Guiso, Sapienza 和 Zingales (2015)所归纳的价值观 /种子词,以确保在以下两个标准下,每类文化价值观都由一组连贯的种子词所 明确定义:1. 标准 1:这个词或短语出现在财报电话会议中。在这一标准下,像“做正确的 事”(诚信)和“超出预期”(质量)这样的短语被我们剔除。2. 标准 2:在电话会议的 QA 部分的语境下,一个单词或者短语的同义词(借 助 word2vec)与企业文化价值观有着非常明晰的相关性。“成长”(创新)和“多 样性”(尊重)等词被我们剔除,因为它们的同义词表明,“成长”更可能是描述 过去的业绩,“多样性”则更可能是描述多样化战略。在排除了 Guiso, Sapienza 和 Zingales (2015)的词典中一些不符合上述标准的 价值观/种子词之后,我们也会添加新的种子词。这些新添加的单词包括:(1) Guiso, Sapienza, 和 Zingales(2015)中原始种子词的其他形式。例如,如果已知“合 作”(名词)在列表中,则它的同义词“合作的”(形容词)和“合作”(动词)也 会被加入列表;(2)Guiso,Sapienza 和 Zingales ( 2015 )中比原始种子词更具体明 确的短语变体,例如,我们不使用“承诺”,而是加入了 “顾客承诺” (质量)。4.2 文化词典的生成我们使用经过训练的 word2vec 模型来开发一个扩展的、特定于上下文的词 典来衡量企业文化价值。如前所述,我们可以计算任意两个词向量之间的余弦相 似度来量化它们的关联,而后将财报电话会议中的单词与定义每个文化价值的种 子词相关联,来构建文化词典。我们用下面的例子来说明这个过程。最后,我们手动地检查所有自动生成的词典中的单词,并剔除不合适的单词。 考虑一个单词是否应该被剔除时,我们仔细地学习了它在财报电话会议中的语意。 大多数被剔除的单词是 CoreNLP 包遗漏的命名实体(例如 gs1 和 dana-farber ),它 们在行业背景方面过于具体(例如“厨师”和“药剂师”),或者在含义方面过于笼统 (例如“重要性”和“工作”)。在生成了企业文化字典之后,我们在会计年度层面分别对每个公司五种文化 价值观进行度量。我们采用与每个价值观相关联的词数除以文档中的词总数的加 权方式来计数,权重为tf . idf,其中tf (词频)表示文档中的词频,idf (逆文档频率) 表示文档与语料库中的词的逆频率。本质上,这种加权方案既考虑了文档中单词 的重要性,也考虑了语料库中单词的重要性。5、本文企业文化衡量方法的有效性5.1 有效性检验鉴于我们对企业文化的测度方法是全新的,运用业界公认的、经过广泛实践 的指标来检验我们的测度方法,就显得尤为重要。为此,我们对这五种文化价值 观使用了大量的指标。 为了验证“创新”这个文化价值观,我们使用 ln (专利)、研发支出和创新优势 这几个指标。14ln (专利)是 1 加一年内提交并最终授予的专利数的自然对数。数 据来源于 Kogan 等人 (2017)。研发支出特指按总资产标准化的研发支出。创新优 势是一个指示变量,如果认为企业在创新和研发方面具有优势,则赋值为 1,否 则为 0。Kinder,Lydenberg & Domini ( KLD 2006 )将创新中的优势定义为“这个公 司是其行业中研究和开发的领导者,特别是他会将引人注目的创新产品推向市 场”。此数据来源于 KLD。为了验证“诚信”这个文化价值,我们采用了会计中的渎职行为和高管期权 授予回溯(backdating executives option grants)这两个指标(Biggerstaff, Cicero, 和 Puckett 2015)。重新声明是一个指示变量,如果企业后来对(年度或季度)财务报表进行了重新声明,则取 1,否则为 0。此数据来源于 Audit Analytics。回溯 (backdating)是一个指示变量,如果授予企业 CEO 的期权是回溯的,则其值为 1,否则为 0。为了识别回溯,我们遵循 Heron 和 Lie ( 2009 )的估计方法,其假设 是,在没有回溯或其他类型的授予日操纵的情况下,授予日前后一个月股票收益 的分布应该大致相同。CEO 期权授予数据来源于汤森路透( Thomson Reuters )的 内幕资料库。为了验证“质量”这个文化价值,我们使用产品质量、产品安全和头部品牌 这几个指标。产品质量是一个指示变量,如果企业被认为在产品质量方面有优势, 则取 1,否则为 0。KLD ( 2006 )将产品质量方面的优势定义为“公司有一个长期、 完善、广泛用于全公司的质量规划,或者说它有一个在美国业界被公认优秀的质 量规划。” 产品安全是一个指示变量,如果企业被认为在产品安全这一块毫无隐 忧,则取值为 1,否则为 0。KLD ( 2006 )将产品安全方面的隐忧定义为"公司最 近支付了大量罚款或受到民事处罚,或参与了最近发生的重大争议或受到监管的 行动这些都涉及其产品和服务的安全"。这两个变量的数据皆来自 KLD。头 部品牌是一个指示变量,如果企业在 Brand Finance 中排名前 500 名,则其值为 1, 否则为 0。该列表由 Brand Finance 构建( 2007 年至 2017 年。为了验证“尊重”这个文化价值,我们使用多样性和“最佳雇主”称号这两 个指标。前者是在多样性方面的优势减去在多样性方面的隐忧,数据来源于 KLD;后者是一个指示变量,如果一个企业被列入财富( Fortune )的"美国 100 家最佳公司" ( Best Company to Work in America )排行榜,则其取值为 1,否则 为 0;评判能否列于榜中的主要标准是工作满意度、公平性和友爱程度 。Edmans ( 2011 )的研究表明,财富榜上的企业相比其他 企业,员工满意度更高。此列表数据截至 2017 年。为了验证“团队合作”这一文化价值,我们使用了员工参与程度、合资企业 数量( JVs )和战略联盟数量( SAs )这几个指标。前者是一个指示变量,如果企业 被认为在员工参与方面具有优势,则取值为 1,否则为 0。KLD ( 2006 )将员工参 与定义为“公司大力支持员工参与企业活动,或其大多数员工可获得股票期权的 所有权;收益共享、持股、财务信息共享,或者参与管理决策。”数据来源于 KLD。后者是企业在给定年份内形成的 JVs 和 SAs 的数量。数据来源于 Thomson Reuters 的 SDC 数据库。5.2 企业文化及其指标上述验证工作中的一个隐忧是,有了这些测试的指标,我们对企业文化的测 量可能会变得多余,因为它们本身具有高度的相关性。但是我们相信,我们的企 业文化的度量方法是对企业财务研究的重要补充,原因如下。首先,虽然企业文化在企业政策或绩效方面可能尚未见成效( Graham 等人 2018 年,2019 年),但是强大的企业文化渗透在公司运营和员工行为的各个方面。本文中,我们重点讨论了五种最常见的文化价值观及其指标,以确保分析的可操 作性。第二,我们用来验证某一特定价值观的指标集,通常远不如该价值观本身的 含义丰富。例如,一个创新的文化远不仅仅是研发投入和专利数量,还有更多的 意义,比如商业机密、新颖/原始的营销战略、优化的生产工艺和高效的后台运 营等。同样,文化价值观“诚信”的验证也不局限于我们使用的两个关于渎职的指 标。第三,我们的企业文化测度方式,其数据覆盖面和质量远远优于大多数指标。 尤其,我们可以使用财报电话会议衡量任何一个企业的企业文化(包括根据 1934 年证券交易法注册的私营公司;Gao, Harford 和 Li 2013),而大多数指 标却只能用于公营公司。例如,考虑文化价值观“创新”,一个普遍的问题是, Compustat 中只有不到 40%的企业报告了正的研发投入,而且约 15 %的企业重复 提供可申请专利的创新产出( Bena 和 Li 2014;Koh 等人 2019 )。此外,我们的企 业文化价值度量是连续的,而用于有效性检验的指标很多是二进制的(除了 ln ( Patent ),R & D 支出,多样性和 JVs / SAs 数量),因此在横截面上的变化有限。5.3 度量企业文化的其他方法我们对企业文化的主要衡量标准是通过将文化词典应用于电话会议的 QA 部 分来获得的。将文化词典应用到完整的通话记录中后,我们便生成一组可供选择 的企业文化价值度量,并将其后缀标记为_ Full。鉴于本文是第一个将词嵌入模型应用于企业文化量化研究的文章,我们不可 避免地会遇到这样的问题:与使用 Guiso,Sapienza 和 Zingales ( 2015 )提供的种 子词列表和特定的价值词(例如,“创新”)的简单计数方法相比,我们的方法表现 如何? 在 QA部分中,我们调用种子词(加上价值词)的简单计数来生成一组新的企 业文化价值度量结果,并用后缀_ seed 对其进行标记。截止目前,我们都是使用财报电话会议文本数据来评估企业文化。另一种选 择是采用 10 - Ks 的 MD & A 部分该部分经常被用于企业披露的文本分析。 我们将词嵌入模型应用于 1993 2017 会计年度 10 - Ks 的 MD & A 部分,生成另 一套可供选择的企业文化价值度量,并使用后缀_ 10k 对其进行标注。最后,我们同样也考虑了给企业文化打分的另外两种替代方案。第一是将词 嵌入模型应用于员工的评论,如 G。尽管这些评论是学习企业文化 的合理来源(Graham 等人 2018; Grennan 2018),但这些数据却并不公开。此外, 来自员工评论网站的数据时间覆盖范围有限,导致许多公司的评论很少。20第二 个选择是将主题建模工具如 LDA 应用于财报电话会议。然而,由于 LDA 是一种 无监督的学习模型,因此无法保证所发现的主题与企业文化相关。Huang 等人 (2018) 发现大多数从财报电话会议中提取的主题信息,或与行业相关,或是与业 绩相关。总的来说,多次的有效性验证、与替代方案之间的比较都表明,词嵌入模型 生成了一个高质量的文化词典,可用于对企业文化价值进行有效评分。5.4 解决电话会议中自我营销的问题有人可能会担心管理者们会在电话会议中过度自我营销,也因此担心我们的 方法不能很好地提炼企业文化。在本节中,我们将检验我们的衡量方法是否容易 受到管理者情绪化话语的影响。我们使用语言查询和字数统计(LIWC),来捕捉电话的 QA 部分中每个语句 段落的积极和消极情绪。LIWC 是一种计算机程序,用于研究个人口头和书面演 讲中出现的各种情绪成分(Tausczik 和 Pennebaker,2010 年 )。Larcker 和 Zakolyukina(2012)提供了一种会计应用程序,在该应用程序中,他们使用 LIWC 来检测电话会议中高度情绪化的讨论部分。为了实现这种稳健性检查,我们删除了每一份记录中,那些积极(消极)情 绪得分最高的段落的前四分之一部分。然后,我们使用修改后的语料库重新计算 企业文化价值得分。当我们排除充满积极情绪的段落时,在公司的年度水平上,新测量值与原始测量值之间的相关性在 0.909(质量)到 0.961(团队合作)之间, 当我们排除充满消极情绪的段落时,相关性在 0.898(质量)到 0.942(团队合作) 之间。作为一项补充调查,我们使用 Larcker 和 Zakolyukina(2012)开发的替代词 列表重复上述分析,仅仅捕捉极度积极的情绪作者认为这些情绪是 CEO 们 在通话中发表欺骗性讲话的重要标志。新测量值与原始测量值的相关系数在 0.880(诚信)到 0.927(团队合作)之间。总之,较高的相关系数表明,管理者 们在电话会议中的自我营销对本文衡量企业文化的方法没有影响。5.5 具有多重含义的单词词嵌入模型的一大局限是一个单词的多重含义被融合形成了一个单一的向量。 我们的语料库来自一个特定的领域财报电话会议记录,与维基百科这样的更 一般的语料库相比,从财报电话会议记录这样的语料库中派生出的词的含义几乎 都是明确的(Magnini 等人 2002; Henry 和 Leone 2016)。尽管如此,我们还是通过 检查我们的主要分析中使用的文化价值观,与使用删除了多义词的字典衡量的文 化价值观之间的相关性来进行稳健性检查。我们使用 Pelevina 等人(2016)开发的算法从嵌入向量中学习词义。该算法 的原理是,对于字典中的每个焦点词,我们首先使用经过训练的 word2vec 模型, 找到与其最高度相关的同义词。紧接着,根据同义词彼此之间的相似程度,将它 们分成不同的组。若某一个焦点词的同义词之间存在多个组别,则意味着这个焦 点词有着多重的含义。我们发现,在我们的词典中,仅有很小一部分的单词(12%,212 个词)有 多重含义。我们从词典中移除了那些具有多重含义的单词之后,用相同的方法对 QA 部分量化计算了文化价值观。在五个价值观中,包含多义词和没有多义词的 测量值之间的相关性很高,从 0