When is a Liability not a Liability? Textual Analysis, Dictionaries, and 10-Ks(2011) 论文阅读
文章目录
- When is a Liability not a Liability? Textual Analysis, Dictionaries, and 10-Ks(2011) 论文阅读
- Abstract
- 哈佛H4N List 与 Fin-Neg
- 如何创建词汇列表?
- 描述性统计
- Proportional Weights 与 tf.idf Weights
- 实证结果
- 超额回报的比较
- 负面词汇列表与10-K提交期间回报之间的关系
- 使用比例或加权负面词汇计数的交易策略
- Fin-Neg与异常交易量或随后的股票回报波动
- 词汇列表与会计不当行为、内部控制系统存在重大缺陷
- 负面词汇与SUE
- 结论
Abstract
- 为其他学科开发的词汇表会误分类金融文本中常见的词汇
- 在1994年至2008年间大量10-K报告的样本中,几乎四分之三被广泛使用的哈佛词典标记为负面的词汇,在金融语境中通常并不被认为是负面的。
- 我们开发了一个替代的负面词汇表,以及另外五个词汇表,这些词汇表更好地反映了金融文本中的基调
- 基于这些词汇表能反映回报、交易量、回报波动性、欺诈、重大缺陷以及意外收益上
哈佛H4N List 与 Fin-Neg
我们发现根据哈佛列表统计的负面词汇中有近四分之三(73.8%)的词汇,在金融语境下通常并不带有负面含义。
- 诸如税(tax)、成本(cost)、资本(capital)、董事会(board)、负债(liability)、外国(foreign)和副(vice)等词汇都列在哈佛列表中。这些词汇在绝大多数10-K报告中出现频率很高,但很多时候它们仅仅是提名董事会成员或公司的副总裁。
- 哈佛列表中的其他词汇,如矿(mine)、癌症(cancer)、原油(crude oil)、轮胎(tire)或资本(capital),更有可能标识出特定的行业细分而不是揭示负面的金融事件。
本文创建了一个包含2,337个通常在金融意义上具有负面含义的词汇列表(Fin-Neg)。
作者们通常使用外部词汇列表,如哈佛的通用询问者(General Inquirer),来评估文本的语气。通用询问者有182个标签类别。其中包括正面、负面、强烈、微弱、主动、愉悦甚至痛苦等类别。金融和会计研究者一般专注于哈佛IV-4负面和正面词汇类别,尽管似乎没有人发现正面词汇列表能带来多少附加价值。
考虑到词汇的形式,如accidental, accidentally, and accidents.将原本的H4N列表包含2,005个词汇,拓展到4,187个,标记为H4N-Inf
本文提出了另外五个词汇列表:积极(Fin-Pos);不确定性(Fin-Unc);诉讼倾向(Fin-Lit);强模态词汇(MW-Strong);弱模态词汇(MW-Weak)。
如何创建词汇列表?
为了创建Fin-Neg、Fin-Pos、Fin-Unc和Fin-Lit词汇列表,我们首先从1994年至2008年间提交的所有10-K报告中开发了一个词汇及其计数的字典。我们仔细检查了所有出现在至少5%文档中的词汇,考虑它们在财务文件中最可能的用法(包括屈折变化)。超过5%水平的词汇通常是一些通过了初步筛选的词根词汇的屈折变化形式。
- Fin-Neg列表
- 包括:restated(重述)、litigation(诉讼)、termination(终止)、discontinued(停止)、penalties(罚款)、unpaid(未付)、investigation(调查)、misstatement(误报)、misconduct(不当行为)、forfeiture(没收)、serious(严重的)、allegedly(据称)、noncompliance(不合规)、deterioration(恶化)和felony(重罪)。
- Fin-Pos列表
- 包括:achieve(实现)、attain(达到)、efficient(有效)、improve(改善)、profitable(有利可图的)或upturn(好转)在潜在语气上更为单一。我们包含积极词汇列表更多是为了对称性,而不是期望能辨别出对语气识别的影响。
- Fin-Unc列表
- 重点放在不精确的一般概念上,而不仅仅是风险。该列表包括285个词汇,如approximate(大约)、contingency(或然性)、depend(依赖)、fluctuate(波动)、indefinite(不定的)、uncertain(不确定的)和variability(变异性)。
- Fin-Lit列表
- 反映法律争议倾向或按我们的标签来说,具有诉讼倾向的词汇。该列表包括731个词汇,如claimant(原告)、deposition(陈述)、interlocutory(中间的)、testimony(证词)和tort(侵权行为)。我们也包括了诸如legislation(立法)和regulation(规章)这样的词汇,这些词汇不一定意味着法律争议,但可能反映了更倾向于诉讼的环境。
Fin-Neg、Fin-Unc和Fin-Lit列表中的许多词汇是有重叠的。
- MW-Strong 强模态词汇
- 包括always(总是)、highest(最高的)、must(必须)和will(将会)。
- MW-Weak 弱模态词汇
- 包括could(可能)、depending(视情况而定)、might(也许)和possibly(可能)
描述性统计
下表报告了完整样本50,115份10-K报告以及37,287份MD&A子样本的摘要统计信息。总体而言,我们在10-K报告中检查了总计25亿个词汇。对于七个词汇列表变量,在10-K和MD&A样本中,均值和中位数的比较表明,没有任何频率表现出可能由异常值引起的显著偏斜。由于Fin-Neg列表中的词汇数量大约只有H4N-Inf列表的一半。所以占比较低
下表报告了H4N-Inf列表(表A)和Fin-Neg列表(表B)中,无论是完整的10-K文档还是MD&A子部分,出现频率最高的30个词汇。表A中的勾号表示该词汇是否也在Fin-Neg列表中,同样地,表B中的勾号表示该词汇是否也在H4N-Inf列表中。
表III的面板A展示了根据哈佛词汇列表对10-K文档中的负面词汇进行分类时存在的显著误分类问题。前七个词汇(tax、costs、loss、capital、cost、expense、expenses)占了所有所谓“负面”词汇总数的四分之一以上。然而,在金融世界里,公司的成本、资本来源或支付的税款本质上是中性的;管理人员使用这些词汇只是在描述他们的运营情况。
在某些非商业情境中,“foreign”或“vice”可能会被视为负面词汇。然而,在10-K文本中,更有可能的是“foreign”用于描述国际业务,“vice”则用于指代公司的副总裁。
这种分析表明,哈佛词汇列表中的负面词汇在金融语境下可能存在明显的误分类。例如,“tax”(税收)、“costs”(成本)和“expense”(费用)等词汇在财务报告中通常是中性的描述性词汇,而不是真正意义上的负面词汇。这说明了使用专门针对金融语境的词汇列表(如Fin-Neg列表)的重要性,以便更准确地捕捉到文本中的负面语气。
在文本分析研究中,更高的负面词汇频率表明文本具有更悲观或负面的语气。当我们排除了同时出现在Fin-Neg列表中的五个词汇(loss、losses、impairment、against、adverse)后,面板A显示,仅从剩余的25个词汇来看,近50%的哈佛负面词汇计数归因于在财务报告语境中通常并不负面的词汇。
如果进一步检查超过前25个词汇,我们会发现根据我们的分类,在财务文档中,哈佛负面词汇计数中有近四分之三(73.8%)的词汇实际上并不具有负面含义。
表III的面板B报告了根据Fin-Neg列表中最常见的30个词汇。在这30个词汇中,有21个也出现在H4N-Inf列表中,而有9个词汇没有出现在H4N-Inf列表中(claims、restated、restructuring、litigation、discontinued、termination、unable、critical、terminated)。
Proportional Weights 与 tf.idf Weights
Proportional Weights(比例权重)通常指的是词语在文档中出现频率的直接度量。它可能简单地基于词频(Term Frequency, TF),即一个词在文档中出现的次数除以文档中的总词汇数。这种方法主要用于衡量某个词在一个文档中的相对重要性。一个词出现得越多,它的比例权重就越高。
TF-IDF 是 Term Frequency-Inverse Document Frequency 的缩写,是一种统计方法,用以评估一个词对一个文档集或语料库中的某篇文档的重要性。
TF-IDF 权重的计算公式为:
t f − i d f ( t , d , D ) = t f ( t , d ) × i d f ( t , D ) tf-idf(t,d,D)=tf(t,d) \times idf(t,D) tf−idf(t,d,D)=tf(t,d)×idf(t,D)
其中, t f ( t , d ) tf(t,d) tf(t,d) 表示词 t t t 在文档 d d d 中的词频(Term Frequency), i d f ( t , D ) idf(t,D) idf(t,D) 表示词 t t t 对于文档集 D D D 的逆文档频率(Inverse Document Frequency)。 I D F ( t , D ) = log ( N n t ) IDF(t,D)=\log(\frac{N}{n_t}) IDF(t,D)=log(ntN), N N N 为文档总数 , n t n_t nt 为词 t t t 出现的文档数。
TF-IDF 方法不仅考虑了词频,还考虑了逆文档频率,这意味着如果一个词在整个文档集中出现得非常频繁,则其 IDF 值会较低,从而降低该词的总权重。这种机制有助于强调那些能够区分文档的独特词汇,而忽略那些常见但没有太多信息价值的词汇。
实证结果
超额回报的比较
下图报告了根据H4N-Inf和Fin-Neg词汇列表按五分位划分的中位提交期间超额回报。
对于H4N-Inf列表,中位回报并没有反映出与负面词汇比例一致的关系。具有较高哈佛负面词汇比例的公司在提交期间的回报仅略低于那些在这些列表中负面词汇较少的公司。Fin-Neg列表在五分位上的回报模式则是单调递减的。
负面词汇列表与10-K提交期间回报之间的关系
因变量:第[0,3]天的买入持有超额回报(百分比表示)
控制变量包括规模、账面市值比、股票周转率、提交日期前的Fama-French alpha、机构持股比例和纳斯达克虚拟变量。每项回归中还包括了Fama和French (1997)的48个行业虚拟变量和一个常数项。
由于数据具有面板结构,我们使用了Fama-MacBeth (1973)的方法,其中公司将按季度分组,并使用Newey-West (1987)标准差,采用一个滞后。每个时期的估计结果根据频率加权,因为文件日期的日历分布集中在特定日期(参见Griffin (2003))
- 在第(1)和(2)列中,由于使用的是比例权重,H4N-Inf与提交日期的超额回报没有显著关系,而Fin-Neg有一个显著的负系数(t统计量为-2.64)。因此,根据Fin-Neg列表测量的更高比例的负面词汇与更低的超额回报相关。
- 在第(3)和(4)列中,我们使用H4N-Inf和Fin-Neg的加权术语度量进行了相同的回归。在这种情况下,两个词汇列表的符号都是负的,显著性相同,并且在影响上基本一致。说明列表中的词汇计数主要由相对较少的词汇主导,对于H4N-Inf列表,许多这些词汇只是增加了测量中的噪声。
注:一些研究通过相对于历史基准查看比例发生的变化来进行标准化(例如,参见Tetlock, Saar-Tsechansky和Macskassy (2008)或Feldman等人(2008))。在某些条件下,差分或某种形式的标准化可能具有减少词汇上下文误分类影响的优势。差分方法假设读者能够记住之前新闻文章、专栏或10-K报告中负面词汇的频率——例如,今天的专栏或10-K报告中的负面词汇比之前的版本少,因此可能传达出看涨信号。
使用比例或加权负面词汇计数的交易策略
我们计算了通过持有负面词汇计数低的股票的多头头寸和持有负面词汇计数高的股票的空头头寸所产生的Fama和French (1993)四因素投资组合回报。
- 从1997年开始,每年6月,我们根据前一年10-K报告中的Fin-Neg或H4N-Inf词汇计数,将所有可用公司分为五分位。
- 在接下来的12个月中,我们将多头/空头投资组合之间的回报差异对四个因素进行回归。尽管这四个回归中的阿尔法值均为正,但没有一个值在统计上是显著的
- 因此,在控制了各种因素之后,一年期回报与负面词汇计数之间的关系不足以支持投资者进行积极交易。
Fin-Neg与异常交易量或随后的股票回报波动
下表报告了三个不同因变量的回归结果:事件期间超额回报、事件期间异常交易量和事后回报波动。面板A报告了使用比例权重的回归结果,而面板B使用了术语权重(tf.idf)。表中的每一项都是基于单独的Fama-MacBeth (1973)回归(总共42个不同的Fama-MacBeth回归)
- 事件期间超额回报定义为公司在四天事件窗口内的买入持有股票回报减去CRSP价值加权买入持有市场指数回报,以百分比表示。
- 事件期间异常交易量是四天提交事件期间的交易量总和,其中交易量基于提交日期前60天的标准值。
- 事后回报波动是提交日期后252天内每日回报数据的Fama-French (1993)回归的均方根误差,排除提交日期后的前五天。
- 基于比例度量,当提交期间回报是因变量时,H4N-Inf系数为负且不显著。
- 当事件期间超额回报是因变量时,我们发现只有Fin-Neg、不确定性、强模态和弱模态词汇列表在统计上是显著的。所有这些系数都是负号。使用较少负面、不确定、强模态和弱模态词汇的公司在提交日期事件窗口内获得了更积极的市场反应。
- 当四天提交日期期间的异常交易量是因变量时,在控制其他变量的情况下,只有哈佛词汇列表和Fin-Neg词汇列表在单独的回归中是显著的。由于这两个系数都有正号,这意味着在10-K报告中出现的负面词汇越多(根据哈佛或Fin-Neg词汇列表测量),事件窗口期间的异常交易量越高。
- 面板A的最后一行报告了当后续回报波动作为因变量时的结果。这个变量是在四天10-K提交期间之外计算的。在这七个单独的面板A回归中,所有不同的词汇列表都非常显著(除了诉讼词汇列表)。
面板B报告了使用术语加权程序(tf.idf)的单独回归结果。
- 对于超额提交期间回报,所有词汇列表都是显著的,除了诉讼词汇列表。
- 当事件期间异常交易量作为因变量时,除了正面、强模态和弱模态词汇列表外,所有词汇列表都是显著的。
- 最后一行报告了所有词汇列表都是正号并且与后续股票回报波动显著相关。
词汇列表与会计不当行为、内部控制系统存在重大缺陷
如果在提交10-K报告后的一年内针对公司提起了10b-5诉讼,声称存在会计不当行为,或者10-K报告是在所谓的违规期间提交的,则该Fraud变量等于1。
如果公司在10-K提交日期后的18个月内披露了在后续的10-K、10-Q或8-K报告中的重大弱点,二元变量Material weakness=1,重大弱点样本取自Doyle, Ge, 和 McVay (2007)的研究。
- 使用简单的比例度量,在控制其他变量后,七个词汇列表中没有任何一个显著。
- 负面财务词汇或强模态词汇比例较高的公司更有可能报告其内部控制中的重大弱点。
术语加权程序(tf.idf)提高了各种词汇列表的解释力
- Fin-Neg、不确定性和诉讼词汇列表都与10b-5欺诈诉讼显著相关
- 对于面板B第二行的重大弱点类别,所有单独的词汇列表(除弱模态外)都有正系数且显著。因此,使用更强语气(即更多正面、更多负面、更多强模态词汇)的公司更有可能披露内部控制中的重大弱点。
负面词汇与SUE
因变量是基于分析师估计的收益惊喜,按价格标准化。与之前一样,报告的系数基于60个季度的Fama-MacBeth (1973) 回归,使用Newey-West (1987) 标准差,采用一个滞后。
- 多个控制变量在统计上是显著的。正如Tetlock, Saar-Tsechansky, 和 Macskassy (2008) 所发现的,前期的Fama-French alpha、分析师分散度和分析师修正具有预期的系数符号和显著性水平。也就是说,前期表现越高,分析师修正越多,分析师分散度越低,公司的后续收益惊喜越大。
- 在上表的所有四列中,哈佛词汇列表和Fin-Neg词汇列表的系数都是正的并且在统计上显著。这与Tetlock, Saar-Tsechansky, 和 Macskassy (2008) 对季度收益公告前几天的新闻报道的发现相反。显然,在季度收益公告前的特定公司新闻文章似乎准确反映了后续收益惊喜的方向。独立记者使用的更多负面词汇表明悲观情绪(即更低的后续收益惊喜)。对于10-K报告,管理层可能试图通过使用更高比例的负面词汇来降低预期。
结论
总的来说,本文干了两件事
- 通过检查在至少5%的SEC 10-K报告中出现的所有词汇,我们创建了一份我们认为通常在财务报告中有负面意义的词汇列表。在对10-K提交日期的测试中,我们的负面词汇列表与公告回报显著相关。
- 创建了一种术语加权方案,该方案减弱了高频词汇的影响,使得不经常使用的词汇具有更大的影响力。我们发现,这种方案可以减少因词汇误分类引入的噪声。不仅能改进Fin-Neg,还能改进H4N List。
在进一步的分析中,我们还创建了另外五种词汇分类(正面、不确定性、诉讼、强模态和弱模态词汇)。论文发现了一些证据,表明某些词汇列表与10-K提交日期周围的市场反应、交易量、意外收益以及随后的股票回报波动有关。我们的一些词汇列表也与被指控会计欺诈的公司以及报告其会计控制中存在重大弱点的公司相关。
局限性:
- 结果并不意味着文本分析能够解决Roll (1988)所提到的职业中解释股票回报能力有限的问题。
- 现有的关于金融文本的文献实际上并没有确定语气与回报之间的因果关系。语气可能只是代理了其他同时发生的信息——比如10-K报告中揭示的会计数字——这些信息推动了回报。
控会计欺诈的公司以及报告其会计控制中存在重大弱点的公司相关。