Logo 新全球经济的诞生

数据清洗


我们主要从Nexis上的公平披露(Fair Disclosure, FD)Wire语料库收集数据。2000年8月的一项监管变革——“公平披露条例”(Regulation Fair Disclosure)——引入了公司披露信息的强制公开报告要求。作为对这一监管变革的回应,公平披露(FD)Wire于2001年4月开始运营,作为一个发布新闻稿的服务,用以传播公司的相关信息。FD Wire提供的服务之一是发布公司选择参与的电话会议(earnings call)文字记录。

我们正在使用Nexis API,在LexisNexis上搜索FD Wire的文字记录。数据显示,电话会议记录在2005年前并不稳定可得,尽管部分公司的记录可追溯到2001年。因此,我们关注的电话会议时间范围不仅限于2005年至2024年。

我们关注全球行业分类标准(Global Industry Classification Standard,简称GICS®)中的三个行业板块。GICS®是一种行业分析框架,帮助投资者了解全球公司主要的业务活动。该分类标准由MSCI和标普道琼斯指数共同开发,旨在为投资者提供一致且全面的行业定义。我们选取的三个板块包括金融、能源和材料。

随后,我们根据PERMNO(唯一的股票(股份类别)级别标识符)从数据框中过滤掉无关的公司,按照日期排序,并核实是否拥有所需时间范围内的电话会议记录。同时,我们会标记重复记录,并在Nexis Lexis或Factiva中检索缺失的电话会议资料。

自然语言处理


我们的研究方法利用自然语言处理(NLP)技术,系统分析财报电话会议记录中关于“China”或“Chinese”的提及内容。相关句子通过预训练的BERT模型——具体为 sentence-transformers/all-distilroberta-v1——转换为数值表示(嵌入向量),以捕捉其语义含义。

为了评估情感,我们为关键概念(如经济情绪和劳动力成本)定义了自定义“语义轴”,通过对比正面短语(例如“经济强劲增长”)和负面短语(例如“经济下滑”)构建这些轴。情感评分通过计算每句话与这些语义轴的余弦相似度来完成。

为确保结果的稳健性,我们将基于自定义语义轴的情感趋势与金融领域专用情感模型FinBERT的输出进行了对比。最后,我们将平均情感得分按时间进行可视化,以追踪企业话语的变化趋势。

深入访谈


即将到来