今日财经期刊佳作关注 量化文本分析法在国内外工商管理领域的应用对比与评述

  二、今日财经期刊佳作关注  

量化文本分析法在国内外工商管理领域的应用对比与评述


作者:宋铁波,陈玉娇,朱子君 来源:《管理学报》2021年第4期

  导读  


摘要:基于1980~2019年的国外281篇和国内73篇相关文献,使用编码方法,对量化文本分析法在工商管理领域的应用总体情况、应用主题分布、具体方法的应用情况分别进行国内外对比,探索量化文本分析法在国内外应用的差异性以及国内应用的局限性。然后,总结量化文本分析法应用于工商管理领域可解决的问题类型、方法的优势、面临的挑战及对策。研究发现,量化文本分析法可有效解决主题量化、主体对比、未知主题提炼三大类问题。并从量化文本分析法的研究主题拓展、研究方法优化两个方面,展望了中国工商管理领域研究中的量化文本分析法的应用前景。 

关键词:文本数据;量化文本分析法;国内外对比;主题拓展;方法优化;

引用格式:宋铁波,陈玉娇,朱子君.量化文本分析法在国内外工商管理领域的应用对比与评述[J].管理学报,2021,18(04):624-632.

量化文本分析法是指借助统计学、数学及语言学知识,针对文本材料进行量化处理的方法统称,包括辞典法、词袋法、计算机自然语言处理法;该类方法并不是实证研究的终点,而是挖掘主题或测量构念的一个方法,是研究构念间的相关关系的一个前导[1]。在大数据时代,越来越多的组织事实以文本的形式呈现。根据语言学知识,语言是认知的重要反映,文本内容反映了撰写者的认知、信念、阐释和预期,对认知等因素进行挖掘是解释决策制定过程机制的必要环节。因而,对文本材料进行挖掘是未来组织和个体行为研究中测量构念的必要途径,也是管理学实现理论领先于实践这一目标所必须借助的力量。

20世纪80年代,随着计算机计算能力的大幅度提高,量化文本分析法开始越来越多地应用于学术研究[2]。一些学者已经就文本分析方法在工商管理研究领域的文献进行了整理,其中包括量化文本分析法相关文献[1~3]。总体来看,这些综述类的研究存在两个方面的局限:①侧重介绍方法或侧重关注某一特定研究主题(如情感分析),未能有效揭示文本分析法在工商管理领域的适用性——可解决的问题类型、优势及面临的挑战,也未能揭示当前应用主题的全貌;②并未针对量化文本分析与质性文本分析进行分类考量,这种整体性刻画难以揭示两种不同研究方法的适用边界。

中国工商管理研究领域采用量化文本分析法相对西方同行更晚,仅有10多年的时间,该方法尚未在学术界形成足够的影响力。针对研究方法前景广阔与研究实践较少运用这种背离的现象,本研究对1980~2019年国内外354篇工商管理领域文章进行综述,对比分析国内外量化文本分析法应用主题及具体方法的使用情况,并分析该方法可解决的工商管理领域问题类型、方法的优势、面临的挑战及对策,并就其应用前景进行展望。

1 量化文本分析法

量化文本分析法是一系列方法的统称[4],其简介及评价见表1。按照计算机智能处理程度由低到高分类,量化文本分析法依次分为辞典法、词袋法、计算机自然语言处理法(简称“自然语言处理法”)。

表1 量化文本分析法简介及评价

注:表格整理自文献[5]。

1.1 量化文本分析法的系列方法简介

辞典法以应用性理论为基础,依据词库和人工编码确定关键词句的频率。使用辞典法分析文本的步骤如下:①寻找文本。由于辞典法的计算结果表现为比重或频率,而这一数字形式只有在不同企业或不同时期文本的对比中才有意义,文本是否具有规范性直接影响处理结果的可比性。因而,辞典法适用的文本来源主要为规范性文本,包括年报、董事会报告等。②清洗数据。为提高词频或句频计算的准确性,需要剔除文本中的图表、页眉页脚等冗余信息。③统计计算。依据人工判断对主题句子进行编码,计算句子频率。或者依据已有辞典及自建辞典确定关键词,计算关键词词频[6]

词袋法将文本看成是由若干词语打包而成的词袋,假设文本由若干主题串联而成,主题由若干词语串联而成,词语与主题、主题与文本各个环节服从多项分布,根据词语出现的频率以及设定的概率函数,挖掘文本主题或测量已知主题出现的频率。词袋法的简要步骤如下:①寻找文本。由于词袋法以统计学为基础,以统计计算为处理过程,因而对文本形式的要求较低,文本来源较广,既包括规范性文本,又包括在线评论、人物访谈、领导致辞、会议脚本、网站报道等各类不规范文本。②清洗数据。首先对文本进行分词和去停用词处理,然后进行文本向量化和矩阵化转换。在文本向量化过程中,当依据测量目的而控制词语“输入”,也即有选择地构建文本向量时,称为有监督词袋法,反之则称为无监督词袋法。③统计计算。词袋法常用的数学模型或方法为LDA(latent dirichlet allocation)、STM(structural topic modeling)、朴素贝叶斯方法、聚类分析。LDA假设词语与主题之间服从多项式分布,通过词语共现确定多个主题边界,通过概率计算确定各主题的比重,设置最优主题数量寻找最显著的主题类别。STM在LDA的基础上进行了改进,在计算词语共现时将词语之间的协方差考虑在内,以提高主题边界的准确性。朴素贝叶斯方法假设词语与主题之间服从条件概率分布,通过计算贝叶斯条件概率确定关键词在文本中出现的频率[5]

自然语言处理法以统计学、语言学和计算机技术为基础,通过识别语义并进行概率计算挖掘主题或测量主题。该方法的文本来源、数据清洗过程与词袋法相同,但统计计算过程有差异。一方面,自然语言处理法考虑词语的更高阶非线性分布,以更复杂的函数形式(例如神经网络计算)逼近概率分布特征,从而更加精确地把握词语或主题的分布概率[5];另一方面,该方法关注词语的顺序及由此产生的语义差异,通过设计正则语言识别文本语义,提高文本分析的准确性。

1.2 各种量化文本分析法的对比

这4种量化文本分析法依据不同的理论基础和技术工具处理文本,方法的对比表现如下:①由辞典法、有监督词袋法、无监督词袋法到自然语言处理法,方法的社会科学理论基础越来越薄弱,对处理过程的理论解释越来越难。与之相反,方法的统计学基础和计算机技术基础越来越深厚,对文本的量化处理速度和效率越来越高,文本处理能力越来越强[5]。②由辞典法、有监督词袋法、无监督词袋法到自然语言处理法,方法可处理的文本来源越来越广泛,应用的主题领域越来越丰富。综合而言,几种量化文本处理法在不同的量化目标和文本类型选择方面各具适用性,对于规范文本、小规模文本,以及特定主题的测量,辞典法、有监督词袋法的处理结果更具理论解释力,且人工监督和判断过程可以有效提高处理结果的质量。对于不规范文本(如短小文本)、大规模文本,以及主题挖掘、无监督词袋法、自然语言处理法则更具处理能力的优势。

2 工商管理领域应用量化文本分析法的现状及国内外比较

量化文本分析法于20世纪80年代开始在管理学领域获得越来越多的应用,借鉴DURIAU等[2]的研究,本研究将文献检索时间确定为1980~2019年。通过结构化文献收集方法,以及浏览文献摘要、数据来源及方法部分进行更细致的筛选,本研究最终从WOS的SSCI、SCIE子数据库中筛选出281篇英文文献,从CNKI的CSSCI子数据库中筛选出73篇中文文献,共计354篇文献(下文称“样本文献”)。对样本文献进行全文阅读,并对研究领域、研究方向、具体使用方法、期刊来源、作者、发文时间等信息进行编码,作为后续分析的依据;同时使用常用的文献计量分析软件CITESPACE进行共词分析,作为对编码方法的辅助。

2.1 方法应用的总体情况

结构化检索过程中发现,量化文本分析法广泛地应用于心理学、计算机科学、信息系统科学、医学、工商管理等领域,其中,应用于工商管理领域所占的比重仍较低(英文文献中占比约3.55%,中文文献中占比约2%)。这一现状说明,量化文本分析法作为学科交叉使用方法,在工商管理中发挥的作用十分有限。

文献数量方面,国内外使用量化分析法的文献数量变化趋势较为一致,总体上呈增长趋势,并在2008年后快速增长(见图1)。这与近年来网络平台快速发展,以及监管部门对公司披露的强制性要求提高有关。从研究的起始时间来看,量化文本分析法在工商管理学科的使用,虽在20世纪80年代已经合法化,但是国内学者正式使用该方法始于2005年,远远晚于国外,且研究成果也远不及国外。

图1 1980~2019年间国内外样本文献数量组合图

文献来源方面,有65篇英文文献(约占23.1%)来源于管理学及其二级学科顶级国际刊物。中文文献中,有4篇中文文献(约占5.5%)来源于《管理世界》,有22篇(约占30.1%)来源于管理学科优质期刊,包括《南开管理评论》《审计研究》《会计》《经济研究》《中国工业经济》《中国管理科学》《管理评论》等。从研究领域来看,量化文本分析法在管理学中的应用较为广泛,包括组织行为、公司治理、管理科学、战略管理、技术经济、会计等具体细分领域或方向。

2.2 应用主题的国内外对比

国内外工商管理研究中,量化文本分析法的具体应用领域广泛分布在:①环境层面,包括制度环境和经济环境特征[7];②战略层面,包括高管团队认知及注意力配置[8],创新导向等各类战略导向等[9];③运营和治理层面,包括组织内部监管[6]、人力资源管理[10]等;④业务层面,包括对消费者评论、在线口碑的挖掘等。具体应用领域的研究内容举例见表2。

为梳理量化文本分析法的应用主题的最主要分布领域,本研究采用文献计量方法作为编码方法的辅助。本研究选取共词分析作为主要的计量分析方法,分析结果表明:①在国外,量化文本分析法的最主要应用领域为战略层面,具备高中介中心性和高频特性的节点领域依次为:合法性策略(表现为各类披露的信息含量)、具体战略、战略的可持续性等。该领域的最高词频/中心度分别为32/0.33、16/0.04、11/0.08。除此之外,运营和治理层面也是量化文本分析法的主要应用领域(如公司治理、智力资本管理等)。该领域的最高词频/中心度分别为13/0.11、7/0.03。在国内,量化文本分析法的最主要应用领域也为战略层面,尤其是合法性策略;但是,由于相关文献较少,且应用的主题较为分散,节点的中心度均接近于0。②国内外样本文献的共词分析中,关键词节点的中心性和频率普遍较低,说明量化文本分析法在工商管理中的应用主题还比较分散,难以形成较为明显的主题聚类和高频高中心度节点,方法应用尚处于初级阶段,有待深度拓展。

表2 量化文本分析法应用于工商管理领域的分布

图片

国内外应用量化文本分析法的研究主题差异主要体现在如下几个方面。

(1) 研究主题的深度对比 相较于国外研究,国内研究更重文本内容的分析,而轻潜在主题的深度挖掘。例如,在环境层面,国外学者将该方法应用于竞争者行为[7]等方面的研究中,而国内学者方法的应用仍停留在对规制性政策的分析[14]上。在战略层面,国外学者使用该方法对企业战略进行多角度解读,如战略的慈善性与竞争性[27]、产品导向与市场导向[26],相较于国内研究,能够形成对企业战略的更形象生动的认知。在运营和治理层面,国外学者将该方法应用于高管冲突[40]等的研究中,而国内学者仅局限于研究高管的监管注意力。在业务层面,国外学者注重对产品质量及企业声誉评价、消费者偏好感知等更丰富的主题研究,而国内学者局限于对消费者评论的内容和情感进行分析。

(2) 研究主题的宽度对比 相较于国外研究,国内研究出现了一些本土化情境因素(如互联网+、电子商务等[41])。我国电子商务发展迅速,电子商务普及水平较高,在这一环境下,国内使用量化文本分析法进行研究时,较为关注“互联网+”战略模式、电子商务纠纷等研究主题,形成与国外使用该方法进行研究的差异。另一方面,我国尚处于深化改革时期,国内的制度环境相较于国外更加复杂,制度环境是工商管理领域研究中的一个热点,也引起了量化文本分析法使用者的关注。

(3) 研究主题的动态性对比 相较于国外研究,国内研究重文本的静态分析,轻文本的比较静态分析和动态分析,也即横向纵向对比。例如,国外学者研究企业社会责任的长期变化过程[15],拓展了国内对披露的静态分析,能够更直观地反映企业战略的变化,以及提高从披露中预测企业绩效、企业危机的能力。再如,国外学者对比行业内或集群内企业高管认知的同质性程度[37]、企业间价值共享程度[16],对于国内的研究而言,依然存在较大的研究空间。

总结上述研究主题的差异,我国学者在应用主题上存在如下问题:①主题挖掘深度不够。在处理文本以挖掘主题或测量变量时,国内学者大多浅尝辄止,无法观测到更多维度和更深层次的隐藏性信息;②缺乏主题动态性分析。词频、句频、概率等量化结果是相对数,只有对比才能产生意义,缺乏主题的横向和纵向对比,将降低主题量化结果的理论意义;③当前方法的应用领域较窄,对中国情境下的主题进行挖掘时,还需进一步扩大主题挖掘范围。出现这些问题的最主要原因在于信息处理能力的不足;专业工具和技术使用能力的缺乏,导致学者不能对现有文本进行更深层次的挖掘,以及对更丰富的文本材料进行分析。

2.3 系列方法的应用情况对比

对样本文献进行大量阅读,发现具体的量化文本分析法的应用主要分布在数据及分析部分,很少出现在标题、摘要、关键词等部分,难以用常见的文献计量软件进行分析,因而本部分采取人工阅读并编码的方法获取数据。

从国内外354篇文献来看,国内外量化文本分析法系列方法的应用具有如下共性:①辞典法、有监督词袋法、无监督词袋法、自然语言处理法等4种方法的使用均出现在国内外文献中,说明量化文本分析法在工商管理学科研究中具有较强的适用性,且能够满足不同用途下各类文本材料量化处理的技术要求,是值得推广和拓展的一种研究方法。②具体方法的计算机智能参与程度越高,或者理论基础越薄弱,在当前工商管理相关研究中使用的频率越低。主题编码和辞典法相对灵活,过程容易解释,在国内外样本文献中均占据主要比重(见表3)。说明当前在工商管理领域,对于非结构化文本的处理,理论与先进的计算机科学方法还未能很好地结合,对文本材料的处理能力仍然较低。③当前在工商管理领域,不同量化文本分析法搭配使用的情况较为鲜见,处理结果的稳健性值得商榷。

表3 国内外量化文本分析法系列方法的应用情况/%

量化文本分析法系列方法应用的国内外差异主要为如下几个方面:①在使用辞典法的过程中,国内外学者均通过自建辞典[41]和使用已有辞典[9,12]确定关键词。但相较于国外专业辞典的丰富程度和完善程度,国内工商管理专用辞典相对缺乏,从而限制了学者使用辞典法量化处理文本的空间,直接表现为国内学者使用辞典法的文献数量远远低于国外。②使用有监督词袋法处理文本时,国外学者使用的工具相对而言更为丰富。国内学者倾向于选择文本向量化方法[23]和支持向量机(VSM)工具[28],除此之外,国外学者还使用朴素贝叶斯[27]方法。使用无监督词袋法处理文本时,国内学者常使用LDA[35]、STM[34]主题模型和聚类分析[5]。除此之外,国外学者还使用熵模型[42]、中心共鸣分析[33]等工具。这也是造成国内外相关成果数量差异的原因之一。③使用自然语言处理法处理文本时,国内学者主要使用语义分析[38]。除此之外,国外学者还使用随机树模型[36]、计算机自然语言等更为丰富的工具,这是造成国内外相关成果数量差异的又一原因。

总结量化文本分析法系列方法应用差异,发现我国学者在具体方法的使用方面存在如下问题:①当前方法应用过程中,计算机智能参与程度较低,理论与先进的计算机科学方法还未能很好地结合,对文本材料的处理能力仍然较低;②方法种类较为单一,并且不同量化文本分析法的搭配使用的情况较为鲜见(1)由于少量文献同时采用了两种量化文本分析法,导致表格中国外文献的合计数(100.3%)大于100%。,处理结果的稳健性值得商榷;③当前国内尚缺少工商管理领域的专业辞典或语料库,在使用量化文本分析法的过程中,对数据的清洗,以及对关键词的选取仍存在较强的不规范性,从而限制了处理结果的有效性和客观性;④鲜有将质性文本分析法与量化文本分析法结合使用的研究案例,因而限制了文本量化处理结果的理论边际贡献和文本质性处理结果的可验证性。

3 工商管理领域使用量化文本分析法可解决的问题类型

综合国内外354篇文献,对量化文本分析法的若干应用主题进行归纳和提炼,总结出量化文本分析法应用于工商管理领域可解决的3类问题。

3.1 主题量化

如前所述,工商管理领域使用量化文本分析法的领域主要包括4个层面:环境层面、战略层面、运营和治理层面、业务层面。本研究从解决问题的角度,对4个层面的主题进行归纳,认为使用量化文本分析法可实现4类主题的量化:①行为前因相关主题,包括制度[14]和经济环境特征[7]、组织价值观[12]等;②行为的中间机制相关主题,包括管理者认知和注意力[8]、组织行为的逻辑导向[9];③行为本身相关主题,包括企业风险监控[5]和披露行为、企业印象管理行为[37]等;④行为的结果相关主题,包括企业绩效[16]、员工工作表现[10]等。

需要特别强调的是,企业的印象管理行为作为获取合法性的一个途径,其在文本中的表现形式与其他主题不同,主要表现为文本可读性、文字位置安排、文本情感特征。在当前监管趋于严格,财务数据印象管理空间十分有限的情形下,文本披露是一个重要的印象管理渠道。当管理者不希望对外传递企业的不利信号时,更倾向于撰写晦涩难懂的文本,以隐藏重要信息;反之则倾向于提高文本可读性,增强宣传的效果[30]。同样,文本情绪或主题信息关键词分布越均匀(零散),向读者传递的次数越多,强调程度越高。因而,对于积极情感信号或对企业有利的信号,管理者更倾向于增加其分布的分散度,以便利其印象管理[37]。最后,根据串行位置效应,人们总是对文本文件的头和尾更关注;根据尾部峰值理论,对事件、现象等的尾部的记忆更长久[43]。因而,管理者将企业利空信号或消极情绪词汇置于文本的中间,或是将企业利好信号或积极情绪词汇置于文本首尾(更主要的为尾部),将便利企业的印象管理。

3.2 主题对比

主题量化是针对静态文本进行的,无法反映主题信息的时间、空间变化趋势。对前述4个方面的文本主题进行横向和纵向对比,可解决如下两个问题:①了解情境的敏感性。通过文本主题的横向对比,可以寻找企业之间在战略、认知及价值观、社会网络等方面的差异,从而为企业定位和划分群组提供便利。②掌握企业环境或战略、策略的长期变化趋势。

3.3 未知主题提炼

互联网互动平台和计算机搜索引擎能力的爆炸性发展,为学术研究及企业决策提供了大量非结构化数据,例如单一网络互动平台生成的定向性信息及企业披露的特定模块的信息。数据是客观纷繁的,怎样发现数据背后的规律和信息呢?如何透视数据、提炼主题是大数据时代学术界和实业界共同面临的问题。词袋法和自然语言处理法可实现未知主题提炼。LDA主题模型[35]、STM模型[34]、随机树模型[36]等机器学习过程均可实现未知主题提炼。

4 优势及挑战

4.1 量化文本分析法的优势

量化文本分析法是对文本数据进行量化处理的方法,相较于其他类似或关联方法,其具有数据来源和处理能力两个方面的优势。

4.1.1 数据来源的优势

作为一种数据量化处理方法,量化文本分析法与传统的结构性二手数据处理方法、问卷调查法、实验法等工商管理常用量化方法形成替代关系。但就数据数量和质量而言,量化文本分析法相较其他方法具有不可替代的优势:①数据量更大且数据来源更广。大数据时代,各网络及监管平台、自愿和非自愿性披露等提供的非结构性文本数据的数量呈现爆炸性增长。相较于结构化数据、问卷调查数据、实验数据,文本数据的数量和范围具有绝对性优势,能够有效提高数据处理结果的稳健性和代表性,同时极大地提高了研究主题的丰富程度。②数据时效性更强。相较于结构性二手数据,互联网技术的普及所产生的非结构性信息更具时效性,文本数据的量化处理结果更具有前瞻性和实践指导意义。③数据更具客观性。使用量化文本分析法处理二手文本数据时,能够有效避免问卷调查法的“光晕效应”[12],也可以降低实验法的数据偏差风险,使处理结果更加客观公正。

4.1.2 数据处理能力的优势

工商管理领域使用量化文本分析法,是对定性文本分析法的有效补充。具体如下:①量化文本分析法以统计学、语言学、计算机技术为基础,数据处理能力相较定性文本分析法更强,能够更加快速地处理更大规模的文本材料,获取主题信息[6];②相较于定性文本分析法的归纳过程,量化文本分析法的处理过程中,计算机参与程度更高,并能够一定程度上取代人工判断,处理结构的客观程度更高[6];③通过量化文本分析法测量特定主题或构念,进而依据理论构建数学模型进行实证分析,是对定性文本分析法所归纳理论的一次大数据检验,能够较好地补充定性文本分析法。

4.2 量化文本分析法应用于工商管理领域所面临的挑战及对策

辞典法的人工参与程度相对较高,以相关理论基础为依据对文本处理过程进行讨论、修正和完善,因而处理效果最佳;但过程难以避免关键词选取不当以及主观因素的影响,从而影响处理结果的客观性和可复现程度;同时,对于规模较大的文本材料,辞典法的处理能力有限。在大数据时代,辞典法的使用潜力有限。

词袋法和自然语言处理法两种量化文本分析法的计算机参与程度相对较高,但应用于工商管理领域存在如下问题:①方法的识别能力不足。计算机操作程序基于统计学概率分布来提取主题关键词信息,缺乏对语义环境的充分考虑,即使自然语言处理法对此进行了改进,其对关键词语的识别能力仍然有限。②方法的可视性程度较低。缺乏明确的数学模型和结果验证标准,因而不能很好地与管理学相关理论相结合,从而限制了其在工商管理领域的应用。③词袋法和自然语言处理法通过词语共现,或者词语与主题的概率分布来构建词语网络,进一步处理文档矩阵。对于短文档(如人物专访、问卷调查、短评等),由于词语较少且分散,难以构建词语和主题之间的联系,因而两种量化文本分析法对于短文档的处理能力有限。

当前的一些技术突破为量化文本分析法在工商管理等社会科学领域的应用提供了条件:①计算机语言识别技术获得更新。例如,主题结构模型(STM)可加载语义连贯性分析、残差分析等安装包,使得量化文本分析法在分析不同主题环境下的语义差异,提高关键词语识别能力方面获得突破。②计算机可视化技术获得更新。例如,JavaScript、CSS、R语言等软件可描述主题网络模型、主题时空变化趋势等可视化情境,对于打开词袋法、自然语言处理法的处理过程“黑箱”,加强管理学科相关理论与计算机工具处理过程的结合具有突破意义。③计算机深度学习技术获得更新。例如,word2vec、GloVe、CA-LDA主题模型等模型或软件提供词语嵌入功能,能有效分析词语之间的协相关关系,构建间接和非线性网络关系并使用更为复杂的数学模型,探索词语位置及语义环境,对各类短小文本及不规范文本,可实现更为客观精准的处理。

5 研究展望

5.1 扩大文本来源,拓展应用主题

5.1.1 拓展应用主题的宽度

具体如下:①企业环境层面。在国际化、创新创业和“互联网+”大潮流下,深入挖掘各类在线评论、媒体披露、在线调查、行业刊物等文本,有利于分析企业经营的经济环境和社会环境的各个维度特征、动态性和复杂性特征以及变化趋势[7],有利于全面把握宏观环境。②业务层面。借助量化文本分析法对消费者调查、社交评论等文本进行挖掘,全面解读客户潜在需求或偏好,衡量产品或服务质量、企业声誉,精准识别领先用户,有利于获取更多的创新元素或拓展可能的创业空间。③运营和治理层面。使用量化文本分析法深入挖掘线上及线下员工调查和工作评价、人物专访等一手文本资源,有利于全面把握创新过程中的员工参与度和工作满度、企业人力资源质量、组织变革中的相关利益者情绪及参与度、组织内部冲突等要素,对于动荡环境下企业提高治理效率和稳定性具有重要意义。当前国内学者对量化文本分析法的应用尚未涉及或较少涉及到这些领域,未来值得关注。

5.1.2 拓展应用主题的深度

一方面,行业层面特别是制度环境,使用量化文本分析法对国内外媒体报道、社会大众在线评论、政府报告、法律法规等多样化文本进行分析,挖掘规制、规范、认知制度环境的内容或维度,以及制度环境的变化趋势,可以为企业制定战略和实施行动提供重要及即时性依据[17]。另一方面,在战略层面,对企业家发言、企业会议脚本、企业披露等文本材料进行分析,可以深入挖掘创新、创业过程中创业者(团队)的机会识别,决策者和利益相关者认知,更有力的推动企业战略、企业创业等领域的学术研究。

5.1.3 加强主题的对比性分析

相较于静态分析,动态分析更能反映组织运行条件和环境的时空变化。当前国内对量化文本分析法的应用较少涉及主题的对比性分析,未来值得关注和拓展应用。一方面,对比同一企业不同时期的文本,有助于了解企业自身的动态。量化和解读不同时期企业的战略坚守或战略变革行为,有利于把握企业价值驱动型战略和科学驱动型战略。另一方面,对比同一时期不同企业的文本,有利于察觉企业间的行为异质性[25]。使用量化文本分析法解读不同企业的战略脚本,对企业战略识别系统的各个子构念进行测量,量化企业战略的构成要素,识别不同企业的战略的独特性或差异性,以及战略导向的交互,有利于为分析企业战略、构建战略群组及企业的生态环境提供数据支撑[9]。当然,在进行量化处理时,都需要考虑文本的语言特征,依据文本的可读性、分散度、位置信息等因素调整测量结果的可信度,以避免印象管理行为的干扰[37]

5.2 优化量化文本分析法,提高文本处理效率

5.2.1 加强管理学理论与量化处理过程的融合

国内外工商管理领域使用量化文本分析法的过程,普遍存在着计算机智能参与程度较低的问题,词袋法和自然语言处理法的应用频率较低。产生之一问题的最主要原因是两种方法的量化处理过程较为专业,难以用管理学理论进行解释。当前计算机领域出现的一些新技术(如语言识别技术、可视化技术等),有利于打破词袋法和自然语言处理法量化处理的过程“黑箱”,提高过程的可控程度。

5.2.2 关注方法应用的多样性和稳健性

不同的量化文本分析法依据不同的理论基础和处理过程,其研究结果的稳健性常常被质疑,从而导致该方法在工商管理领域中的应用具有一定程度的局限性。从目前的研究来看,有效性检验并不为学者所重视,包含稳健性检验的文章数量总体较小,常用方法为使用不同的文本对比[13]、手工编码与机器计算的对比[17]等,仅有少量外文文献使用了多种量化文本分析法,用于提高量化分析结果的稳健性,而这一数字在中文文献中为空白。未来研究中必须提高方法使用的有效性,配合其他方法(例如多种具体的量化文本分析法、因子分析、质性文本分析法等进行稳健性检验。

5.2.3 构建工商管理领域专业词库

无论是词袋法还是自然语言处理法,其处理结果的有效性都建立在有效的文本清洗基础上,也即在合理的文本分词、向量化处理的基础上。而对于辞典法,其处理结果是否有偏直接取决于关键词的质量。因而,构建专业词库对于量化文本分析法在工商管理领域发挥作用具有重要意义。当前我国尚缺乏工商管理学科专业词库,有必要改变这一状况,以促进量化文本分析法的应用。

5.2.4 搭建质性与量化文本分析法之间的桥梁

量化文本分析法对于大数据的处理更有优势,但对于较微观、更具有个性化领域的研究,例如传播学、社会学、政治学,以及管理学的部分细分领域(如组织行为),采用定性文本分析法进行编码、阐释和体系建构,能更好地捕捉个体的态度、愿望和愿景[6],而量化文本分析法在处理有关文本时,其灵活性程度略显不足。对于管理学领域日渐丰富的大数据资源,如何在定性与量化文本分析法之间搭建起桥梁?当前有学者提出使用众包文本分析。但是,该方法本质上仍属于定性文本分析法,传统编码所有的问题,该方法都不能避免。也有学者提出,主题模型能够搭建定性文本与量化文本分析之间的桥梁[6]。实际上,该作者将主题模型划定为量化文本分析法中的无监督的语言包法,但能够肯定的是,量化文本分析法在管理学领域的应用,必须以大量的理论基础和过往研究为指导,否则容易脱离哲学社会科学的个性和特质,陷入数字游戏的陷阱。

使用质性文本分析法对小样本文本数据进行处理,提炼出理论,进而以理论为指引,使用量化文本分析法对剩余的大规模文本数据进行处理,以佐证前述理论。如此,既提高了数据处理的效率,又为个性化社会科学领域的理论提供了实证检验。

参考文献

[1] HUMPHREYS A, WANG R J. Automated text analysis for consumer research[J]. Journal of Consumer Research, 2018, 44(6):1274-1306.

[2] DURIAU V J, REGER R K, PFARRER M D. A content analysis of the content analysis literature in organization studies: research themes, data sources, and methodological refinements[J]. Organizational Research Methods, 2007, 10(1):5-34.

[3] LOUGHRAN T, MCDONALD B. Textual analysis in accounting and finance: a survey[J]. Social Science Electronic Publishing, 2016, 54(4):1187-1230.

[4] QUINN K M, MONROE B L, COLARESI M, et al. How to analyze political attention with minimal assumptions and costs[J]. American Journal of Political Science, 2010, 54(1):209-228.

[5] BANKS G C, WOZNYJ H M, WESSLEN R S,et al.A review of best practice recommendations for text analysis in R (and a user-friendly app)[J]. Journal of Business and Psychology,2018,33(4):445-459.

[6] 周婷婷,李维安.信息环境波动与董事会风险功能[J].经济与管理研究,2016,37(5):105-112.

[7] FERRIER W J. Navigating the competitive landscape: the drivers and consequences of competitive aggressiveness[J]. Academy of Management Journal, 2001, 44(4):858-877.

[8] 吴建祖,赵迎.高层管理团队注意力对企业多元化战略选择的影响——基于中国上市公司的实证分析[J]. 经济与管理研究,2012,32(9):107-113.

[9] MOSS T W, NEUBAUM D O, MEYSKENS M. The effect of virtuous and entrepreneurial orientations on micro finance lending and repayment: a signaling theory perspective[J]. Entrepreneurship Theory and Practice, 2015, 39(1):27-52.

[10] MCKENNA B, VERREYNNE M L, WADDELL N. Locating gendered work practices: a typology[J]. International Journal of Manpower, 2016, 37(6):1085-1107.

[11] MISHINA Y, PORAC P J F. Are more resources always better for growth? Resource stickiness in market and product expansion[J]. Strategic Management Journal, 2004, 25(12):1179-1197.

[12] 潘健平.以“合”为贵? 合作文化与企业创新[J].金融研究,2019,61(1):148-167.

[13] GUO W, YU T, GIMENO J. Language and competition: communication vagueness, interpretation difficulties, and market entry[J]. Academy of Management Journal, 2017,60(6):2073-2098.

[14] 余海宗,何娜,夏常源.地方政府环境规制与审计费用——来自民营重污染上市公司的经验证据[J]. 审计研究,2018,33(4):77-85.

[15] TENGBLAD S,OHLSSON C.The framing of corporate social responsibility and the globalization of national business systems: a longitudinal case study[J]. Journal of Business Ethics, 2010, 93(4):653-669.

[16] TATHAM P. An exploration of trust and shared values in UK defence supply networks[J]. International Journal of Physical Distribution and Logistics Management, 2013, 43(2):148-166.

[17] HUMPHREYS A. Semiotic structure and the legitimation of consumption practices: the case of casino gambling[J]. Journal of Consumer Research, 2010, 37(3):490-510.

[18] VAICIUKYNAITE E, GATAUTIS R. How hotel companies can foster customer sociability behaviour on Facebook?[J]. Journal of Business Economics and Management, 2018, 19(4):630-647.

[19] BETTMAN J R, WEITZ B A. Attributions in the board room: causal reasoning in corporate annual reports[J]. Administrative Science Quarterly, 1983, 28(2):165-183.

[20] JAESCHKE R, LOPATTA K, YI C. Managers’ use of language in corrupt firms’ financial disclosures: evidence from FCPA violators[J]. Scandinavian Journal of Management, 2018, 34(2):170-192.

[21] ALLISON T H, MCKENNY A F, SHORT J C. The effect of entrepreneurial rhetoric on micro lending investment: an examination of the warm-glow effect[J]. Journal of Business Venturing, 2013, 28(6):690-707.

[22] 姜付秀,王运通,田园.多个大股东与企业融资约束——基于文本分析的经验证据[J]. 管理世界,2017,74(12):61-74.

[23] 孟庆斌,杨俊华,鲁冰.管理层讨论与分析披露的信息含量与股价崩盘风险——基于文本向量化方法的研究[J]. 中国工业经济,2017,34(12):134-152.

[24] BROWM S V, TUCKER J W. Large-sample evidence on firms’ year-over-year MD&A modifications[J]. Journal of Accounting Research, 2011, 49(2):309-346.

[25] ABRAHAMSON E, HAMBRICK D C. Attentional homogeneity in industries: the effect of discretion[J]. Journal of Organizational Behavior, 1997, 18(S1):513-532.

[26] ROSSETTI C L, HANDFIELD R, DOOLEY K J. Forces, trends, and decisions in pharmaceutical supply chain management[J]. International Journal of Physical Distribution and Logistics Management, 2011,41(6):601-622.

[27] CHOE P, LEHTO M R, SHIN G C, et al. Semiautomated identification and classification of customer complaints[J]. Human Factors and Ergonomics in Manufacturing and Service Industries, 2013, 23(2):149-162.

[28] 史伟,王洪伟.在线产品评论检索系统研究[J]. 情报杂志, 2011,30(9):149-154.

[29] TIRUNILLAI S, TELLIS G J. Mining marketing meaning from online chatter: strategic brand analysis of big data using latent dirichlet allocation[J]. Journal of Marketing Research, 2014, 51(4):463-479.

[30] LO K, RAMOS F, ROGO R. Earnings management and annual report readability[J]. Journal of Accounting and Economics, 2017, 63(1):1-25.

[31] 杨张博,高山行.基于文本挖掘和语义网络方法的战略导向交互现象研究——以生物技术企业为例[J]. 科学学与科学技术管理,2015,35(1):139-150.

[32] O’CONNOR A, SHUMATE M. Differences among NGOs in the business-NGO cooperative network[J]. Business and Society, 2014, 53(1):105-133.

[33] ROSSETTI C L, DOOLEY K J. Job types in the supply chain management profession[J]. Journal of Supply Chain Management, 2010, 46(3):40-56.

[34] 杨海霞,吴维芳,孙含林. 基于STM分析旅行者对不同档次酒店的偏好差异[J]. 数据分析与知识发现, 2016,32(9):51-57.

[35] 韩晓彤,刘燕新,任智军,等. 基于专利挖掘的技术竞争对手研发方向识别[J]. 科学学与科学技术管理,2018,39(2):23-32.

[36] SAINAGHI R, PHILLIPS P, ZAVARRONE E. Performance measurement in tourism firms: a content analytical meta-approach[J]. Tourism Management, 2017, 59(4):36-56.

[37] ALLEE K D, DEANGELIS M D. The structure of voluntary disclosure narratives: evidence from tone dispersion[J]. Journal of Accounting Research, 2015, 53(2):241-274.

[38] 张秀敏,汪瑾,薛宇,等. 语义分析方法在企业环境信息披露研究中的应用[J]. 会计研究,2016,36 (1):87-94.

[39] KWON H, PARK Y. Proactive development of emerging technology in a socially responsible manner: data-driven problem solving process using latent semantic analysis[J].Journal of Engineering and Technology Management, 2018, 50(10):45-60.

[40] DOUCET L, JEHN K A. Analyzing harsh words in a sensitive setting: american expatriates in communist China[J]. Journal of Organizational Behavior, 1997, 18(S1):559-582

[41] 杨德明,刘泳文. “互联网+”为什么加出了业绩[J]. 中国工业经济,2018,35 (5):81-99.

[42] RAO Y, XIE H, LI J, et al. Social emotion classification of short text via topic-level maximum entropy model[J]. Information and Management,2016,53(8):978-986.

[43] BOUDT K, THEWISSEN J. Jockeying for position in CEO letters: impression management and sentiment analytics[J]. Financial Management, 2019, 34(8):77-115.

通讯作者 宋铁波(1965~),男,湖南湘潭人。华南理工大学(广州市 510641)工商管理学院教授、博士研究生导师。研究方向为战略管理。E-mail:18376767056@163.com


【免责声明】《现代财经》微信公众平台所转载的专题文章,仅作佳作推介和学术研究之用,未有任何商业目的;对文中陈述、观点判断保持中立,请读者仅作参考,并请自行承担全部责任;文章版权属于原作者,如果分享内容有侵权或非授权发布之嫌,请联系我们,我们会及时审核处理。


三、健康生活

【健康小贴士】延年益寿的十大食品:海带豆腐汤:长寿“第一汤”。哈尔滨医科大学附属第四医院营养学专家郑东明介绍:海带中含褐藻胶、海藻酸等物质,可以降压降脂,对动脉出血也有止血作用。豆腐是营养学界公认的健康食品,有降低胆固醇的作用,其中的卵磷脂在人体内形成胆碱,有防止动脉硬化的效果。若在炖豆腐汤时加点海带,还能起到降脂降压的作用。两者配合,其降血脂的效果会更好。海带豆腐汤:【做法】 用葱姜蒜爆香后放入海带,加适量清水煮开,然后把切好的豆腐放入汤中,继续煮 5 分钟,再加盐和少许香油出锅即可。


《现代财经-早读分享》是由《现代财经》天津财经大学学报编辑部编辑出版(总第1983期)

编辑整理:蔡子团队  

团队成员高阳、徐姗姗、李莉、郭蔷、许思宁、马洪梅、蔡跀、陈晨、张晓丹、白晓萌、李茸茸、梁晓娟