Sci论文 - 至繁归于至简,Sci论文网。 设为首页|加入收藏
当前位置:首页 > 管理论文 > 正文

运用社交媒体推动电力行业企业文化建设的策略及建议—基于LDA模型和TF-IDF算法的微博主题聚类研究论文

发布时间:2024-02-06 11:11:44 文章来源:SCI论文网 我要评论














SCI论文(www.scipaper.net):
 
       摘  要:本研究结合隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)模型和词频-逆文档频率(TF-IDF) 算法,采用困惑度评价指标进行主题聚类。对“国网甘肃 电力”官方微博全部内容进行分析,发现社交媒体上企业 文化建设和宣传主题可分为精神维度、制度维度、行为维 度和物质维度。本文就此展开讨论,并提出加强企业文化 建设的策略及建议。

       关键词:企业文化;LDA模型;TF-IDF算法;主题聚类

       一、研究背景

       企业文化是企业在长期发展过程中形成的,能决 定企业生存和发展的软实力。它是一种多元、共融的 文化,最终被转化为精神信念,是企业员工精神素养 的重要来源。良好的企业文化建设是推动企业管理升 级和企业生产发展的有效措施。在中国企业改革创新 发展的新形势下,企业应着力将其文化内化为企业员 工尤其是青年职工的精神素养。

       互联网环境下,运用社交媒体传播企业文化成为 企业战略管理的共识。当前,面对内外部环境变化, 企业文化是推动企业转型升级的核心内容之一。国家 电网甘肃省电力公司(以下简称“国网甘肃公司”) 是国家电网有限公司的全资子公司,本研究以“国网 甘肃省电力公司微博”为研究对象,探讨新媒体环境 下企业如何利用社交媒体深耕企业文化建设。

\
 
       二、研究设计

       对内沟通和对外宣传是企业文化和企业精神素养 的“播种机”和“放大器”。对内,通过媒体文化宣 传、社交活动等统一企业员工思想,形成合力;对 外,发挥媒体传播宣传作用、开展文化交流活动、 扩大品牌影响力、加强员工素质、树立企业形象。因 此,企业的社交媒体账号承担着培育企业文化和企业 精神素养的重任。与传统调研或开座谈会的研究方法 相比,使用文本分析或主题模型更容易从大规模非结 构化文本中发现企业的文化优势,能全面挖掘反映企业文化的各个维度。如果仅依靠人工内容编码,研究 的稳健性容易受个人主观判断影响,分类结果可重复 性较差。而文本主题模型依赖于机器学习的范式,可 以使企业文化和企业精神素养的发现更具客观性和一 致性。此外,使用主题模型进行研究还有以下优势:

       第一,主题模型可以发现隐藏的主题信息。企业 文化和企业精神素养是一个多维的、包含隐性知识的 系统结构。直接通过人工识别文本中的文化维度非常 困难。但主题模型通过词频统计与贝叶斯推理,可以 从大量企业微博文本中发现潜在的主题信息,无需人 工标注和监督。这使得我们可以充分利用数据本身包 含的信息自动发现文本集合中的主题结构,揭示企业 文化和精神素养的多维组成。

       第二,主题模型可以提取文档—主题分布。单个 企业微博文本中可能同时包含多个企业文化维度的信 息。主题模型可以评估每个主题在给定文本中的生成 概率,将文本对每个主题的支持度作为权重,进而可 以定量分析不同企业文化主题的融合情况,这为下一 步解读企业文化的内涵提供了量化支撑。

       第三,主题模型可以获取主题词分布。主题模型 不仅可以发现主题,还可以输出每个主题的关键词分 布,这些词汇可以直观地反映主题的语义内容。研究 可以根据主题词分布来描述主题,并与企业文化和精 神素养的某一内在维度或要素建立关联。

       三、研究方法

       (一)主题提取

       主题提取又称特征提取,是获取文本有价值信息 最有效的方式之一。它着眼于关键词的出现频率,倾 向于直接从文档中获取关键词,借助词频-逆文档频 率(TF-IDF)算法获得高权重词,并将其列为特征选 项。景丽萍(Li-Ping Jing)等采用TF-IDF作为特征选 取方法,为文本数据建立向量空间模型[1] 。张韦引入 WordNet本体库在Web文本间进行语义相似度计算,利 用文本之间的相似度进行主题的语义级别合并,对文本进行聚类后再在各个主题内部使用改进的TF-IDF算 法提取主题关键词,在Web主题提取研究上取得了良 好的效果[2]。

       从文本语料中发现隐藏在词汇下的潜在语义,最 经典的就是LDA(Latent Dirichlet Allocation,隐含狄利 克雷分布)主题模型,这一模型能够较好地对包含多 主题的文本进行分类提取[3] 。LDA主题模型集合了机器 学习的优点,可以迅速从大量文本中挖掘出隐含主题 信息。因此,研究人员多采用LDA模型结合TF-IDF算 法作为主题提取的常规方法。

       (二)研究对象与数据获取

       本研究以微博账号“国网甘肃电力”为研究对 象。截至2022年9月,该账号共发布微博3096条(包括 文章、转发评论、视频),使用Python爬虫技术抓取全 部微博,经清洗筛选后获得2718条有效微博文本,以 csv的文件格式保存。

       (三)TF-IDF特征提取

       TF-IDF即“词频-逆文档频率”的英文简写,结 合了词频计算公式和逆文档频率的计算公式。TF-IDF 算法的公式为:

\
 
        用TF-IDF算法从微博文本中提取关键词。首先, 利用Python中的jieba分词库进行文本清洗;然后,通过 其内置的TF-IDF算法对文本进行处理,可以获得语料 的关键词。通过设置主题数量参数topK=10,获取每篇 文本语料权重得分前10位的关键词。

       (四)LDA主题建模

       LDA主题模型利用三层贝叶斯概率模型识别大规 模文档中潜藏的主题信息。它基于如下假设:文档集 合中存在K个主题且主题之间相互独立;每个文档由 K个主题随机混合组成,且主题参数服从狄利克雷分 布;每个主题是特征词上的多项分布,该多项分布的 参数服从狄利克雷分布。

       1.主题聚类。LDA的模型计算结果可以得到文档- 主题和主题-词语2个概率分布。文档-主题概率分布 获得每个主题下的文档支持权重,权重越大表示该文 档与主题的关联度越大;主题-词语概率分布由一系 列特征词及其在该主题中出现的概率值表示,反映主 题的内部结构,特征词概率值越大,对该主题的贡献 度越高[4]。

       2.参数选择。LDA主题模型算法的起始步骤是设定 参数,包括狄利克雷先验α、β参数和主题数K。本 研究中,α和β分别设置为0.1和0.01[5] 。由于主题的数 量可以显著影响估计的文档主题,因此最佳主题数量 (K)的选择尤为重要。当主题相似性中的余弦相似度 跟随主题数量增加呈下降趋势时,可能存在过度聚类 问题[6] 。为减少此问题,我们引入困惑度(Perplexity) 度量作为判断最优主题数的指标。布雷(D.M.Blei)最 先采用困惑度确定最佳主题数目K。其计算方法为:

\
 
       3.主题挖掘结果。利用Python的gensim库实现LDA 主题模型的构建,gensim库可以从原始的非结构化文 本中无监督地学习到文本的主题向量表达,支持包括 TF-IDF、LDA在内的多种模型。同时,依据主题困惑 度评价标准,人工设置主题数目从1到15的遍历。 一方 面,要使主题一致性尽可能高,以取得模型训练效果; 另一方面,也需要控制主题数量相对较少,以便后续对 主题进行概括与解释,最终确定主题聚类数目为7。通 过LDA主题分类得到“国网甘肃电力”微博账号文本内 容的7个主题以及每个主题的词项分布,整理每个主题 下排名前30的高概率特征词,并进行场景描述,总结归 纳出最符合当前主题下高概率特征词的主题标识。

       四、研究结果

       本研究基于LDA模型的主题聚类结果,根据每个 主题的词项分布,将7个主题划分为精神素养、行为责 任、物质设施和制度管理4个维度,以观察、分析企业 文化融合现状。

       (一)精神素养维度

       企业精神主要表现为企业经营管理中所坚持的精 神,它对企业员工的行为具有规范和促进作用,在提 高企业竞争力方面也有非常显著的影响。Topic6的高 概率特征词为“甘电小科普”“火灾”“消防”“短 路”等,所以将该主题标识类别定义为“火灾消 防”。Topic7的高概率特征词为“用电”“安全”“视 频”“生活”等,所以将该主题标识类别定义为“用 电安全”。这两类主题的微博文本内容占比分别为 10.6%和8.2%。

       (二)行为责任维度

       企业文化中的行为责任指企业的生产经营活动和企业员工在日常工作中表现出来的行动力,包括企业 责任、企业风格和企业影响等诸多内容。Topic1的高概 率特征词为“供电”“线路”“隐患”“排查”“故 障”等,所以将该主题标识类别定义为“安全排 查”。Topic2的高概率特征词为“工作”“服务”“活 动”“检修”等,所以将该主题标识类别定义为“工 作服务”。这两类主题的微博文本内容占总文本的比 重最大,分别为22.4%和22.1%。2022年,国网甘肃 公司与新华社、央视等中央媒体联合完成国家“应 急使命·2022”高原高寒地区抗震救灾实战化演习主 题宣传。

      (三)物质设施维度

       物质文化是企业文化融合的重要组成部分,包括 企业的硬件基础设施(例如厂房、办公场所等),以 及企业员工的工资福利、工作舒适度。Topic3的高概率 特征词为“电网”“工程”“扶贫”“新能源”等, 所以将该主题标识类别定义为“工程建设”。Topic4 的高概率特征词为“发展”“能源”“电力”等,所 以将该主题标识类别定义为“新能源发展”。这两类 主题的微博文本内容占比分别为14.7%和11.3%。这些 内容反映了“国网甘肃电力”聚焦电力保供、能源转 型、“一体四翼”发展布局建设等工作成果。

       (四)制度管理维度

       企业内外部需要遵守的制度管理策略和组织架构 构成企业文化软实力不可或缺的制度维度。Topic5的 高概率特征词为“视频”“新闻”“国家电网”“人 民日报”“世界”等,所以将该主题标识类别定义为 “时事新闻”。该类主题的微博文本内容占总文本的 比重为10.7%,其内容多贴近生活、贴近群众。标志着 企业能深刻把握社交媒体传播规律,围绕公司中心工 作精心策划宣传主题,将官方微博账号从原有以引导 为主的信息传导媒介拓展成一个功能全面、效能强大 的综合服务平台。通过此类主题报道,为企业中心工 作的高效开展和重大项目的顺利推进营造有利的舆论 场,为公司和电网科学发展发挥制度文化“服务、保 障和支撑”作用起到良好的作用。

\
 
       五、策略及建议

       面对海量信息和碎片化传播的社交媒体平台,国 网甘肃公司官方微博新闻宣传的形式和手段日渐丰 富,但企业文化融合体系仍需完善。首先,要积极促 进企业文化与企业精神素养的有效融合。企业要站在为党育人、为国育才的战略高度,关心青年成长、支 持青年发展,将青年精神素养提升工作作为企业建设 的重要任务。企业战略管理策略要坚持党建带团建, 切实发挥主体作用,动员企业青年广泛参与。其次, 要有效发挥企业文化在企业管理中的指导作用,大力 构建企业文化的融合机制,在企业文化和企业管理之 间建立较强的交互性和融合性机制,使企业文化与企 业战略管理有效结合。进一步加强员工的教育培训, 尤其要培养青年员工的精神素养,包括文化意识、文 化素养和文化自信等,发挥企业文化在战略管理策 略、员工自我文化认同等方面的积极作用。在此基础 上,对日常的企业文化建设进行有效的管理,比如可 以把企业文化建设纳入企业绩效考核,加强管理层和 员工对企业文化建设的重视程度,切实做到知行合 一。再次,企业要积极广泛地开展宣传,用好新媒体 平台,将开展青年精神素养提升工作的重大意义、工 作要求,及时、准确、全面、有效地传递给广大青 年。还必须注重企业文化融合的科学性,把握社会主 义思想时代性,彰显企业精神文化特色,体现企业管 理文化协调,保持企业文化形象稳定。

       参考文献

       [1]   Jing L P,Huang H K,Shi H B.Improved feature selection approach TFIDF in text mining[C]//Proceedings.International Conference on Machine Learning and Cybernetics.IEEE,2002,2:944-946.
       [2]   张韦.基于语义的Web主题提取的研究[D].湖北工业大 学,2011.
       [3]   Blei,D.M.,Ng,A.& Jordan,M.I.Latent dirichlet allocation[J].The Journal of Machine Learning Research, 2003(3):4-5,993.
       [4]   梁晨晨,李仁杰.综合LDA与特征维度的丽江古城意象感 知分析[J].地理科学进展,2020(39):614–626.
       [5]   Hao,H.,Zhang,K.,Wang,W.& Gao,G.A tale of two countries:International comparison of online doctor reviews between China and the United States[J].Int J Med Inform, 2017(99):37-44.
       [6]   Wang, B.,Liu, S.,Ding, K.,Liu, Z.& Xu, J.Identifying technological topics and institution-topic distribution probability for patent competitive intelligence analysis:a case study in LTE technology[J].Scientometrics,2014(101):685-704.

关注SCI论文创作发表,寻求SCI论文修改润色、SCI论文代发表等服务支撑,请锁定SCI论文网!

文章出自SCI论文网转载请注明出处:https://www.scipaper.net/guanlilunwen/72847.html

发表评论

Sci论文网 - Sci论文发表 - Sci论文修改润色 - Sci论文期刊 - Sci论文代发
Copyright © Sci论文网 版权所有 | SCI论文网手机版 | 豫ICP备2022008342号-1 | 网站地图xml | 百度地图xml