情感分析也被称为情感分类,意图挖掘;是让机器去辨别和理解人类的情感语言文本的技术。互联网技术发展至今,人人都和手机形影不离,任何消费行为、生活休闲、美食评论、旅行决策都可以通过网络的连接让信息共享和公开。商家也利用这些被互联网记录下来的信息做着重要的商业决策和营销方案。比如舆情监控,比如用户反馈信息,任何正面或者负面的信息都左右着消费者的购买动向,也因此,商家会更希望以更快捷、更有效的方式获得这些信息以满足他们的用户需求。 能读懂人心的机器就像是X战警里Professor X的心灵感应和精神控制的能力,从人类内心深处窥探和掌握意图动向,用好的产品得到好评,收到负面评论去评判原因和归因以加强产品迭代和优化。而这一切的一切离不开数据对机器的教导,才能去让机器读懂人类的情感,去理解人类的意图。 本文将浅谈情感分析是什么,如何做情感分析的数据标注,如何获取情感分析的数据。
什么是情感分析?
情感分析能够通过提取特定的词或短语来判断一条内容是正面、负面还是中立的。情感分析的主要目的是分析受众对某些产品、事件、人物或言语的看法。相对于客观事实,情感是主观的表达方式,用来描述一个人对某个特定主题或话题的感受。虽然 “情感 “和 “情绪 “被许多人交替使用,但这两个概念之间存在着根本的区别。情感意味着对一个目标的更有组织的处置,而情绪描述的是一种非自愿的生理反应。 在文本中,情感可以用两种不同的方式来表达。它可以是显性的,就是直接表达意见(例如:”这条裙子真好看”),或者是隐性的,即文本暗示意见(例如:”我的裙子去年被撑坏了。”)。大多数情感分析研究的重点是显性情感,因为这类情感更容易被发现和分析。通常分析情感有两个方面:
- 情感极性:分析情感的方向。(是正面还是负面?)
- 情感强度:情感程度由高到低
如何做情感分析的数据标注?
通过基于人工智能的情感分析模型,使视频中的文本、音频或语音等语音数据能够被理解。NLP标注、实体标注和文本标注是常见的语音数据标注方式,通过这一类的数据标注能够训练机器读懂人类的情感,并在下次判断中分析不同人的情感。
启动情感分析标注项目的建议
- 制定项目章程和标准
让基于文本的情感标注更为简单。很多情感分析项目中牵扯到大量的文本标注,简单直白的显性文本类似“咖啡好难喝”可以要求标注人员直接标注出“正面”、“负面”还是中立;复杂的隐性文本就会难以制定一个标准。因此,如果涉及一些“讽刺”、“反讽“等复杂情绪的表达时,标准就显得尤为重要,这直接影响了项目的周期和数据交付的质量。
- 数据标注流程和质检规范:
为了帮助尽可能地减少人为错误,标注团队需要经过严格的培训和考核。特别是在情感分析的情况下,往往没有正确或错误的答案,因此很难衡量准确性。像Cohen’s kappa (κ), Fleiss’ kappa (K), 或Krippendorff’s alpha这样的指标来衡量标注人员之间的一致性,可以作为衡量质量的指标。这些指标可用于分析标记的数据集和标注标准,以改善标注过程碰到的一系列标注疑难。
如何获取情感分析的数据
对消费者洞察力日益增长的需求将使情感分析和意见挖掘在未来保持强烈的相关性。这种快速增长的技术有可能颠覆大量的行业,并改善客户体验。 澳鹏是情感分析和内容相关性标注领域的训练数据供应商。澳鹏数十年来深耕语言学领域,积累了丰富的专业经验。我们的全球众包资源遍布 170 +个国家/地区,支持 235+种语言的专业知识。我们已经助力众多零售/电子商务、金融、保险、医疗、交通等行业的企业成功落地了 NLP 项目。我们提供训练数据,帮助构建能够理解人类文本和语音并提取其中含义的智能系统,可应用于多种AI场景,例如聊天机器人、语音助手、搜索相关性、情绪分析等。