交易文本数据:情感分析 -另类数据交易- 舆情数据

交易文本数据:情感分析

这是三章中的第一章,专门介绍使用自然语言处理(NLP)和机器学习从文本数据中提取交易策略信号。

文本数据内容丰富但高度非结构化,因此需要更多预处理才能使ML算法提取相关信息。一个关键挑战是在不丢失其含义的情况下将文本转换为数值格式。我们将介绍几种能够捕捉语言细微差异的技术,以便将其用作ML算法的输入。

在本章中,我们将介绍专注于个别语义单元(即单词或称为标记的短语组)的基本特征提取技术。我们将展示如何通过创建文档-术语矩阵来表示文档作为标记计数向量,然后将其用作新闻分类和情感分析的输入。我们还将介绍流行的朴素贝叶斯算法。

在接下来的两章中,我们将在这些技术的基础上使用主题建模和词向量嵌入等ML算法,以捕获更广泛上下文中包含的信息。

鉴于人类使用自然语言进行大量信息交流和存储,文本数据可能非常有价值。与投资相关的数据源范围从公司报表、合同或专利等正式文件,到新闻、观点和分析师研究或评论,再到各种社交媒体帖子或消息。

有用的资源包括:

将非结构化文本转换为机器可读格式需要仔细的预处理,以保留数据的有价值语义方面。人类如何从语言中获取意义并理解内容并不完全被理解,通过机器提高语言理解仍然是一个非常活跃的研究领域。

NLP具有挑战性,因为将文本数据有效用于机器学习需要理解语言的内部工作原理,以及它所指的世界知识。主要挑战包括:

应用场景	描述	示例
聊天机器人	理解用户的自然语言并返回智能响应	Api.ai
信息检索	找到相关结果和相似结果	Google
信息提取	从非结构化文档中提取结构化信息	从Gmail中提取事件
机器翻译	一种语言到另一种语言	Google翻译
文本简化	保留文本的含义,但简化语法和词汇	Rewordify, 简体中文维基百科
预测性文本输入	更快或更容易输入	短语补全, 一个更好的应用
情感分析	说话者的态度	Hater News
自动摘要	提取式或抽象式摘要	reddit的autotldr算法, autotldr示例
自然语言生成	从数据生成文本	计算机如何描述体育比赛, 发表者撤回120多篇胡言乱语论文
语音识别和合成	语音转文本,文本转语音	Google的Web语音API演示, Vocalware文本转语音演示
问答	确定问题的意图,将查询与知识库匹配,评估假设	Watson如何击败Jeopardy冠军Ken Jennings?, Watson Trivia Challenge, Watson背后的AI

使用机器学习从文本数据中提取信号以用于算法交易的一个关键目标是从文档中提取信号。文档是相关文本数据源(如公司报告、标题或新闻文章、推文)的单个样本。语料库是文档的集合。
下图概述了将文档转换为可用于训练能够做出可操作预测的监督机器学习算法的数据集的关键步骤。

下表总结了NLP管道的关键任务: