目录
一、前言
二、完成情况
2.1 吴恩达机器学习系列课程
2.1.1 分类问题
2.1.2 假说表示
2.1.3 判定边界
2.2 学习数学表达式
2.3 论文写作情况
2.3.1 题目选取
2.3.2 摘要
2.3.3 关键词
2.3.4 引言部分
2.3.4 文献综述部分
三、下周计划
3.1 存在的问题
3.2 计划
一、前言
在上周,学习吴恩达机器学习的系列视频以及思考论文的标题和内容。
本周,按照上周的计划继续执行,主要完成了论文理论部分的介绍。由于电脑无法完成实验,所以这一部分没有写。
二、完成情况
2.1 吴恩达机器学习系列课程
2.1.1 分类问题
在分类问题中,需要预测的变量 是离散的值。因此,先介绍一种一种叫做逻辑回归(Logistic Regression)的算法。
在分类问题中,尝试预测的是结果是否属于某一个类(例如正确或错误)。分类问题的例子有:判断一封电子邮件是否是垃圾邮件;判断一次金融交易是否是欺诈;区别一个肿瘤是恶性的还是良性的等。
将因变量(dependent variable)可能属于的两个类分别称为负向类(negative class)和正向类(positive class),则因变量 ,其中 0 表示负向类,1 表示正向类。
如果用线性回归算法来解决一个分类问题,对于分类, 取值为 0 或者 1,但如果使用的是线性回归,那么假设函数的输出值可能远大于 1,或者远小于 0,即使所有训练样本的标签 都等于 0 或 1。尽管标签取值 0 或者 1,但是如果算法得到的值远大于 1 或者远小于 0 的话,就会感觉很奇怪。
所以,接下来的要研究的算法就叫做逻辑回归算法,该算法的性质是:它的输出值永远在 0 到 1 之间。
2.1.2 假说表示
根据线性回归模型只能预测连续的值,然而对于分类问题,需要输出 0 或 1, 则可以预测:
- 当 时,预测 ;
- 当 时,预测 ;
对于上图所示的数据,这样的一个线性模型能很好地完成分类任务。假使又观测到一个非常大尺寸的恶性肿瘤,将其作为实例加入到训练集中来,这将获得一条新的直线。
此时,再使用 0.5 作为阀值来预测肿瘤是良性还是恶性就不合适了。
因此引入一个新的模型:逻辑回归。该模型将输出变量的范围控制在 0 和 1 之间。
逻辑回归模型的假设是:。
其中, 代表特征向量, 代表逻辑函数(logistic function)。一个常用的逻辑函数为 形函数(Sigmoid function),也是现在的激活函数,公式为:。
的作用是,对于给定的输入变量,根据选择的参数计算输出变量等于 1 的可能性 (estimated probablity)即 。
例如,如果对于给定的 ,通过已经确定的参数计算得出 ,则表示有 70%的 几率 为正向类,相应地 为负向类的几率为 。
2.1.3 判定边界
在逻辑回归中,预测:当 时, ;当 时, 。
根据上面绘制的 形函数图像,当 时,; 时,; 时,。
因为:,则: 时,预测 ; 时,预测 y=0。
假设有一个模型如下图所示:
参数 是向量[-3 1 1]。 则当 ,即 时,模型将预测 。 我们可以绘制直线 ,这条线便是该模型的分界线,将预测为 1 的区域和预测为 0 的区域分隔开。
上述模型需要用曲线才能分隔 的区域和 的区域。这里需要二次方特征: ,则得到的判定边界恰好是圆点在原点且半径为 1 的圆形。
2.2 学习数学表达式
见链接:学习记录之数学表达式(6)-CSDN博客
2.3 论文写作情况
在撰写论文的过程中,我遇到了以下几个突出的问题:
- 如何给论文取一个合适的题目?
- 摘要字数大概多少合适,具体按照什么格式书写呢?
- “介绍”部分会引用一部分参考文献,但是这部分参考文献可能在“相关工作”这一章节出现,如何区别描述?
- 公式中的符号系统需要与其他论文中的区分吗?
- 一些语句的表达如何更加规范?
因此,我带着疑问学习了闵老师的系列论文写作贴子,链接如下:http://t.csdnimg.cn/I4DCc。
2.3.1 题目选取
题目的选取是第一个让我头疼的事情。
- 长度最好控制在 40-60 个字母之间,限定不能太多;
- 需要有吸引力;
- 需要易于理解与检索:使用本领域常用的术语或词汇;
- 尽量不使用 based on:会让读者认为这是简单方法的扩展,无创新点;
- 使用 through、with等来表示技术;
- 若主要贡献为算法,可以使用题目的缩写作为算法的名称;
2.3.2 摘要
Abstract通常包括三部分:已有工作的描述、本文工作、实验结果。因此,可以将摘要分为10句进行描述:
- 描述问题所属的领域,解释最重要的概念或者强调问题的重要性;
- 描述目前该问题的流行解决方案;
- 以However开头,描述已有工作存在的问题,但是指责不能太强烈,需要尊重别人的劳动成果。这句话也可以省略;
- 以In this paper开头,介绍本文工作,出现算法的缩写,可以超过 20 个单词(这里我有点疑惑:意思是其余部分的单词需要控制在 20 个以内吗?);
- 本文方法的第一个技术、步骤、方面、优势、贡献;
- 本文方法的第二个技术、步骤、方面、优势、贡献;
- 本文方法的第三个技术、步骤、方面、优势、贡献;(如果不能介绍三方面,会显得工作量不够;)
- 描述实验设置,如数据来源等;
- 描述实验结果;
- 描述论文意义;
2.3.3 关键词
关键词常被看做摘要的一种补充:
- 通常需要 3-5 个关键词;
- 一个关键词通常由 1-3 个单词构成;
- 关键词按照字母表排序;
2.3.4 引言部分
引言是对本论文所做的一些铺垫,主要有以下几个注意事项:
- 引言可以采用与与摘要保持相同节奏的方式:即将摘要的每一句都扩展为引言中的一段,每段的首句被称为“主题句”;
- 每一段应该有 5-10 句,单词在 50-150 内。若相邻两段较短,可以进行合并;若一段太长,应该进行拆分或删减;
- 在引言的最后一段以 The rest of the paper is organized as follows. 开头,描述论文的组织结构;
- 引言的表达需要简单得体;
2.3.4 文献综述部分
- 绝大数的参考文献应该在文献综述中引用;
- 每篇论文都应该有文献综述,表示对前人工作的尊重;
- 引言中的描述不能与第二节的描述重复;
- 描述文献时需要分门别类的介绍;
- 文献的引用可以在一句完整的句子后引用;
- 不要一次性引用太多文献(不超过3 篇);
三、下周计划
3.1 存在的问题
- 在写论文过程中,产生了一些疑惑,还有以下问题未得到解决:①一些共性的东西,如何用不同的语言或形式表现?如评价指标等;②\hat 和 \widetilde 有什么区别?
- 论文中英语单词大部分都不能超过20个单词吗?
- 理论部分符号如何保持风格统一?
- 语言表达干巴巴的,格式不规范,题目命名无吸引力等,需要继续学习闵老师的论文写作系列贴子;
- 工作站未空闲,想法没有得到验证,所以实验这一部分还没有完成写作;
3.2 计划
- 整理过去一段时间阅读的论文的主要创新点,详细描述实验设计和方法,包括使用的数据集和评价指标;
- 按照摘要、实验等总结一些合适的句型;
- 在工作站空闲时完成实验,将结果写入论文中;
- 继续学习吴恩达机器学习的系列视频;