1.1. PROBLEM SETUP
图1.3:在二维输入空间中直线可分数据的感知器分类(A)一些训练示例将被错误分类(红色区域的蓝色点,反之亦然),用于定义分离线的权重参数的某些值。(B)。最后一种假设将所有的训练样本分类正确。(O是+1,x是-1)
在数据集上表现良好的权重和偏差。一些权重1,…,WA可能最终为阴性,对应于对信贷批准的不利影响。例如,“未偿债务”领域的权重应该是负值,因为更多的债务对信用不利,偏差值b可能是大的或小的,反映了银行在扩展信贷时应该有多宽松或多严格,权重和偏差的最佳选择确定了算法产生的最终假设g∈H。
练习1.2
假设我们使用感知器来检测垃圾邮件。让我们假设每个电子邮件消息都是由关键字出现的频率来表示的,如果消息被认为是垃圾邮件,则输出为+1。
(A)你能想到一些关键字最终会有很大的正面感知器的重量?
(B)会产生负权重的关键词如何?
(C)感知器中的哪些参数直接影响到多少边界线信息最终被归类为垃圾邮件?
图1.3说明了感知器在二维情况下的作用(d=2),平面被一条线分割成两个区域,+1决策区域和-1决策区域。参数w,w2,b的不同值对应于w 141+w2a2+b=0。如果数据集是线性可分的,则可以选择这些参数来正确地分类所有的训练样本。