越野e族论坛
标题:
有没有什么好用的分类器介绍款
[打印本页]
作者:
a339720962
时间:
2016-11-26 17:22
标题:
有没有什么好用的分类器介绍款
有没有什么好用的分类器介绍款
K近邻分类器,贝叶斯分类器,到曾经风靡一时的SVM,再到目前处在浪潮之巅的DeepLearning 我想找一款分类器可是去淘宝找了这几款都没卖?
作者:
BG4KKZ
时间:
2016-11-27 16:22
本帖最后由 BG4KKZ 于 2016-11-27 16:26 编辑
晕了,楼主研究的方向,都是科研院所的高精尖的品类,我全然不懂,恨自己读书太少了。。
赶紧百度了一下,全然看不懂:
k-近邻算法介绍
k-近邻算法(kNN)是采用测试不同特征值之间的距离方法进行分类。工作原理:存在一个样本数据集(训练样本集),并且样本集中每组数据都存在分类标签,当输入没有标签的新数据后,将新数据的每个特征与样本集中的数据对应特征进行比较,然后算法提取样本集中特征最相似数据的前K个(最近邻)的分类标签,行啊unzek个最相似数据中出现次数最多的分类,作为新数据的分类。我们距离的计算一般用欧氏距离,二维平面中(比较直观),d就等于2个点之间的距离,即d=sqrt((x1-x2)^2+(y1-y2)^2),三维立体中,d=sqrt((x1-x2)^2+(y1-y2)^2+(z1-z2)^2),扩展至多维空间,d=sqrt( ∑(xi1-xi2)^2 ) 这里i=1,2..n。
k-近邻算法计算步骤
归一化所有的特征数据(newValue=(oldValue - min)/(max - min)),确保特征值取值范围为[0, 1]
计算已知类别数据集中的点与当前需要计算的点的距离
按照距离递增次序排序
选取与当前点距离最小的k个点
确定前k个点所在的类别出现的频率
返回前k个点出现频率出现最高的类别作为当前点的预测分类
k-近邻算法的优缺点
根据计算步骤我们可以得知该算法的优缺点
优点:
精度一般较高、对异常值不敏感、无数据输入的假定
缺点:
当数据量很大时需要计算每个点的距离取前k个值,计算复杂度和空间复杂度都比较高
该算法比较简单,就不贴代码了
=====================
朴素贝叶斯分类器(Naive Bayes Classifier,或 NBC)发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。同时,NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。理论上,NBC模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为NBC模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,这给NBC模型的正确分类带来了一定影响。
解决这个问题的方法一般是建立一个属性模型,对于不相互独立的属性,把他们单独处理。例如中文
文本分类
识别的时候,我们可以建立一个字典来处理一些词组。如果发现特定的问题中存在特殊的模式属性,那么就单独处理。
这样做也符合贝叶斯概率原理,因为我们把一个词组看作一个单独的模式,例如英文文本处理一些长度不等的单词,也都作为单独独立的模式进行处理,这是自然语言与其他分类识别问题的不同点。
实际计算先验概率时候,因为这些模式都是作为概率被程序计算,而不是自然语言被人来理解,所以结果是一样的。
在属性个数比较多或者属性之间相关性较大时,NBC模型的分类效率比不上决策树模型。但这点有待验证,因为具体的问题不同,算法得出的结果不同,同一个算法对于同一个问题,只要模式发生变化,也存在不同的识别性能。这点在很多国外论文中已经得到公认,在机器学习一书中也提到过算法对于属性的识别情况决定于很多因素,例如训练样本和测试样本的比例影响算法的性能。
决策树对于文本分类识别,要看具体情况。在属性相关性较小时,NBC模型的性能稍微良好。属性相关性较小的时候,其他的算法性能也很好,这是由于信息熵理论决定的。
作者:
a339720962
时间:
2016-12-1 19:10
我想问下哪里买的到?
作者:
C5RS6
时间:
2017-2-25 19:56
欢迎光临 越野e族论坛 (http://bbs-old.fblife.com/)
X3.2