机器学习的算法有哪些?
什么时候使用机器学习算法——朴素贝叶斯分类器?
(1)如果您有一个中型或大型训练数据集。
(2)如果实例有几个属性。
(3)给定分类参数,描述实例的属性应该是条件独立的。
A.朴素贝叶斯分类器的应用
(1)情绪分析-用于脸书分析表示积极或消极情绪的状态更新。
(2)文档分类——Google使用文档分类对文档进行索引,找到相关度得分,即PageRank。PageRank机制将数据库中标记为重要的页面通过文档分类技术进行解析和分类。
(3)朴素贝叶斯算法也被用于分类关于科技、娱乐、体育和政治的新闻文章。
(4)电子邮件垃圾邮件过滤——Google Mail使用Na?veBayes算法将您的电子邮件分类为垃圾邮件或非垃圾邮件。
B.朴素贝叶斯分类器机器学习算法的优势
(1)当输入变量为分类时,朴素贝叶斯分类器算法表现良好。
(2)当朴素贝叶斯条件独立性假设成立时,朴素贝叶斯分类器收敛更快,并且需要相对较少的训练数据,这不同于其他判别模型,例如逻辑回归。
(3)使用朴素贝叶斯分类器算法,更容易预测测试数据集的类别。多层次预测的好赌注。
(4)尽管需要条件独立性假设,朴素贝叶斯分类器在各种应用领域表现出良好的性能。
Python中的数据科学库实现Na?贝叶斯科学工具包学习
数据科学库在r中实现了朴素贝叶斯-e1071。
3.2 K均值聚类算法
K-means是一种广泛用于聚类分析的无监督机器学习算法。K-Means是一种不确定的迭代方法。该算法通过预定数量的K个聚类对给定数据集进行操作。K均值算法的输出是K个聚类,输入数据在聚类之间划分。
例如,让我们考虑维基百科搜索结果的K-means聚类。维基百科上的搜索词“Jaguar”将返回包含单词Jaguar的所有页面。可以叫捷豹汽车,捷豹Mac OS版,捷豹动物。K-means聚类算法可用于对描述相似概念的网页进行分组。因此,算法会将所有谈论美洲虎的网页作为动物分组到一个集群中,将美洲虎作为汽车分组到另一个集群中,以此类推。
A.K-均值聚类机学习算法的优势
(1)在球形聚类的情况下,K-Means比层次聚类产生更紧凑的聚类。
(2)给定一个小的K值,K-Means聚类计算比大量变量的层次聚类更快。
B . K-均值聚类的应用
k表示聚类算法被大多数搜索引擎(如Yahoo、Google)使用,通过相似度对网页进行聚类,识别搜索结果的“相关率”。这有助于搜索引擎减少用户的计算时间。
Python中的数据科学库实现了K-means聚类-SciPy、Sci-Kit学习和Python打包。
数据科学库中的r实现了K-means聚类-统计
3.3支持向量机学习算法
支持向量机(SVM)是一种用于分类或回归问题的监督机器学习算法,其中数据集教会SVM关于类的知识,以便SVM可以对任何新数据进行分类。它的工作原理是找到将训练数据集分成不同类的线(超平面)。因为有许多这样的线性超平面,SVM算法试图最大化所涉及的各个类之间的距离,这被称为边际最大化。如果确定了使类之间的距离最大化的线,那么对看不见的数据进行良好综合的可能性就会增加。
A.SVM分为两类:
线性SVM-在线性SVM中,训练数据,即分类器,与超平面分离。
非线性SVM在非线性SVM中,不可能用超平面来分离训练数据。例如,用于面部检测的训练数据由一组是面部的图像和另一组不是面部的图像(换句话说,除了面部之外的所有其他图像)组成。在这种情况下,训练数据过于复杂,无法找到每个特征向量的表示。从非人脸集合中线性分离人脸集合是一项复杂的任务。
B.使用SVM的优势
(1)SVM为训练数据提供了最佳的分类性能(准确性)。
(2)SVM为未来数据的正确分类提供了更高的效率。
SVM最好的一点是它不会对数据做任何强有力的假设。
(4)不会过拟合数据。
C.支持向量机的应用
(1)SVM通常用于预测各种金融机构的股票市场。例如,它可以用来比较股票与同行业其他股票的相对表现。基于SVM学习算法所做的分类,股票的相对比较有助于管理投资决策。
(2)Python中的数据科学库实现了支持向量机——sci kit学习,PyML,SVMStruct Python,LIBSVM。
(3)R中的数据科学库实现支持向量机——klar,e1071。
3.4 Apriori机器学习算法
Apriori算法是一种无监督的机器学习算法,它从给定的数据集生成关联规则。关联规则是指如果A项出现,B项也以一定概率出现。大多数生成的关联规则都是IF_THEN格式的。比如,人们买iPad,也会买iPad保护套。为了得到这个结论的算法,它首先观察购买iPad的人数。这样比例就好比100人买了一个iPad,85人也买了一个iPad保护套。
A.A .先验机器学习算法的基本原理:
如果某个项目集频繁出现,则该项目集的所有子集也会频繁出现。
如果某个项目集不经常出现,则该项目集的所有超集都不会经常出现。
B.先验算法的优势
(1)易于实现和并行化。
(2)2)Apriori实现使用大项目集属性。
C.C.Apriori算法的应用
药物不良反应的检测
Apriori算法用于医疗数据的关联分析,如患者服用的药物、每个患者的特征、患者对不良反应的体验、初步诊断等。这种分析产生关联规则,帮助识别由患者特征和药物的组合引起的药物的不良副作用。
市场篮子分析
亚马逊等许多电商巨头利用Apriori得出数据洞察,哪些产品可能会一起购买,哪些对促销最有反应。例如,零售商可能会使用Apriori来预测购买糖和面粉的人很可能会购买鸡蛋来烘焙蛋糕。
自动完成应用程序
Google Auto-Complete是Apriori的另一个流行应用,当用户键入一个单词时,搜索引擎会寻找人们通常在特定单词后键入的其他相关单词。
python中的数据科学库实现了Apriori机器学习算法PyPi中有一个Python实现了Apriori。
数据科学库在R-arules中实现Apriori机器学习算法
3.5线性回归机器学习算法
线性回归算法显示两个变量之间的关系,以及一个变量的变化如何影响另一个变量。该算法显示了自变量改变时对因变量的影响。自变量被称为解释变量,因为它们解释了因变量对因变量的影响。因变量通常被称为关注因素或预测因素。
A.线性回归机器学习算法的优势
(1)它是可解释性最强的机器学习算法之一,很容易向他人解释。
(2)易于使用,因为它需要最小的调整。
(3)是应用最广泛的机器学习技术,运行速度快。
B.线性回归算法的应用
估计销售额
基于趋势销售预测,线性回归在商业中非常有用。如果公司的月销售额稳步增长——对月销售额数据进行线性回归分析,有助于公司预测未来几个月的销售额。
风险评估
线性回归有助于评估涉及保险或金融的风险。健康险公司可以对理赔次数和每个客户的年龄进行线性回归分析。这一分析有助于保险公司发现,老年客户往往会提出更多的保险索赔。这种分析结果在重要的商业决策中起着至关重要的作用,并且旨在解决风险。
Python-statsmodel和SciKit中数据科学库的线性回归
R中的数据科学库实现了线性回归-统计。
3.6决策树机器学习算法
因为父母的来访,你正在制定一个周末计划,要去城里最好的餐馆,但你犹豫不决,不知道该选择哪家餐馆。每当你想去餐厅,你会问你的朋友提利昂他是否认为你会喜欢某个特定的地方。为了回答你的问题,提利昂必须先搞清楚你喜欢什么样的餐厅。你给他一个你去过的餐厅列表,告诉他你是否喜欢每一家餐厅(给一个标记的训练数据集)。当你问提利昂你是否想要一家特别的餐馆时,他会问你各种各样的问题,比如“是的”或者“屋顶餐馆?”餐厅“r”提供意大利菜吗?现场音乐?r餐厅营业到午夜吗?“等等。提利昂要求你提供几个信息问题,以最大化信息利益,并根据你对问卷的回答给出是或否的答案。在这里,提利昂是你最喜欢的餐馆偏好的决策树。
决策树是一种图形表示,它使用分支方法来说明基于特定条件的决策的所有可能结果。在决策树中,内部节点代表属性的测试,树的每个分支代表测试结果,叶节点代表特定的类标签,即计算完所有属性后做出的决策。分类规则由从根到叶节点的路径表示。
A.决策树的类型
(1)分类树——这些被认为是默认的决策树,用于根据响应变量将数据集分类到不同的类中。这些通常在响应变量被自然分类时使用。
(2)回归树-当响应或目标变量是连续的或数字的时,使用回归树。与分类相比,这些通常用于预测问题的类型。
根据目标变量的类型——连续变量决策树和二元变量决策树,决策树也可以分为两种类型。它是一个目标变量,有助于决定特定问题需要哪种决策树。
B.你为什么选择决策树算法?
(1)这些机器学习算法有助于在不确定的情况下做出决策,并帮助您改善沟通,因为它们提供了决策的可视化表示。
(2)决策树机器学习算法有助于数据科学家捕捉这样一个想法,即如果采取不同的决策,情况或模型的操作性质将发生巨大变化。
(3)决策树算法通过允许数据科学家遍历向前和向后的计算路径来帮助做出最佳决策。
C.何时使用决策树机器学习算法
(1)决策树对错误具有鲁棒性,如果训练数据包含错误,决策树算法将最适合解决此类问题。
(2)决策树最适合用属性值对表示实例的问题。
(3)如果训练数据有缺失值,可以使用决策树,因为它们可以通过查看其他列中的数据来很好地处理缺失值。
(4)当目标函数有离散输出值时,决策树是最合适的。
D.决策树的优势
(1)决策树是非常本能的,可以很容易地向任何人解释。非技术背景的人也可以解释从决策树中得出的假设,因为它们是不言而喻的。
(2)使用决策树机器学习算法时,数据类型不是约束条件,因为可以处理分类和数值变量。
(3)决策树机器学习算法不需要对数据中的线性做任何假设,因此可以在参数为非线性时使用。这些机器学习算法对分类器的结构和空间分布不做任何假设。
(4)这些算法在数据探索中是有用的。决策树隐式地执行特征选择,这在预测分析中非常重要。当决策树适合训练数据集时,将决策树顶部划分的节点视为给定数据集中的重要变量,默认完成特征选择。
(5)决策树有助于节省数据准备时间,因为它们对缺失值和异常值不敏感。缺少值不会阻止您拆分构建决策树的数据。离群值不会影响决策树,因为数据拆分是基于拆分范围内的一些样本而不是精确的绝对值发生的。
E.决策树的缺点
在(1)树中做出的决策越多,任何预期的结果就越不准确。
(2)决策树机器学习算法的主要缺点是结果可能是基于期望的。实时决策时,收益和结果可能与预期或计划不同。很有可能,这可能会导致不切实际的决策树和错误的决策。任何不合理的预期都可能导致决策树分析中的重大错误和缺陷,因为不可能总是计划决策可能产生的所有可能性。
(3)决策树不适合连续变量,导致不稳定和分类平台。
(4)与其他决策模型相比,决策树易于使用,但创建一个具有多个分支的大型决策树是一项复杂而耗时的任务。
(5)决策树机器学习算法每次只考虑一个属性,不一定最适合决策空间中的实际数据。
(6)具有多个分支的大规模决策树是不可理解的,并且在表示上造成一些困难。
F.决策树机器学习算法的应用
(1)决策树是流行的机器学习算法之一,对于金融中的期权定价非常有用。
(2)遥感是决策树模式识别的一个应用领域。
(3)银行使用决策树算法,根据贷款申请人的违约支付概率对其进行分类。
(4)Gerber Products公司,一家受欢迎的婴儿用品公司,使用决策树机器学习算法来决定他们是否应该继续在产品中使用塑料PVC(聚氯乙烯)。
(5)拉什大学医学中心开发了一个名为Guardian的工具,它使用决策树机器学习算法来识别处于风险中的患者和疾病趋势。
Python语言的基于数据科学库的决策树机器学习算法是-SciPy和Sci-Kit学习。
数据科学库的R语言实现决策树的机器学习算法是插入符号。
3.7随机森林机器学习算法
让我们继续我们在决策树中使用的同一个例子来解释随机森林机器学习算法是如何工作的。提利昂是你餐馆偏好的决策树。然而,作为一个人,提利昂并不总是准确地宣传你的餐馆偏好。为了获得更准确的餐厅推荐,你问了一对夫妇的朋友,如果大多数人都说你会喜欢,你就决定去R餐厅。除了问提利昂,你还想问琼恩·雪诺、桑铎、波隆和布兰,谁投票决定你是否喜欢R餐厅。这意味着您已经为决策树——也称为森林——构建了一个集成分类器。
你不希望你所有的朋友都给你相同的答案——所以你给每个朋友提供稍微不同的数据。你不确定你的餐馆偏好是否进退两难。你告诉提利昂你喜欢开屋顶的餐厅,但也许,只是因为它是在夏天,当你参观餐厅时,你可能会喜欢它。在寒冷的冬天,你可能不是餐厅的粉丝。所以各位朋友不要用你喜欢开的天台餐厅的数据点来对你的餐厅喜好提出自己的建议。
通过向你的朋友提供稍微不同的餐馆偏好数据,你可以让你的朋友在不同的时间问你不同的问题。在这种情况下,只需稍微改变您的餐馆偏好,您就在模型级别注入了随机性(不同于决策树在数据级别的随机性)。你的朋友现在形成了你餐馆偏好的随机森林。
随机森林是一种机器学习算法,它使用bagging方法来创建一束随机数据子集的决策树。该模型在数据集的随机样本上训练多次,以从随机森林算法获得良好的预测性能。在这种整体学习方法中,随机森林中所有决策树的输出被组合以做出最终预测。随机森林算法的最终预测是通过轮询每个决策树的结果或仅通过使用在决策树中出现最频繁的预测来得出的。
比如上面的例子——如果五个朋友决定你会喜欢餐厅R,但是只有两个朋友决定你不会喜欢餐厅R,那么最后的预测是你会最喜欢餐厅R的总是赢。
A.为什么要用随机森林机器学习算法?
(1)Python和r中有很多很好的开源算法。
(2)在没有数据的情况下保持准确性,也能抵抗异常值。
(3)简单地用随机森林算法作为基础,只用几行代码就可以实现。
(4)随机森林机器学习算法帮助数据科学家节省数据准备时间,因为它们不需要任何输入准备,它们可以处理数值、二进制和分类特征,无需缩放、变换或修改。
(5)隐式特征选择,因为它给出了在分类中什么变量是重要的估计。
B.使用随机森林机器学习算法的优势
(1)与决策树机器学习算法不同,对于随机森林来说,过拟合不是问题。没有必要修剪随机森林。
(2)这些算法速度很快,但并不是在所有情况下都如此。随机森林算法在800MHz机器上运行,数据集为100个变量,50000个案例在11分钟内生成100棵决策树。
(3)随机森林是用于各种分类和回归任务的最有效和通用的机器学习算法之一,因为它们对噪声更鲁棒。
(4)很难建立一个坏的随机森林。在随机森林机器学习算法的实现中,很容易确定使用哪些参数,因为它们对用于运行算法的参数不敏感。人们可以很容易地建立一个体面的模型,而不需要太多的调整。
(5)随机森林机器学习算法可以并行生长。
(6)该算法在大型数据库上运行高效。
(7)分类精度高。
C.使用随机森林机器学习算法的缺点
它们可能很容易使用,但很难从理论上分析它们。
随机森林中的大量决策树会降低实时预测算法的速度。
如果数据由不同级别的分类变量组成,算法将优先选择级别更多的属性。在这种情况下,可变重要性分数似乎不可靠。
RandomForest算法用于回归任务时,不会超出训练数据中响应值的范围。
D.随机森林机器学习算法的应用
(1)随机森林算法是银行用来预测贷款申请人是否可能是高风险的。
(2)在汽车工业中用于预测机械零件的失效。
(3)这些算法用于医疗保健行业,预测患者是否可能患上慢性病。
(4)它们还可以用于回归任务,例如预测社交媒体份额和绩效得分的平均值。
(5)最近,这种算法还被用于预测语音识别软件中的模式,并对图像和文本进行分类。
数据科学库用Python语言实现的随机森林机器学习算法就是Sci-Kit学习。
R语言数据科学库实现randomForest机器学习算法。