官网博客

您所在位置:首页 > 官网博客 > 正文

回归、分类与聚类:三大方向剖解机器学习算法的优缺点(附Python和R实现)

文章作者:www.dlhot.com发布时间:2019-09-03浏览次数:753

n

在本教程中,作者对现代机器学习算法执行简短的战斗梳理。虽然有许多相似的摘要,但它们并没有真正解释每种算法在实践中的质量,而这正是本书希望实现的目标。因此,本文试图根据实践经验讨论各种算法的优缺点。机器的核心还在本文末尾给出了这些算法的具体实现细节。

通常,对机器学习算法进行分类并不是一件容易的事。有几种方法:生成和歧视,参数和非参数,监督和非监督等。

然而,就实际经验而言,这些并不是实战中最有效的分类算法。因为对于应用程序机器学习,开发人员通常在他们的脑海中有一个最终目标,例如预测结果或对观察进行分类。

因此,我们想要引入另一种对算法进行分类的方法,这些算法基于机器学习任务进行分类。

没有免费午餐定理

在机器学习中,有一个称为“没有免费午餐”的定理。简而言之,这意味着没有一种算法可以完美地解决所有问题,对于监督学习(即预测建模)尤其如此。

例如,您不能说神经网络必须始终优于决策树,反之亦然。影响因素有很多,例如数据集的大小和结构。

NN

优点:分层聚类的主要优点是不再需要将聚类假设为球形。它还可以扩展到大型数据集。

缺点:有点像K-means聚类,算法需要设置聚类数(即算法完成后需要保留的级别)。

3.4DBSCAN

DBSCAN是一种基于密度的算法。它形成一组密集的采样点区域。还有一个名为HDBSCAN的最新开发项目允许更改密度聚类。

NN

优点:DBSCAN不需要假设集群是球形的,并且其性能是可扩展的。此外,它不需要将每个点分配给群集,这会减少群集的异常数据。

缺点:用户必须调整定义簇密度的“epsilon”和“min_sample”参数。 DBSCAN对这些超参数非常敏感。

结语

本文从回归,分类和聚类的?嵌瘸醪搅私饷恐炙惴ǖ挠湃钡悖⒒玖私庹庑┧惴ǖ暮濉5巧鲜雒恐炙惴ǘ加懈辔幢唤沂镜母拍詈拖附凇N颐俏薹ㄖ浪堑乃鹗Чδ苁鞘裁矗嘌的勘晔鞘裁矗亓扛虏呗允鞘裁矗鹊取?

Nnnnnnnnnnnnnn。