数据集群
识别集群
簇可以保存很多有价值的信息,但是簇有各种各样的形状,那么我们如何识别它们呢?
主要有两种方法:
- 使用可视化
- 使用聚类算法
聚类
聚类是一种无监督学习。
集群试图:
- 按组收集相似数据
- 在其他组中收集不同的数据
聚类方法
- 密度法
- 分层法
- 分区方法
- 基于网格的方法
密度法认为密集区域中的点比低密集区域中的点具有更多的相似性和差异。
密度法具有良好的准确性。 它还具有合并集群的能力。
两种常见的算法是 DBSCAN 和 OPTICS。
分层方法以树型结构形成簇。
使用先前形成的集群形成新的集群。
两种常见的算法是 CURE 和 BIRCH。
基于网格的方法将数据公式化为有限数量的单元格,这些单元格形成类似网格的结构。
两种常见的算法是 CLIQUE 和 STING
分区方法将对象划分为k个簇,每个分区形成一个簇。
一种常见的算法是 CLARANS。
相关系数
相关系数 (r) 描述了散点图上线性关系和 x/y 变量的强度和方向。
r的值总是在-1到+1之间:
-1.00 | 完美下坡 | 负线性关系。 |
-0.70 | 强下坡 | 负线性关系。 |
-0.50 | 中度下坡 | 负线性关系。 |
-0.30 | 弱下坡 | 负线性关系。 |
0 | 没有线性关系。 | |
+0.30 | 弱上坡 | 正线性关系。 |
+0.50 | 中度上坡 | 正线性关系。 |
+0.70 | 强上坡 | 正线性关系。 |
+1.00 | 完美上坡 | 正线性关系。 |
完美上坡 +1.00:
完美下坡-1.00:
强上坡 +0.61:
没有关系: