具有相关矩阵的R聚类分析和树状图

他们

我必须对大量数据执行聚类分析。由于我有很多缺失值,因此我建立了一个相关矩阵。

corloads = cor(df1[,2:185], use = "pairwise.complete.obs")

现在我有问题如何继续。我阅读了很多文章和示例,但没有任何内容真正适合我。如何找出对我有好处的集群?

我已经尝试过了:

dissimilarity = 1 - corloads
distance = as.dist(dissimilarity) 

plot(hclust(distance), main="Dissimilarity = 1 - Correlation", xlab="") 

我得到了一个情节,但它非常混乱,我不知道该如何阅读以及如何进行。看起来像这样:

在此处输入图片说明

知道如何改善吗?我到底能从中得到什么呢?

我还想创建一个Screeplot。我读到会有一条曲线,您可以在其中看到多少个正确的聚类。

我还进行了聚类分析,并选择了2-20个聚类,但是结果是如此之长,我不知道如何处理以及看什么很重要。

帕特

为了确定“最佳簇数”,尽管有争议,但仍可以使用几种方法。

kgs有助于获得最佳的群集数量。

按照您的代码可以:

clus <- hclust(distance)
op_k <- kgs(clus, distance, maxclus = 20)
plot (names (op_k), op_k, xlab="# clusters", ylab="penalty")

因此,根据kgs函数,最佳聚类数是的最小值op_k,如您在图中所见。你可以用它

min(op_k)

请注意,我将允许的最大群集数设置为20。您可以将此参数设置为NULL

检查页面以获取更多方法。

希望对您有帮助。

编辑

要找到最佳的群集数量,您可以执行以下操作

op_k[which(op_k == min(op_k))]

另请参阅这篇文章以找到@Ben的完美图形答案

编辑

op_k[which(op_k == min(op_k))]

仍然会罚款。要找到最佳群集数,请使用

as.integer(names(op_k[which(op_k == min(op_k))]))

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

具有多个具有匹配列的数据集的相关矩阵热图

具有dplyr,tidyverse和broom的相关矩阵-P值矩阵

张量流中具有相关变量的相关矩阵

计算具有数值和逻辑变量的相关矩阵

r协方差矩阵和相关矩阵

R上具有自举置信区间的相关矩阵

具有huxtable的相关矩阵中的大胆值

从具有未对齐日期的表构造相关矩阵

排序相关矩阵R

相关矩阵的主成分分析

创建具有不同相关值的大型相关矩阵

使用 seaborn 的相关矩阵热图无法在顶行和底行正确显示

R与鱼类丰度的相关矩阵

在R中绘制相关矩阵

r 相关矩阵长格式

是否有R函数导出相关矩阵中显示的相关性?

如何在数据数组的所有像素对上将Pearson相关分析应用为相关矩阵?

使用R的具有零和零的矩阵的热图

P 值热图 - 用 R 表示所有成对比较/p 值(例如,像彩色相关矩阵)

将相关矩阵转换为具有每个行列对记录的数据框

如何计算具有多列的熊猫中的(非自我)相关矩阵?

提取具有属性的相关矩阵的一个三角形

两个 Pandas 数据框的相关矩阵,具有 P 值

ggcorplot() 是否会为具有两个因变量的 lm() 模型创建相关矩阵?

分组相关矩阵

如何有效地获取具有NaN值的数据帧的相关矩阵(具有p值)?

给定权重、波动率和相关矩阵,计算 R 中的投资组合方差

为什么相关矩阵图的热图不显示最后一行和最后一列

熊猫:创建随机样本和相关矩阵