分层聚类是一种聚类方法,它将数据集中的每个数据点都看作是一个单独的簇,再不断地将相似的簇合并,终形成一个大的簇,这个过程就像是建立一棵树,因此也被称为层次聚类。
为什么要使用分层聚类?
分层聚类可以将相似的数据点聚集在一起,形成一个大的簇,这样可以更好地理解数据之间的相似性和差异性。同时,分层聚类还可以帮助大家发现数据中的异常值和噪声点。
实现分层聚类?
1. 导入数据
dasdas中。
2. 数据清洗
在进行分层聚类之前,大家需要对数据进行清洗,包括去除缺失值、异常值等。
3. 特征选择
在进行分层聚类之前,大家需要选择一些特征,这些特征应该能够很好地区分不同的数据点。
4. 距离计算
在分层聚类中,大家需要计算数据点之间的距离,常用的距离计算方法包括欧几里得距离、曼哈顿距离、余弦相似度等。
5. 聚类算法
6. 可视化
atplotlib库将聚类结果可视化,以便更好地理解数据点之间的相似性和差异性。
dasatplotlib库将聚类结果可视化。