文章目录
聚类是一个将case分类的数据,它不是一个严格的统计方法,所以是一个很有争议的方法。但是因为没有可以替代他的方法,所以现在大家也都在用。
方法/步骤
- 依次点击:analyse–classify–hierarchical cluster,打开分层聚类对话框
- 在聚类分析对话框中,
将聚类用到的变量都放到variables中
- 将地区变量放入case标签中,他的意思是每一个数据都用地区这个值来命名
- 点击plot按钮,打开对话框,设置要输出的图
- 在打开的对话框中,勾选dendrogram,然后点击continue按钮。这个dendrogram是层次聚类谱系图,最后我们还会分析这个图
- 点击method按钮,设置聚类的方法
- 如图所示,通常我们用到的聚类方法是wards method,接着我们需要把变量转换成z分数,点击continue按钮
- 点击save按钮,填写希望保存的聚类类别数范围3–8,据此选项,spss将在数据编辑窗口中添加7个变量,分别标明聚类数位3–8类情况下各省市所属的类
- 设置输出的聚类类别数范围3–8,点击continue按钮
- 点击ok按钮,开始输出数据处理的结果
- 你看到的下面的这个表格叫做聚类过程表,其内容并不是经常被关注,因为大部分实际应用中,聚类的具体过程是被忽略的。但是聚类系数可以帮助我们判断将数据分为几类最合适,判断的方法是,相邻的两个数据变化的幅度显著大于前面的系数的变化范围,这时候分类在这里就是最好的
- 最后是层次聚类谱系图,从这个图中可看到聚类的过程,根据你的需求选择分类的组数
转载请注明来自DataScience.
邮箱: 675495787@qq.com