SPSS+AMOS数据分析案例教程-关于中介模
SPSS视频教程内容目录和跳转链接
Mplus中介和调节教程
大学生问卷互填群
Meta分析辅导+代找数据
SPSS+AMOS数据分析案例教程-关于中介模
SPSS视频教程内容目录和跳转链接
R语言快速入门视频教程
LCA潜在类别分析和Mplus应用
Amos结构方程模型数据分析入门教程
倒U关系回归分析中介效应和调节效应分析SPSS视频教程
统计咨询(图文问答)

Python机器学习:[1]贝叶斯文本分类器

最近在我的网站骂我的人比较多,想写一个语义分类器,让电脑自动屏蔽那些骂人的评论,怎么办呢?这就用到了一个机器学习的算法——贝叶斯文本分类器。这个算法很有用处,可以让电脑识别人类语言,如果加上一点心理学的知识,可以让电脑理解人类的文章并让电脑判断作者的个性特征,这就复杂了,现在我们先做一个简单的示范。

  • 首先是需要一个样本集,用于训练文本分类器:这里面用到了一个分词算法【cs.perse】,其实是一个机械分词算法,cs.py 文件的代码粘贴在最下面。
  • 下面的函数利用样本创建一个词表,也就是所有词的集合
  • 下面的函数将一个词表转换成词向量
  • 训练样本得到脏话/非脏话的词分布概率
  • 利用贝叶斯条件概率,计算输入的一句话到底是不是骂人的话,如果是骂人的话,就返回1,否则返回0
  • 最后测试一下【’fuck you! mother fucker!’】这句话,输出结果为:1

转载请注明来自DataScience.

邮箱: 675495787@qq.com

Excel2013:[14]突破数据有效性单行单列限制

给Excel做下拉列表是经常用到的,但是有时候我们的下拉列表需要的数据不仅仅在一行或一列中,可能存在于两列,那时候你会发现,数据有效性无法将两列数据设置成下拉列表的数据源,我们这时候就用到了下面的技巧:

  • 我们现在要将这两列数据设置成数据有效性的数据源
  • 选中第一列的数据
  • 给这一列数据定义一个名称:公式–定义名称
  • 打开这个对话框,将名称设置成:姓名,点击确定按钮
  • 选中要设置下拉列表的这一列,或者要设置数据有效性的这一列
  • 选择【数据验证】,Excel2013将数据有效性改成了数据验证。
  • 我们设置成序列,勾选图中所示两项,将来源设置成刚才定义的区域【姓名】,点击确定按钮
  • 现在出现在下拉列表里的数据只有这三个人的名字,接着要添加别的名字了
  • 打开名称管理器
  • 编辑【姓名】区域
  • 选中这两列数据作为引用位置,点击确定按钮
  • 现在来看看,是不是出现了两列的数据

转载请注明来自DataScience.

邮箱: 675495787@qq.com

wxpython教程:[7]boxsizer布局

今天我们说一下使用boxsizer进行布局的方法,这种布局方式更适合制作有很多不同种类控件的界面。boxsizer分为横向和纵向两种,如果你想要把控件水平排列,就使用横向boxsizer,如果你想让控件都垂直排列,就使用纵向boxsizer,当然很多界面既有横向排列又有纵向排列的控件,我们就可以使用boxsizer的嵌套。

  • 这是我们今天用到的第一部分代码,你运行它的话就可以看到一个界面,有一个标签和文本框,他们是水平排列的。下面我们逐句解释。
  • 这三句话很简单,首先创建了一个panel面板,然后创建一个纵向box,最后创建一个横向box,我们的目的是创建一个既有横向排列的控件又有纵向排列的控件,所以先创建两个不同box,然后再让他们嵌套起来。
  • 创建一个标签,然后将标签添加到hbox1当中。flag和border结合使用,border是边框的宽度,flag表明哪一个边框。proportion是比例的意思,假如在一个横向box中有两个控件,两个控件的proportion相等,那么Frame大小改变的时候,两个控件大小保持相同。如果proportion=0,那么大小不变。
    flag可以用的值有:
  • 再向hbox1中添加一个文本框控件,注意proportion
  • 最后是将横向文本框嵌套于纵向文本框。可以设置边框。目前我们还看不到为什么要做这样一个嵌套,因为控件还很少,仅有的两个控件是水平排列的。如果我们想再增加几个控件,并且控件位于这两个控件下方,我们就需要再创建一个横向box,并将横向box添加到纵向box中。
  • 代码的最后是配置box:如果没有该命令,我们之前设置的sizer都是不起作用的
  • 这是最后完成的效果:
  • 下面我们再添加2个横向的box,并且其中增加—个控件
  • 最终的全部代码:
  • 生成的界面:

转载请注明来自DataScience.

邮箱: 675495787@qq.com

Python统计分析:[9]2因素卡方检验

2因素卡方检验主要是检验两个因素之间是否存在关联,或者叫相互影响,我们举一个例子,学习成绩和性别有没有关系,我们首先想到的可能是方差分析来检验平均数的差异,但是如果我们拿到的数据是计数数据,比如成绩分为高分组和低分组,这样只能用卡方检验了。

  • 引入相关模块,这里介绍一下Counter这个对象,它用于生成一个迭代器,关于迭代器你们百度一下;list可以生成一列表
    我们可以看到迭代器是一个itertools.chain
    那么这个迭代器生成的这个列表就是:
  • 了解了迭代器,我们下面就用Couter来生成我们需要的分类数据
  • 打印一下结果,看看具体的数据是啥样子的
    这是数据
  • 最后运行卡方检验
  • 首先输出的结果还是描述统计,括号内的数字表示期望值(根据虚无假设计算的值)
  • 接着是卡方检验
  • 这是最后得到的统计量

转载请注明来自DataScience.

邮箱: 675495787@qq.com

Excel2013:[40]美化单元格立体来点立体感

闲来无事美化一下以前做的单元格,把二维单元格弄成有立体感的,怎么样?这么做它看起来就像是一个小小的数字键盘,我们如果给它加上超链接,这些单元格就变成一个个按钮。好吧,看看具体的教程:

  • 先填写数据,如图所示,我把单元格的大小也调整了一下,有数字的单元格宽和高都更大,这样可以突出显示
  • 上一点背景色,淡淡的灰色
  • 选中有数字的单元格,设置对齐方式为居中对齐
  • 还是选中这些有数字的单元格
  • 打开格式对话框
  • 切换到边框选项下
  • 我们来先设置线型和颜色,线性为粗线,颜色为白色或者浅灰色
  • 绘制上边框和左边框
  • 接着设置颜色为黑色,线型不变
  • 绘制下边框和右边框,点击确定按钮
  • 看一下,立体感是不是出来了。

转载请注明来自DataScience.

邮箱: 675495787@qq.com

Python统计分析:[4]多因素方差分析

上一篇文章介绍了Python做统计中如何实现单因素方差分析,这篇文章介绍一下如何做多因素方差分析以及当主效应显著时如何做多重比较。

  • 引入相关模块
  • 读取数据(如果你需要我案例中的数据,可以联系我索要)
  • 删除空值并打印数据
    我们可以看到数据是酱紫的:
  • 用statsmodels中的anova_lm,注意公式formula的写法
    这是随即设计的两因素方差分析的结果:结果显示fetus的主效应显著
  • 阴虚fetus的主效应显著,所以有必要进行事后简单,使用tukey方法进行多重比较的方法及结果:
    输出的结果显示,三个水平均均值均呈现显著差异(reject==Ture)

转载请注明来自DataScience.

邮箱: 675495787@qq.com

scipy教程:[1]64位下载安装

如何在windows 64位下安装scipy,我在Google和百度上搜了一星期,也没找到合适的方法,后来找到一个python大牛,帮我看了看问题,然后发给我两个Excel安装包,他号称是自己做的,后来果然安装成功,下面我写下自己的安装过程,其实很简单。我们需要的就是numpy-MKL-1.8.1.win-amd64-py2.7.exe和scipy-0.14.0.win-amd64-py2.7.exe这两个安装包,然后就是一路点击下一步。

  • numpy-MKL-1.8.1.win-amd64-py2.7.exe这个是python用于科学计算的基础包,下面的参考链接里第一个链接就是下载方法。

  • scipy-0.14.0.win-amd64-py2.7.exe这个是pytbon的scipy包的二进制安装包,将这两个文件都下载下来

  • 先安装numpy-MKL-1.8.1.win-amd64-py2.7.exe,双击打开

  • 点击下一步
  • 设置Python的安装文件夹,我这里是在D盘
  • 接着一路点击下一步即可。
  • 安装scipy的过程也一样,设置好了安装路径以后,一路点击下一步
  • 最后,我们引入一下scipy,可以看到我已经安装成功了。

转载请注明来自DataScience.

邮箱: 675495787@qq.com

Python统计分析:[1]独立样本T检验

这是《Python统计分析》系列文章的第一篇,该系列文章致力于使用Python进行一般的统计分析,比如T检验、方差分析、回归分析、主成分、聚类、等等。Python有很多统计包可以帮助我们实现我们的目的,《Python统计分析》系列文章用到的包包括但不仅限于:pandas、numpy、scipy、Statsmodels。很多人都知道我写过所有这些包的教程,而《Python统计分析》系列文章可以把以前的内容综合运用起来,所以需要你对这些模块有一定的了解,但不需要精通。

  • 引入相关的模块,ttest_ind是用于独立样本t检验的(independent samples t test),pandas主要用到它的DataFrame
  • 读取数据并查看一下数据的前五行
    我们可以看到数据包含三列,最后一列group表示不同的组,只有1、2两组
  • 我们用到了DataFrame的一个筛选数据的功能,比如筛选1组数据
    我们可以得到这样的数据
  • 假如现在我们想要比较两组数据在scoreA上是否有差异,我们可以分别筛选得到1组的scoreA和2组的scoreA,然进行t检验
    检验的结果得到一个tuple,第一个元素是t值,第二个元素是p值,根据p值就知道两列数据均值差异不显著
  • 如果我们想要同时比较scoreA和scoreB也可以,筛选数据的时候加上scoreB即可
    结果得到的是tuple构成的tuple,第一个tuple元素表示t值,根据结果我们就知道t(scoreA)=1.366,t(scoreB)=0.601,另一个tuple就不解释了吧
  • 当然我们还需要注意,ttest_ind默认两组数据方差齐性的,如果想要设置默认方差不齐,可以设置equal_var=False,下面比较一下这两种情况结果的差异
  • 那么,问题来了(挖掘机到底哪家强?),我们用什么检验两组数据的方差齐性呢——levene test
    检验结果为p>0.05所以,可以认为方差是相等的。

转载请注明来自DataScience.

邮箱: 675495787@qq.com

spss如何输出三线表格

三线表格是发表学术文章最基本的格式,我和你一样搞不明白,为什么spss不能直接输出三线表格,毕竟这是我们最常用的格式呀!不管怎么样,我们还是有办法把表格转换成三线格式的,而不必像网上流传的那样在word中进行编辑,那样是非常麻烦的。
方法/步骤

  • 打开spss,先打开你的数据文件,然后在edit菜单栏,打开options选项
  • 在options选项面板中,切换到pivot tables标签,就是在这里设置表格的基本样式。
  • 在pivot tables选项下,你可以看到这里有一个列表,这是表格的预设样式,右侧窗口是预览样式的,从左边的窗口中,选择一个预设样式,这个列表里没有三线表样式,但是这里有类似三线表的样式,我们就是要选择一个类似三线表的,然后再对其进行修改
  • 设置好了表格的基本样式以后,工作还没有做完,还要对表格进行编辑,先输出一个表格再说,在菜单栏上执行:analyse–descriptive statistics—descriptives
  • 在结果输出窗口,你会看到一个表格,我们双击表格可以对表格数据进行编辑,编辑好了以后
  • 在菜单栏上执行:format —–tables properties,打开表格属性面板
  • 切换到border标签,这里对表格的边框进行设定
  • 你看到了,这个列表里是各个部分的边框,你需要选中每一个边框,然后在下面的style属性中进行设定,将所有的两线表格都设置为单线的,颜色设置为黑色,保存设置
  • 这就是编辑好的表格,是不是已经变成了三线表格:

转载请注明来自DataScience.

邮箱: 675495787@qq.com

SPSS实例:[29]相关样本卡方检验

我们先看这一个案例吧。然后具体来说一下。该案例来自于网络。

  • 数据的组织形式:在spss中,我们这样录入数据,1表示阳性、2表示阴性,最后一列为频数。这只是数据形式之一,假如我们的数据是原始数据类型的,而没有统计成频率形式,我们看这一篇文章就可以了:
  • 先加权数据,假如我们数据是原始数据,而不是频数数据就可以不加权,这样你参考上面一篇文章。
  • 在菜单栏上执行:分析–描述统计–交叉表
  • 将两种方法先分别放入行和列中
  • 点击统计量
  • 选择卡方值和McNemar,后者是真正的相关卡方检验要看的概率值
  • 数据结果中,你可以看大盘McNemar检验中sig值为0.002,显著!结论为拒绝虚无假设,认为这两种方法检验结果是有差异的。

转载请注明来自DataScience.

邮箱: 675495787@qq.com