基于SPSS的信息类大学生成绩的数据挖掘.doc
《基于SPSS的信息类大学生成绩的数据挖掘.doc》由会员分享,可在线阅读,更多相关《基于SPSS的信息类大学生成绩的数据挖掘.doc(6页珍藏版)》请在知学网上搜索。
1、应用统计学课程设计 报告名称 基于SPSS的信息类大学生成绩的数据挖掘 学 院:河南中医信息技术学院 专 业:信息管理与信息系统 班 级:信管一班 日 期:(提交日期): 2024/6/12 [摘要]数据挖掘技术是信息技术讨论的热点问题之一。目前数据挖掘技术在商业、金等方面都得到了广泛的应用,而在教育领域的应用较少,随着高校招生规模的扩大,在校学生成绩分布越来越复杂,除了传统成绩分析得到的一些结论外,还有一些不易发现的信息隐含其中,因而把数据挖掘技术引入到学生成绩分析中,有利于针对性地提高教学质量。聚类分析是数据挖掘中的一个重要讨论领域。它将数据对象分成为若干个簇,使得在同一个
2、簇中的对象比较相似,而不同簇中的对象差别很大。本论文就是运用数据挖掘中的聚类分析学生成绩的,利用学生在分专业前的各主要学科的成绩构成,对数据进行选择,预处理,挖掘分析等.运用聚类算法分析学生对哪个专业的强弱选择,从而为具有不同成绩特征的同学在专业选择及分专业后如何开展学习提供一定的参考意见。 [关键词] 聚类分析,学生成绩,就业,K-means, 1、 讨论背景: 随着我国经济的进展,网络已被应用到各个行业,人们对网络带来的高效率越来越重视,然而大量数据信息给人们带来方便的同时,也随之带来了许多新问题,大量数据资源的背后隐藏着许多重要的信息,人们希望能对其进行更深化的分析,以便更好地利用
3、这些数据,从中找出潜在的规律.那么,如何从大量的数据中提取并发现有用信息以提供决策的依据,已成为一个新的讨论课题。 高校是教学和科研的重要基地,也是培育人才的重要场所,教学管理工作当中的学生成绩分析是高校管理工作的一个重要组成部分,也是衡量高校管理水平的依据。从目前来看。各高校随着招生规模的扩大,信息量大幅度增加,学校运行着各类管理系统,存在着各类数据库,如有成绩管理,学籍管理等。这些系统积累了大量的数据,在很大程度上提高了工作的效率,但在这样的教学管理系统中,学校的管理人员、老师和学生都只能通过查看,或者简单的排序以及统计功能来获得数据表面的信息,由于缺乏信息意识和相应的技术,隐藏在这些大量
4、数据中的信息一直没有得到充分应用。如何对这些数据进行重新分析利用,在原基础上扩充高校教学管理系统的功能,从大量数据中发现潜在规律,提高学校管理的决策性,是很多高校正在考虑的问题。因此,对学生成绩数据进行深化挖掘分析,找出影响学生学习的各种潜在的因素,将会促进学校开展更加具有针对性的个性化教育,同时营造一种新的教学管理模式,进一步促进教学管理水平的提高 2、 主要原理和思想: 聚类分析就是将一组数据分组,使其具有最大的组内相似性和最小的组间相似性.简单的说就是达到不同聚类中的数据尽可能不同,而同一聚类中的数据尽可能相似,它与分类不同,分类是对于目标数据库中存在哪些类这一信息是知道的,所要做的
5、就是将每一条记录分别属于哪一类标记出来;而聚类是在预先不知道目标数据库到底有多少类的情况下,希望将所有的记录组成不同的簇或者说“聚类”,并且使得在这种分类情况下,以某种度量为标准的相似性,在同一聚类之间最小化,而在不同聚类之间最大化。事实上,聚类算法中很多算法的相似性都基于距离而且由于现实数据库中数据类型的多样性,关于如何度量两个含有非数值型字段的记录之间的距离的讨论有很多,并提出了相应的算法.聚类分析的算法可以分为以下几类:划分方法、层次方法等. 2。1聚类分析原理方法: 在数据挖掘技术中,聚类分析主要有以下几种方法. (1)划分法(Partitioning Methods) 划
6、分法给定一个有N个元组或者记录的数据集,构造K个分组,每一个分组就代表一个聚簇,K< N。而且这K个分组满足下列条件:每个组至少包括一个对象,每个对象必须属于且只属于一个组。对于给定的K,算法首先给出一个初始的分组方法,以后通过反复迭代的方法改变分组,使得每一次改进之后的分组方案都较前一次好,而所谓好的标准就是:同一组中的记录越近越好,而不同分组中的记录越远越好.使用这个基本思想的算法有:K均值算法、K中心点算法、CLARANS算法.K均值算法一般只能在簇的平均值被定义的情况下才能被使用,这对于涉及有分类属性的数据的应用可能会显得不适用,该方法不易发现非凸面形状的簇和大小差别很大的簇;K中心点
7、算法在中心点的计算过程中需要反复迭代计算,其计算量很大,这对于对象及划分数的值较大时,其计算代价相当高。 (2)层次法(Hierarchical Methods) 层次法就是把数据库分成多个层次,然后对不同层次的数据采纳划分聚类。输出的是一棵层次化的分类树,层次的方法可以分为凝聚的和分裂的.凝聚的方法也称为自底向上的方法,一开始将每个对象作为单独的一个组,然后相继地合并相近的对象或组,直到所有的组合并为一个(层次的最上层),或者达到一个终止条件。分裂的方法,也称为自顶向下的方法,一开始将所有的对象置于一个类中.在迭代的每一步中,一个类被分裂为更小的类.直到最终每个对象在单独的一个类中,或
8、者达到一个终止条件。 3.数据情况介绍: 3。1数据信息:我院某年级学生大学四年全部实际课程数据,分计科、信管1、信管2三个班级 3。2数据净化 数字净化据源中不正确,不完善等不可能达到数据挖掘质量要求的数据,从而提高数据的质量得到更正的数据挖掘结果。 讨论所针对的学生成绩数据中,遇到的主要是空值问题。对此,本讨论采纳了两种处理 方法若该学生有三门及以上成绩为空,则将其作为异常点从数据除去;若该生有两门及以下课程成绩为空.则取所在班级对应课程的平均成绩来代替空值。 4.分析过程: 第一步,启动并进入SPSS系统, 数据导入系统. 第二步,进入系统分析功能,在“分析”菜单“
9、分类(F)”中选择K-均值聚类(K)命令。 第三步,在弹出的K—均值聚类分析对话框中,从对话框左侧的变量列表中选择 “医院管理学,软件工程,……”等变量,使之添加到右边的变量(V)框中, 聚类数写为4,方法选为迭代与分类如下图. 第四步,单击迭代按钮选择系统默认值(右图) 。 第五步,单击保存按钮选择聚类成员(C)与聚类中心的距离(D) 第六步,单击OK按钮,SPSS自动完成分析 二:聚类分析结果 由上图可知信管一班54名学生分成四类 类别1 29 忧 53.7% 类别2 4 中 7。4% 类别3 20 良 37% 类别4 1 差 1.9%
10、三:同理计科,信管二班分析结果 计科:导入数据 计科数据分析: 1.聚类成员表 2。最终聚类中心表 3。每个中心的案例数表 由上图可知计科72名学生分成四类 类别1 24 良 33.3% 类别2 36 忧 50% 类别3 1 差 1.4% 类别4 11 中 15。3% 信管二班导入数据: 信管二班数据分析: 1.聚类成员表 2.最终聚类中心表 3.每个中心的案例数表 由上图可知信管二班53名学生分成四类 类别1 13 中 24。5% 类别2 2 差 3。8% 类别3 24 良 45.3% 类别4 14 优
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 spss 信息 大学生 成绩 成就 数据 挖掘 发掘
