山东省高中信息技术学业水平考试试题网 - 数据与计算|信息系统与社会|数据与数据结构|网络基础|数据管理与分析|移动应用设计|三维设计与创意|开源硬件项目设计|算法初步|智能系统初步

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 109|回复: 0
收起左侧

第二十四讲 数据的分析

[复制链接]

304

主题

718

帖子

214748万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
2147483647
QQ
发表于 2020-9-7 09:24:16 | 显示全部楼层 |阅读模式
第二十四讲 数据的分析
学习目标
0 p: L9 V/ u! n4 K1.了解数据分析的基本方法;
1 s# ]. x! C( r3 r: M+ K+ q2.学会选用恰当工具处理数据。
1 @, X6 K9 B1 R' v$ x7 B学习内容1 Y8 V0 n& R+ F4 _4 J
数据分析就是在一大批杂乱无章的数据中,运用数字化工具和技术,探索数据内在的结构和规律,构建数学模型,并进行可视化表达,通过验证将模型转化为知识,为诊断过去、预测未来发挥作用。数据分析一般包括特征探索、关联分析、聚类与分类、建立模型和模型评价等。
' f2 o4 [) [7 d4 _2 F- P# M4 m6 n
特征探索
6 V9 }, {! b/ n  i  l/ K6 v9 E) r数据特征探索的主要任务是对数据进行预处理,发现和处理缺失值、异常数据,绘制直方图,观察分析数据的分布特征,求最大值、最小值、极差等描述性统计量。
& H3 S1 n  r) V  x2 q
关联分析( y) }  V- b$ ~' j6 u
关联分析就是分析并发现存在于大量数据之间的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式。关联分析的基本算法如下:. k0 r, [) C$ a* q2 `+ G  F% ?! L
(1)扫描历史数据,并对每项数据进行频率次数统计。  Z/ ~# F7 u# J; @% R
(2)构建候选项集C1,并计算其支持度,即数据出现频率次数与总数的比。
4 Z* ~6 w1 O+ A, R' o2 M(3)对候选项集的支持度进行筛选,筛选的数据项支持度应当不小于最小支持度,从而形成频繁项集L1。
5 l5 ], O3 k& G: ]  ]; S(4)对频繁项集L2进行连接生成候选项集C2,重复上述步骤,最终形成频繁K项集或者最大频繁项集。* f0 k0 N# J& w/ }  c* U
聚类分析
+ W# F2 Y+ n: S聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析的算法有很多,其中K-平均(K- Means)算法是一种经典的自下而上的聚类分析方法。K-平均算法的基本思想就是在空间N个点中,初始选择K个点作为中心聚类点,然后将N个点分别与K个点计算距离,选择自己最近的点作为自己的中心点,再不断更新中心聚集点,以达到“物以类聚,人以群分”的效果,如下图所示。
" q8 W4 s! i, N+ F7 Y0 I: ]- |! v2 r2 k' l$ T4 ]7 e/ T- U. x
聚类分析的基本算法如下:
( V  M1 ^% |' S2 f! p7 H2 e(1)从数据点集合中随机选择K个点作为初始的聚集中心,每个中心点代表着每个聚集中心的平均值。$ K2 r* K: R. c% }" v. P; ^3 ]% i
(2)对其余的每个数据点,依次判断其与K个中心点的距离,距离最近的表明它属于这项聚类。2 ^. j# j+ U. u( M. y
(3)重新计算新的聚簇集合的平均值即中心点。整个过程不断迭代计算,直到达到预先设定的迭代次数或中心点不再频繁波动。7 Y+ L1 t" l3 t
数据分类$ N0 R0 A' ^5 c* x: {+ I# n3 ]- g
数据分类是数据分析处理中最基本的方法。数据分类通常的做法是,基于样本数据先训练构建分类函数或者分类模型(也称为分类器),该分类器具有将待分类数据项映射到某一特点类别的功能。数据分类和回归分析都可用于预测,预测是指从基于样本数据记录,根据分类准则自动给出对未知数据的推广描述,从而实现对未知数据进行预测。/ j0 K5 ]$ O' y2 V& n1 W
贝叶斯分类技术在众多分类技术中占有重要地位,也属于统计学分类的范畴,是一种非规则的分类方法。贝叶斯分类技术通过对已分类的样本子集进行训练,学习归纳出分类函数(对离散变量的预测称作分类,对连续变量的分类称为回归),利用训练得到的分类器实现对未分类数据的分类。5 U& s2 G9 s4 S

9 m* K; T; R) x! V9 }* f5 e

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
楼主热帖




上一篇:第二十三讲 数据的采集
下一篇:第二十五讲 数据的可视化表达
+1
109°C
沙发哦 ^ ^ 马上

帖子地址: 

教书育人!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

百度一下 百度二下 百度三下 开门大吉

QQ|Archiver|手机版|小黑屋|山东省高中信息技术学业水平考试试题网 ( 鲁ICP备16049757号 )|网站地图

GMT+8, 2020-10-1 23:41 , Processed in 0.292354 second(s), 40 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表