山东省高中信息技术学业水平考试试题网 - 数据与计算|信息系统与社会|数据与数据结构|网络基础|数据管理与分析|移动应用设计|三维设计与创意|开源硬件项目设计|算法初步|智能系统初步

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 103|回复: 0
收起左侧

第三十五讲 数据编码

[复制链接]

191

主题

582

帖子

214748万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
2147483647
QQ
发表于 2018-11-25 16:34:06 | 显示全部楼层 |阅读模式
第三十五讲 数据编码
学习目标
1.知道数据、信息、知识及其关系;
2.知道常见的编码格式。
3.知道各种媒体在计算机中的表示方式,声音的数字化、图像和视频的数字化。
学习内容
    数据(data):是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的的原始素材。在计算机系统中,数据以二进制信息单元0,1的形式表示。
    信息:是用文字、数字、符号、图像、图形、声音、情景、状态等方式传播的内容
    二者的联系:数据是信息的载体,而信息是数据的内涵。二者的区别:数据可表示信息,但不是任何数据都表示信息,同一数据可以有不同的解释。信息是抽象的,同一信息可以有不同的数据表示方式。数据和信息不可分离,信息依赖数据来表达,数据则生动具体表达出信息。数据是符号,是物理性的,信息是对数据进行加工处理之后所得到的并对决策产生影响的数据。
    数据是对客观事物记录下来的、可以鉴别的符号,这些符号不仅指数字,而且包括字符、文字、图形等等;数据经过处理仍然是数据。处理数据是为了便于更好地解释,只有经过解释,数据才有意义,才成为信息;可以说信息是经过加工以后、并对客观世界产生影响的数据。
    信息 (information) 是对客观世界各种事物的特征的反映,是关于客观事实的可通讯的知识
    所谓知识,就是反映各种事物的信息进入人们大脑,对神经细胞产生作用后留下的痕迹知识是由信息形成的。知识是以某种方式把一个或多个信息关联在一起的信息结构,是客观世界规律性的总结。
    多媒体计算机系统主要采用数字化方式,对文本、图形、图象、声音、视频等媒体进行处理。各种媒体在计算机中都有相应的表示方法。
    数值型数据:
    编码是将非二进制形式表示的数值型数据转化为二进制形式表示,并最终实现在计算机的存储和处理的过程。为什么需要进行编码这个问题就很简单了,因为计算机系统采用二进制表示和处理数据信息,所以计算机中的数值都需要二进制表示。
    机器数与真值:一个数在计算机(机器)中的存储形式,称为机器数。而这个以二进制形式表示的数的数值本身,称为该数的真值;真值的正负号用+和-表示的。而机器数的正负号使用0和1表示的。 举例 :真值+52(十进制表示的真值) = +110100B(二进制形式的真值) 8位机器数:0011 0100 16位机器数:0000 0000 0011 0100 真值-52 = -110100 8位机器数:1011 0100 16位机器数:1000 0000 0011 0100
    字符型数据:
    计算机中,储存数据的实际形式是”010101”这样的代码。那像这样只由0和1组成的数据,如何转化为有意义的代码呢?答案便是为这些数据编码。n位二进制数可以组合成2的n次方个不同的信息,给每个信息规定一个具体码组,这个过程便叫做编码
    ASCII:美国(国家)信息交换标准(代)码一种使用7个或8个二进制位进行编码的方案,最多可以给256个字符(包括字母、数字、标点符号、控制字符及其他符号)分配(或指定)数值。ASCII码划分为两个集合:128个字符的标准ASCII码和附加的128个字符的扩充ASCII码。标准ASCII码为7位,扩充为8位。目前使用最广泛的西文字符集及其编码是 ASCII 字符集和 ASCII 码( ASCII 是 American Standard Code for Information Interchange 的缩写),它同时也被国际标准化组织( International Organization for Standardization, ISO )批准为国际标准。
    为了扩充ASCII编码,以用于显示本国的语言,不同的国家和地区制定了不同的标准,由此产生了 GB2312, BIG5, JIS 等各自的编码标准。这些使用 2 个字节来代表一个字符的各种汉字延伸编码方式,称为 ANSI 编码,又称为"MBCS(Muilti-Bytes Charecter Set,多字节字符集)"。在简体中文系统下,ANSI 编码代表 GB2312 编码,在日文操作系统下,ANSI 编码代表 JIS 编码,所以在中文 windows下要转码成gb2312,gbk只需要把文本保存为ANSI 编码即可。
    GB2312 也是ANSI编码里的一种,对ANSI编码最初始的ASCII编码进行扩充,为了满足国内在计算机中使用汉字的需要,中国国家标准总局发布了一系列的汉字字符集国家标准编码,统称为GB码,或国标码。其中最有影响的是于1980年发布的《信息交换用汉字编码字符集 基本集》,标准号为GB 2312-1980,因其使用非常普遍,也常被通称为国标码。GB2312编码通行于我国内地;新加坡等地也采用此编码。几乎所有的中文系统和国际化的软件都支持GB 2312。GB 2312是一个简体中文字符集,由6763个常用汉字和682个全角的非汉字字符组成。其中汉字根据使用的频率分为两级。一级汉字3755个,二级汉字3008个。由于字符数量比较大,GB2312采用了二维矩阵编码法对所有字符进行编码。首先构造一个94行94列的方阵,对每一行称为一个“区”,每一列称为一个“位”,然后将所有字符依照下表的规律填写到方阵中。这样所有的字符在方阵中都有一个唯一的位置,这个位置可以用区号、位号合成表示,称为字符的区位码。如第一个汉字“啊”出现在第16区的第1位上,其区位码为1601。因为区位码同字符的位置是完全对应的,因此区位码同字符之间也是一一对应的。这样所有的字符都可通过其区位码转换为数字编码信息。
    在台湾、香港与澳门地区,使用的是繁体中文字符集。为统一繁体字符集编码,1984年,台湾五大厂商宏碁、神通、佳佳、零壹以及大众一同制定了一种繁体中文编码方案,因其来源被称为五大码,英文写作Big5,后来按英文翻译回汉字后,普遍被称为大五码。大五码是一种繁体中文汉字字符集,其中繁体汉字13053个,808个标点符号、希腊字母及特殊符号。大五码的编码码表直接针对存储而设计,每个字符统一使用两个字节存储表示。第1字节范围81H-FEH,避开了同ASCII码的冲突,第2字节范围是40H-7EH和A1H-FEH。因为Big5的字符编码范围同GB2312字符的存储码范围存在冲突,所以在同一正文不能对两种字符集的字符同时支持。Big5字符主要部分集中在三个段内:标点符号、希腊字母及特殊符号;常用汉字;非常用汉字。其余部分保留给其他厂商支持。
    世界上存在着多种编码方式,在ANSi编码下,同一个编码值,在不同的编码体系里代表着不同的字。在简体中文系统下,ANSI 编码代表 GB2312 编码,在日文操作系统下,ANSI 编码代表 JIS 编码,可能最终显示的是中文,也可能显示的是日文。在ANSI编码体系下,要想打开一个文本文件,不但要知道它的编码方式,还要安装有对应编码表,否则就可能无法读取或出现乱码。为什么电子邮件和网页都经常会出现乱码,就是因为信息的提供者可能是日文的ANSI编码体系和信息的读取者可能是中文的编码体系,他们对同一个二进制编码值进行显示,采用了不同的编码,导致乱码。这个问题促使了unicode码的诞生。
    如果有一种编码,将世界上所有的符号都纳入其中,无论是英文、日文、还是中文等,大家都使用这个编码表,就不会出现编码不匹配现象。每个符号对应一个唯一的编码,乱码问题就不存在了。这就是Unicode编码。Unicode是一个很大的集合,现在的规模可以容纳100多万个符号。每个符号的编码都不一样,比如,U+0639表示阿拉伯字母Ain,U+0041表示英语的大写字母A,“汉”这个字的Unicode编码是U+6C49。Unicode固然统一了编码方式,但是它的效率不高,比如UCS-4(Unicode的标准之一)规定用4个字节存储一个符号,那么每个英文字母前都必然有三个字节是0,这对存储和传输来说都很耗资源。
    UTF-8(8-bit Unicode Transformation Format)是一种针对Unicode的可变长度字符编码,又称万国码,由Ken Thompson于1992年创建。现在已经标准化为RFC 3629。UTF-8用1到6个字节编码Unicode字符。用在网页上可以统一页面显示中文简体繁体及其它语言(如英文,日文,韩文)
    图像
    被计算机接受的数字图像有位图图像和矢量图形两种。通常,我们把位图图像称图像(Image),而把矢量图形称为图形(Graphic)
    【1】位图图像
    A、位图图像是由像素构成的,适用于逼真照片或要求精细细节的图像,位图图像像素之间没有内在的联系,而且他们的分辨率是固定的,如果在屏幕上对它们进行缩放,或以低于创建时的分辨率来打印它们,将丢失其中的细节,并会出现锯齿状。
    B、分辨率与量化位数
    图像分辨率是指图像的水平方向和垂直方向的象素个数。
    图像量化位数是指图像中每个象素点记录颜色所用二进制数的位数。
    例如:图像量化位数为8的灰度图像,索引图像颜色数256色,即每个象素至少有8个颜色位,这时点阵图可支持256种不同的颜色(2的8次方)。
    C、文件大小
    位图图像文件的大小可以通过以下的方法计算:
    文件的字节数=图像分辨率X图像量化位数÷8
    例如:一幅分辨率为640×480的量化位数为8的图像,文件的大小为:(640×480×8)÷8=307200(B)
    D、静态图像压缩标准JPEG
    【2】矢量图形
    矢量图形使用有向线段来表示图像。如直线、圆、弧线、矩形等,也可以用更为复杂的形式表示图形中曲面、光照、材质等效果,矢量图形需要的存储量较小。有wmf、dwc、dxf等格式。矢量图形可以随意放大或缩小,其显示效果不受影响
    音频
    A、模拟音频的数字化
    连续的模拟音频信号转化为离散的数字音频信号,主要包括信号采样、量化、编码三个过程。
    信号采样是把声波分割成多个时间段。采样频率常用的有三种:44.1KHz、22.05KHz、11.025KHz
    量化过程首先是将信号幅度划分为若干量化等级,有8位(或16位、32位)。
    编码是将量化后的采样值用二进制的数码来表示,并转换成由许多称为位(bit-比特)的二进制编码0和1组成的数字信号。如,在采用8个量化级,码字字长为3位时,即3位二进制数,可表示为000、001、010、011、100、101、110、111。采用的位数越多,则数据量越大。
    B、存储空间
    声音的质量越高,则量化级数和采样频率越高,保存这一段声音的相应存储空间也就越大。
    声音存储空间=采样频率×量化位数×声道数×时间÷8
    例如:采样频率为44.1KHz,量化位数为16的立体声,1秒钟所需字节是:44.1×1000×16×2×1÷8=176.4(KB)
    C、音频信号的压缩编码
    为了进一步提高计算机处理音频信号的效率,使音频信息能更有效地存储和传输,就必须对数字声音信号进行压缩编码处理。较常用的有脉冲编码调制(PCM)、差分脉冲编码调制(DPCM)和自适应差分编码调制(ADPCM)等。
    D、乐器数字接口MIDI
    MIDI方式就是音乐的分析和合成方式,是按一定的协议标准,采用音乐符号记录方法来记录和解释乐谱,并合成相应的音乐信号。MIDI(Musical Instrument Digital Interface)是乐器数字接口的缩写,是数字音乐的一个国际标准。MIDI文件记录的是一系列指令而不是数字化后的波形数据,所以它占用存储空间较小。
    动画
    动画是通过人工或计算机绘制出来的连续图像,包括帧动画和造型动画。
    帧动画是一幅一幅连续的图像或图形序列,其中需要动作的地方作微小变化,这是产生各种动画的基本方法
    造型动画是一种矢量动画,它由计算机实时生成并演播,也叫实时动画。他对每一个活动对象分别进行设计,并构造每一对象的特征,然后分别对这些对象进行时序状态设计,最后在演播时这些对象在设计要求下实时组成完整的画面,并可以实时变换,从而实时生成视觉动画。
    视频
    视频是指电视、摄录像等视觉感受的活动影像。数字视频由一系列的位图图像组成,因此视频文件格式除与单帧文件格式有关外,还与帧与帧之间的组织方式有关,而且视频文件一般都需经过数据压缩,因此与压缩的方式也有关。
楼主热帖




上一篇:2017级8班日常修习汇总处
下一篇:第三十六讲 算法
+1
103°C
沙发哦 ^ ^ 马上

帖子地址: 

教书育人!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

站务公告栏:
百度一下 百度二下 百度三下 开门大吉

QQ|Archiver|手机版|小黑屋|山东省高中信息技术学业水平考试试题网 ( 鲁ICP备16049757号 )|网站地图

GMT+8, 2018-12-11 06:45 , Processed in 0.291442 second(s), 39 queries .

快速回复 返回顶部 返回列表

商品:粘毛器可撕式滚筒粘尘纸衣服滚毛刷家用去除毡黏毛器刷沾粘毛神器
原价:10.90元 券后价:7.9元
购买链接:Click here!
推荐理由:铲屎官们看过来,家里有养“主子”的,粘毛器是得备上一个!不然掉的毛到处飞,不仅不美观,还不卫生啊~这款粘毛器,可以轻松去除灰尘,毛发等,居家必备清洁神器哟! top100:32
优惠券领取处:Click here!
优惠券推送群:Click here!