1.1.1 数据的表示概述
📝 学习目标
- 理解数据在计算机中的表示原理
- 掌握不同数据类型的编码方法
- 了解数据表示的发展历程
🎯 核心概念
什么是数据表示
数据表示是指将现实世界中的信息转换为计算机能够处理的二进制形式的过程。
为什么用二进制
- 物理实现简单:开关的两种状态(0和1)
- 逻辑运算方便:布尔代数的基础
- 抗干扰能力强:只需区分两种状态
- 电路设计简单:降低制造成本
📊 数据类型分类
1. 数值数据
| 类型 | 说明 | 示例 |
|---|---|---|
| 整数 | 正整数、负整数、零 | 123, -456, 0 |
| 实数 | 小数、科学计数法 | 3.14, 1.23E-4 |
| 复数 | 实部+虚部 | 3+4i |
2. 非数值数据
| 类型 | 说明 | 编码方式 |
|---|---|---|
| 字符 | 字母、数字、符号 | ASCII, Unicode |
| 字符串 | 字符序列 | 字符数组 |
| 图像 | 像素点集合 | RGB, CMYK |
| 音频 | 声波数字化 | PCM, MP3 |
| 视频 | 图像序列 | MPEG, H.264 |
🔢 数制系统
常用数制
| 数制 | 基数 | 数字符号 | 应用场景 |
|---|---|---|---|
| 二进制 | 2 | 0, 1 | 计算机内部 |
| 八进制 | 8 | 0-7 | 权限表示 |
| 十进制 | 10 | 0-9 | 日常使用 |
| 十六进制 | 16 | 0-9, A-F | 内存地址 |
位权展开
任何数制都可以用位权展开式表示:
其中:
- N:数值
- r:基数
:第 i 位的数字 - n:位数
示例:
- 十进制 123 = 1×10² + 2×10¹ + 3×10⁰
- 二进制 1011 = 1×2³ + 0×2² + 1×2¹ + 1×2⁰ = 11
💾 存储单位
基本单位
| 单位 | 符号 | 大小 | 说明 |
|---|---|---|---|
| 位 | bit | 1位 | 最小存储单位 |
| 字节 | Byte | 8位 | 基本寻址单位 |
| 字 | Word | 16/32/64位 | 与CPU位数相关 |
容量单位
| 单位 | 大小 | 换算 |
|---|---|---|
| KB | 2¹⁰ Bytes | 1024 Bytes |
| MB | 2²⁰ Bytes | 1024 KB |
| GB | 2³⁰ Bytes | 1024 MB |
| TB | 2⁴⁰ Bytes | 1024 GB |
注意
存储厂商常用十进制(1KB=1000B),而操作系统用二进制(1KB=1024B),这会导致显示容量差异。
🔤 字符编码
ASCII码
- 全称:American Standard Code for Information Interchange
- 位数:7位(0-127)
- 扩展:8位(0-255)
常用ASCII码值:
- 数字 '0'-'9':48-57
- 大写字母 'A'-'Z':65-90
- 小写字母 'a'-'z':97-122
- 空格:32
Unicode
- 目的:统一全球字符编码
- 编码方式:UTF-8, UTF-16, UTF-32
- 优点:支持多语言,向下兼容ASCII
🖼️ 多媒体数据表示
图像数据
位图(Bitmap):
- 像素矩阵表示
- 颜色深度:1位(黑白)、8位(256色)、24位(真彩色)
- 分辨率:水平×垂直像素数
矢量图:
- 数学公式描述
- 无损缩放
- 文件小,适合图形设计
音频数据
数字化过程:
- 采样:时间离散化
- 量化:幅度离散化
- 编码:二进制表示
关键参数:
- 采样频率:44.1kHz(CD质量)
- 量化位数:16位(CD质量)
- 声道数:单声道/立体声
📈 数据压缩
无损压缩
- 原理:去除数据冗余
- 应用:文本、程序、重要数据
- 算法:LZ77, Huffman编码
有损压缩
- 原理:去除人眼/耳不敏感信息
- 应用:图像、音频、视频
- 算法:JPEG, MP3, MPEG
🧪 例题(按难度)
简单(3题)
在计算机中,`Byte` 与 `bit` 的关系是:
ASCII 码中,大写字母 `A` 的十六进制码值是:
在软考存储容量题中,通常采用二进制计量:1GB 等于:
中级(3题)
下列关于字符编码的说法正确的是:
音频数字化过程包含采样、量化、编码三步。其中“把连续幅度离散为有限等级”的步骤是:
关于位图与矢量图,下列说法正确的是:
困难(1题)
一幅 `1024×768` 的彩色位图,采用 24 位真彩色(无压缩),其数据量约为:
📚 本课小结
- 数据表示:将现实信息转换为二进制形式
- 数制系统:二、八、十、十六进制及其转换
- 存储单位:bit、Byte、KB、MB、GB的关系
- 字符编码:ASCII和Unicode的特点
- 多媒体:图像、音频的数字化原理
💡 学习提示
数据表示是计算机科学的基础,理解这些概念对后续学习至关重要。建议:
- 多做进制转换练习
- 了解常用ASCII码值
- 理解数字化的基本原理
- 关注实际应用场景