我在学习字符处理工具的时候,对那些字符类不是很理解.因此我花了点心思,整理出一篇文档.
主要针对字符集中定义的字符功能,当然网上有很多类似的文章.
我把那个ASCII表也同时张贴出来,图文并茂吧,这样可以很方便对照字符类再来分析,再加点自己个人的见解.
了解这个,我们可以以后在学习SED AWK TR GREP 等和相应的编程时,可以有很大帮助.
ASCII(American Standard Code for Information Interchange,美国信息交换标准代码)是基于拉丁字母的一套电脑编码系统.它主要用于显示现代英语,而其扩展版本EASCII则可以勉强显示其他西欧语言.它是现今最通用的单字节编码系统(但是有被Unicode追上的迹象),并等同于国际标准ISO/IEC 646.
ASCII第一次以规范标准的型态发表是在1967年, 一次更新则是在1986年,至今为止共定义了128个字符;其中33个字符无法显示(这是以现今操作系统为依归,但在DOS模式下可显示出一些诸如笑脸、扑克牌花式等8-bit符号),且这33个字符多数都已是陈废的控制字符.控制字符的用途主要是用来操控已经处理过的文字.在33个字符之外的是95个可显示的字符,包含用键盘敲下空白键所产生的空白字符也算1个可显示字符(显示为空白). --文字和ASCII表摘自维基百科
二进制 |
十进制 |
十六进制 |
缩写 |
可以显示的表示法 |
名称/意义 |
0000 0000 |
0 |
00 |
NUL |
␀ |
空字符(Null) |
0000 0001 |
1 |
01 |
SOH |
␁ |
标题开始 |
0000 0010 |
2 |
02 |
STX |
␂ |
本文开始 |
0000 0011 |
3 |
03 |
ETX |
␃ |
本文结束 |
0000 0100 |
4 |
04 |
EOT |
␄ |
传输结束 |
0000 0101 |
5 |
05 |
ENQ |
␅ |
请求 |
0000 0110 |
6 |
06 |
ACK |
␆ |
确认回应 |
0000 0111 |
7 |
07 |
BEL |
␇ |
响铃 |
0000 1000 |
8 |
08 |
BS |
␈ |
退格 |
0000 1001 |
9 |
09 |
HT |
␉ |
水平定位符号 |
0000 1010 |
10 |
0A |
LF |
␊ |
换行键 |
0000 1011 |
11 |
0B |
VT |
␋ |
垂直定位符号 |
0000 1100 |
12 |
0C |
FF |
␌ |
换页键 |
0000 1101 |
13 |
0D |
CR |
␍ |
回车键 |
0000 1110 |
14 |
0E |
SO |
␎ |
取消变换(Shift out) |
0000 1111 |
15 |
0F |
SI |
␏ |
启用变换(Shift in) |
0001 0000 |
16 |
10 |
DLE |
␐ |
跳出数据通讯 |
0001 0001 |
17 |
11 |
DC1 |
␑ |
设备控制一(XON 激活软件速度控制) |
0001 0010 |
18 |
12 |
DC2 |
␒ |
设备控制二 |
0001 0011 |
19 |
13 |
DC3 |
␓ |
设备控制三(XOFF 停用软件速度控制) |
0001 0100 |
20 |
14 |
DC4 |
␔ |
设备控制四 |
0001 0101 |
21 |
15 |
NAK |
␕ |
确认失败回应 |
0001 0110 |
22 |
16 |
SYN |
␖ |
同步用暂停 |
0001 0111 |
23 |
17 |
ETB |
␗ |
区块传输结束 |
0001 1000 |
24 |
18 |
CAN |
␘ |
取消 |
0001 1001 |
25 |
19 |
EM |
␙ |
连接介质中断 |
0001 1010 |
26 |
1A |
SUB |
␚ |
替换 |
0001 1011 |
27 |
1B |
ESC |
␛ |
退出键 |
0001 1100 |
28 |
1C |
FS |
␜ |
文件分区符 |
0001 1101 |
29 |
1D |
GS |
␝ |
组群分隔符 |
0001 1110 |
30 |
1E |
RS |
␞ |
记录分隔符 |
0001 1111 |
31 |
1F |
US |
␟ |
单元分隔符 |
0111 1111 |
127 |
7F |
DEL |
␡
|
删除
|
|