音频（Audio）属于听觉类媒体，一般是指由人或乐器发出的可以被听见的声音，所以“音频信号”或“声音”都是其同义语。

声音看不见、闻不到，它是怎么被记录下来的？由于声音是机械振动在弹性介质中传播的机械波，所以声音是以波形的方式被记录下来的，其频率范围大约在20Hz～20kHz之间。如图6-1所示就是一种乐器发出的声音信号。

一个音频信号往往具有一定的振幅（Amplitude），振幅的大小反映了音频信号音量的大小；丰富的频率（Frequency）成分，频率的高低可以反映音频信号的音阶、音高；一定的相位（Phase），相位反映了音频信号的来源；以及一定的波形（Wave Form），通过具体的波形形状可以反映音频信号的音色。

从人与计算机交互的角度来看，音频信号相应的处理有以下几种方式：

（1）计算机产生音频信号，即音频信号的获取

计算机产生音频信号/文件的主要方式有：对外部输入声源进行录制和创作MIDI音乐。

前面已提到，由于音频信号是一种连续变化的模拟信号，而计算机只能处理和记录二进制的数字信号，因此，音频信号必须经过数字化处理后才能送到计算机进行编辑和存储。完成这一工作的多媒体部件是声卡。声音先由麦克风转换为模拟电信号（如图6-2所示），然后声卡的“模拟/数字（A/D）”转换电路将模拟电信号转换为数字信号（如图6-3所示），以适当的文件格式存放在硬盘上。

在上述数字化过程中，最重要的两个方面是采样和量化。相应的，数字化音频的质量取决于采样频率和量化位数这两个重要参数。采样是每隔一段时间读一次声音信号的幅度，典型的采样频率有44.1kHz、22.05kHz、11.025kHz；量化是把采样得到的声音信号幅度转换为数字值，常用的有8位、12位、16位。一般来说，采样频率越高声音失真越小，但用于存储音频的数据量也越大；同样，量化位数越高音质越好，其数据量也越大。

MIDI音频是计算机产生声音（特别是音乐）的另一种方式。数字音频实际上是一种数字式录音/重放的过程，即使压缩后也需要很大的数据量。而MIDI并不对声音进行采样，它是电子乐器的符号语言，由世界上电子乐器制造厂商建立的一个数字音乐国际标准。根据这一标准，乐谱由说明音乐信息的一系列音乐符号来记录和解释，如音符序列、节拍速度、音量大小等。因此可以认为MIDI音乐是符号化的音乐。可以通过两种方式创作MIDI音乐：一是以MIDI硬件设备进行创作，如通过专用的MIDI键盘或电子乐器，连接到多媒体个人计算机的声卡上，采集演奏的MIDI信息以形成MIDI文件；二是以MIDI软件进行创作，通过专门的MIDI音序器软件在多媒体个人计算机上创作MIDI音乐文件。

（2）计算机输出音频

计算机输出音频即是对声音的重放，这一过程是获取音频信号的逆过程。对于数字音频要经过“数字/模拟（D/A）”转换，还原为模拟信号，如果是压缩格式，还要由相应的播放软件进行解码，经混音器混合，功率放大电路放大后输出到扬声器（或作为音源输出到其他放大设备）；对于MIDI文件，则需要声卡解释其中的音乐符号，然后进行音乐合成，最后通过扬声器播放出来。

（3）利用计算机通过网络进行异地语音/视频通信，即多媒体信息的网络传输问题

在这一过程中，计算机作为多媒体终端，而网络作为多媒体信息的传输介质。例如QQ语音聊天的过程：在发送方，计算机将人的语音转换为数字信号，压缩后经过网络传输到对方的计算机；对方计算机收到后进行解压缩，然后还原为模拟信号，通过扬声器播放出来，接收方就听到了对方的声音。整个过程可以表述为：人→计算机→网络→计算机→人。

6.2.1 基本知识点

6.2.1　基本知识点