【音频科普】怎么样才能有好音质，音频的采样频率和位数是什么意思？

怎么样才能有好音质，音频的采样频率和位数是什么意思？

今天我们要来聊的是声音答案的解析度。不过因为声音档案是一个看不见摸不到的东西，如果你不是经常接触的人可能会很难体会。所以我要先用图片的解析度来做类比。这样子你才会比较好懂。关于图片答案解析度的名字，大家最熟悉的大概就是像素这两个字。

所谓的像素就是组成画面的最小的元素，所以你在电脑上可以看到的图片或是影片都是有像这样子的一个一个小方格组成的。这边的每一个小方格，我们就叫它是一个像素，电脑储存图片的方式就是把每个像素的颜色都转换成一个数字写在文件里面。

有了每个画素的颜色。电脑就可以在屏幕上面出现一张图片，一张图片文件含有的像素数越多，基本上就表示它含有越多细节，也就是说你可以把它放很大的，会不会变成一格一格的。

像是这张照片它是我的单反相机拍的，他从左到右有5184个像素，从上到下有3456像素，所以整张图片就是5184x3456差不多乐器版本我像素，所以我可以把它放到很大很大清楚的看到她眼睛的细节。

那是我这张图片被上传到朋友圈的话，因此，为了节省空间，会把转档成大约只有一百万画素的格式，那你放大的时候就很容易看到一格一格的很多细节都不见得比较下差很多吧。

除了画素的多少之外，很多人不知道的事情是用来叙述每个画素颜色的数字范围也是很重要的。

我刚才不是说电脑储存图片的方式就是把每一个画素的颜色都转换成一个数字，写在文件里面吗？在2019年，我们所用的图片多半都是采用24位数的色彩格式。就是说在每一个像素电脑是用一个从零一直到二的24次方减一这个范围当中的一个数字来代表那个画树的颜色。再换句话说，也就是我们总共可以有二的24次方种，也就是16777216种不同的颜色。

但你有那么多种颜色可以用。当然可以表达很细微的颜色差距。那如果我们来把描述色彩的为位数数降低试试看，若降到8位格式，我们就只剩下2的8次方，一共256种颜色可以使用了那个图片就会变成像是这样子。

你可能觉得250多种颜色还是很多的吧，这个图片看起来好像也是还好啊，但是我把颜色说得更低了。

7位原格式的话就剩下128种音色。

接下来是6位原格式就剩下64种颜色。

这是5位原格式，也就是只有二的五次方32种可能的颜色到这边。

你应该会发现渐渐有一块一块的色块出现的。这是因为在只能有32种颜色的情况下，已经没有办法表达颜色的细微差距，所以所有的颜色都要被四舍五入进32种颜色之中的其中一种。那我们继续调低色彩数试试看。

这个是四位原格式整张图片只有16种颜色。

三位原格式整张图片只有八种颜色。

要是二位原格式只能图片只有四种颜色。

最后是一位原格式，也就是整张图片，只能有两种颜色。

最后整理下在非压缩的图片档案格式里面影响画质的因素主要有两种，一个是像素的数量，影响形状的解析度。

另外一个是色彩的位数，它会影响色彩的解析度。说了这么多图片档案的事情。

现在我终于要来到声音文件文件了。在非压缩的声音档案当中，影响音质的因素有两个，一个是取样频率。另外一个是位数深度。接下来我要跟你解释这两件事情的影响声音档案里面的取样就像是图片文件里面的像素一样。如果在录影转里面把声波放大。你就可以看到在电脑里面升档也是跟图片答案一样，用一个一个小点点储存起来的电脑。

在声音档案里面，就是用一个数字代表每个取样点的高度。他知道的每个点点的高度之后，电脑就可以还原整段声波，那所谓的取样频率，就是再说一秒钟电脑绘画几个点点来记录声波。再说，理论上画越多个点，就越可以记录瞬间的声波变化。

但是跟图片答案不同的是，人可以把图片放大来看，但是你没有办法把升档按放大来听，以更多的取样点三理论上可以进入更高频率的细节。但是人听不到，所以完全没有用武之地。

根据所有的尼奎斯特定理，要保留某个频率的声波，你必须用两倍以上的取样频率才能把它记录下来。那一般认为人类的耳朵可以听到的最高频率是2万Hz，但要记住所有人类听得见的声音，频率，范围，你只需要用两倍，也就是每秒四万个以上的取样点就可以了。

在2019年，在油管上面听到的大部分影片的声音都是每秒四万八千个取样点（48kHz）的取样频率录制的，而一般音乐专辑或者CD唱片国内视频网站的取样频率还会稍微再低一点点。常见的规格是每秒四万四千一百个（44.1KHz）取样点，不过这两种格式都已经比四万还要高，所以都可以完全进入到人类听得见的频率。

影响音质的另外一个因素是位数深度，我们刚才不是说电脑在声音档案里面会用一个数字就代表每个取样点的高度嘛。在一般入门等级的USB麦克风，它里面那个把声波转换成数字信号的那个转换器，多半都是16位数的又叫做16 bit ADC。也就是说，它可以让每个取样点有二的16次方，一共65536种可能的高度。

那时候，你实际上的那个声波没有刚好落在那个转换器可以记录的那六万多种高度上面的话怎么办呢？那就想前面图片档案的时候要四舍五入了。

你看种假设我有一个声波是这个样子，然后我要在这五个时间点坐骑一样。但是我的取向点并不是可以挂在任何一个地方。

取样点是有刻度的，以16位的录音来说，要画到哪六万多个刻度当中的其中一个，所以说，你的声波在取样的那个时间点当时没有正好落在刻度上的话，我们就只好四舍五入取最接近的那个取样点来记录。那你看我们记录的声波不就跟原来的声波有误差了，这样子的误差就叫做量化误差，（Quadratuer Error）

量化误差在实际上面的表现就是会产生杂音，那你的转换器每多一个位数大约就可以减少六分贝的量化误差的杂音，16位数的录音的量化误差杂音，大约可以比最大讯号小声96分贝2，而4位数录音的量化误差造成的噪音会比最大型号小升144分贝。

当你用16位模式录音的时候，因为麦克风里面的那个转换器把声波转成档案时量化误差产生的杂音比较大，所以你会想要在录音的时候就把音量开大一点点来尽量改掉那些杂音。但是录音的时候音量太大的话又会有音量爆掉的风险。如果你用24位模式录音的时候，你可以把麦克风的音量关很小都没有关系。因为就算你再录完音之后，再把文件整个调大个二十分贝到三十分贝你都还是完全听不到因为量化误差而产生的杂音。当然我还是要提醒你以上说的杂音都是你的麦克风，把声音转换成数位档案的时候，因为数字计算的四舍五入而产生的杂音，而不是说你录音的时候环境的杂音。那个环境的杂音是不管你用几位的模式录音都没有办法去除的。

文章转载自：

https://baijiahao.baidu.com/s?id=1624598290098248882&wfr=spider&for=pc

若有侵权，请联系删除

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。