被遗忘的C结构体打包技术

原文见 http://www.catb.org/esr/structure-packing/　。　作者是著名hacker。　虽然讲的是Ｃ语言中一个很基本的概念，但条理清楚，读后仍能获得不少启发。　特别是文中提到的结构体的跨步地址（stride address)，我以前没有注意到！

１. 谁该阅读本文

本文是关于如何减少Ｃ程序的内存占用的：手工重新排列Ｃ结构体的成员声明来减小尺寸。为了读懂它，你需要基本的Ｃ语言知识。　

如果你想为内存受限的嵌入式系统或操作系统内核写代码，你需要了解该技术。　如果你在处理很大量的应用程序数据时经常超出了内存限制，或是你非常想要减小缓存不命中的次数，了解该技术是很有用的。

最后，理解该技术是其它难懂的Ｃ语言概念的入口。　你不是高级的Ｃ程序员除非你掌握了它。你不是Ｃ语言大师除非你自己能写出这样的文件并能聪明地评论它。

2. 我为什么写这篇文章

写这篇文章的起因是，2013年底我发现自己大量地使用一个Ｃ语言优化技术，而这种技术自从我二十多年前学习后就很少使用。

我的程序使用数千甚至数万个Ｃ结构实例，我需要减小内存占用。　该程序是cvs-fast-export , 它在处理巨大的源码库时，会因内存不够而退出。

在这种情况下有方法可以极大地减小内存占用，比如小心地重排结构成员的顺序。　这可以取得明显的效果：以我的情况为例，我能把工作时的内存占用减小40%，使程序能处理更大的源码库而不退出。

在处理问题并回味我的做法时，我意识到这种技术在今天大半被遗忘了。　做一个简单的网页搜索，可以看出至少在搜索引擎能够看到的地方，Ｃ程序员已经不怎么讨论它了。　有几个维基百科词条提到了它，但我觉得没人说得很全面。
　
这种现象也情有可原。　计算机课程（正确地）指引人们避开微观的优化而去寻找更优的算法。　硬件价格的下降也使挤压内存占用变得没有必要。　还有，hacker们以前用这种技术时，常在奇特的硬件架构上碰壁，当然，这种情况现在比较少见了。

但该技术仍在重要的情况下有用武之地，而且只要内存有限制，就会有用。　这篇文章的目的是避免Ｃ程序员重新发现该技术，使他们能专注于更重要的事情。

3. 对齐的要求

首先要理解的是，在现代处理器上，Ｃ编译器在内存里存放基本数据类型时是受限的：以最快存取速度为目标。
在X86或ARM上，基本数据类型并不是存放在任意内存地址上的。　每种类型除了char都有对齐要求(alignment requirement); char类型可以开始于任何地址，但２字节的short类型必须存放在偶数地址上，４字节的整型或浮点型必须放在能被４整除的位置上，而８字节的long或double型必须放在能被８整除的地址上。有符号或无符号没有差别。

用术语来讲就是，基本Ｃ类型在X86和ARM上都是自对齐的（self-aligned）。指针，不管是32位（４字节）还是64位（８字节）也是自对齐的。
自对齐能存取得更快是因为它能用一条指令来存取该类型数据。　另一方面，如果没有对齐限制，代码可能会在跨机器字边界存取的时候使用两条以上的指令。　字符是特殊情况: 不管它在们在机器字的哪个位置，存取代价都是一样的。所以它们没有对齐要求。

我说“在现代处理器上”，是因为在有些更老的处理器上，强迫你的Ｃ代码违反对齐限制（比如，把一个奇数地址转换为int指针并试图使用它）不仅会让你的代码变慢，还会造成非法指令异常。　比如在Sun　SPARC芯片上就是这样。　事实上，只要有足够的决心和正确的硬件标志(e18)，你也可以在X86上触发该异常。

自对齐还不是唯一的规则。　历史上，有些处理器（特别是那些没有barrel shifters的）有更严格的规则。如果你在做嵌入式系统，你可能撞到这些暗礁。要有心理准备。

有时你可以让编译器不遵守处理器的正常对齐规则，一般是使用pragma，比如　#pragma pack。　请不要随意使用，因为它会生成开销更大、更慢的代码。　通过使用我介绍的技术，你可以节省同样、甚至更多的内存。

使用#pragma pack的唯一合理理由是，你需要Ｃ数据分布完全匹配某些硬件或协议，比如一个经过内存映射的物理端口，则不违反对齐规则就无法做下去。　如果你处在那种情况，而不理解本文的内容，你会遇到大麻烦，祝你好运。

4. 填充（padding）

现在我们来看一个简单的例子，变量在内存中的分布。　考虑在Ｃ模块的顶部，有这些变量声明：

１. 谁该阅读本文

2. 我为什么写这篇文章

3. 对齐的要求

4. 填充（padding）

5. 结构体的对齐和填充

6. 结构成员重排

7. 怪异数据类型

8. 可读性和cache局部性

9. 其它打包技术

10. 工具

11. 证明和例外