编写高效代码(大话处理器)

一、软件效率

         软件性能剖析工具分析每个函数(有的工具能分析到每个循环)的执行时间。性能剖析软件:IBM(Rational Quantify)、Intel(VTune)、AMD(CodeAnalyst),DSP集成环境自带。

 

二、减少指令数

  1. 使用更快的算法

    快排,FFT算法

  2. 选用合适的指令

  3. 降低数据精度

  4. 减少函数调用

           a. 将小函数直接写成语句;

           b. 将小函数写成宏;

           c. 将函数声明为内联函数;

  5. 空间交换时间

    将中间结果保存(Google等搜索引擎算法)

  6. 减少过保护

    性能实在吃紧时,可以去掉冗余功能(函数参数检查、异常检测)

三、减少处理器不擅长的操作

  1. 少用乘法(移位)

  2. 少用除法、求余(转为乘法)

  3. 在精度允许的条件下,将浮点数定点化

  4. 尽量减少分支(跳转语句会打乱流水线正常执行,影响效率)

  5. 将最有可能进入的分支放在if中,而不是else中(对应于CPU的分支预测单元 -- 静态预测器)

四、优化内存访问

  1. 少使用数组,少使用指针(大块数据会被放在存储器中,简单局部变量才会放在寄存器中。)

  2. 少使用全局变量(全局变量因为要被多个模块使用,不会放在寄存器中。)

  3. 一次多访问一些数据

  4. 数据对齐访问(对于n字节的变量,它的起始地址应该为n的整数倍)

  5. 大数据结构时的Cacheline对齐

    Intel处理器的Cache Line大多为64 byte,在对大数据结构分配内存时,起始地址最好为64 byte的整数倍,这样Cache Miss的次数最少。

  6. 程序、数据访问符合Cache的时间、空间局部性

    将在一起使用的的数据放在一起能减少Cache Miss,经常执行的代码放在一起也能减少Cache Miss。

  7. 多线程编程时,避免False Sharing(假共享)

    False Sharing:线程间从算法上并不需要共享变量,但实际执行时,它们所用的数据处于同一个Cache Line中,就会引起Cache冲突。

    多线程编程不可避免的要遇到数据共享,编程时应该注意:尽量少共享数据,尽量少修改数据,尽量少频繁地修改数据。

  8. 自己管理内存的动态分配(频繁的动态分配和释放内存所带来的危害,链表的例子(free list 结构))

  9. 隐藏数据搬移时间(如果处理器支持可寻址的SRAM,用DMA将SRAM中数据搬移到处理器。Cache预取机制)

五、充分利用编译期进行优化

  1. 编译器的结构(编译原理与编译器构造,前端与后端)      

  2. 编译器提供的优化选项(根据具体情况适度优化,优化会增加程序空间)

  3. 编译器能计算常量

  4. 简单的表达式化简(消除重复的计算)

  5. 提取公共代码(把两个分支中的公共代码提到外面)

  6. 循环展开、软件流水(在循环代码前通过预编译指令告诉编译器一些信息)

  7. 自动向量化(优化为SIMD指令,也需要预编译指令)

  8. 高效的数据组织(为程序中对变量、函数分配合适的存储空间,减少Cache miss)

  9. 指令并行化

    通过分析指令的相关性,实现乱序调度,将指令并行化。为了更好地并行化,编写高级代码时要减少数据依赖。

  10. 编译器更懂处理器

六、 利用多核来加速程序

  1. 并行计算

    分工(任务划分:各个核执行的代码一样。数据划分:代码一样,处理的数据不同。数据流划分:流水线思想。

    Amdahl’s Law(阿姆达尔定律) 并行的效率:可并行部分占总过程的比例;并行的程度。

  2. 多线程编程

    注意:线程间的同步、负载均衡、可扩展性。 

  3. OpenMP(并行编程架构,专为共享内存系统而设计,适用于多核处理器)

原文地址:https://www.cnblogs.com/mmix2009/p/3193438.html