快速填充像素的方法


假定我们要用同一种颜色填充100M个像素,每个像素占4个字节,什么方法最快?

第一种方法,也是最简单的方法,就是用一个循环不断填充每一个像素。

#include <time.h>
#include <stdio.h>

#define MAX_PIXELS 0x6400000
#define COLOR 0xaabbccdd

int main () {
    int *p = new int[MAX_PIXELS];
    clock_t start, finish;

    start = clock();
for (long i=0; i<MAX_PIXELS; i++) { p[i] = COLOR; }
finish
= clock(); printf ("%lf ms ", (double)(finish - start)*1000/CLOCKS_PER_SEC); delete p; return 0; }

测试下性能,在gcc编译器不优化的情况下,需要270ms。

如果加上优化选项 -O3,需要210ms。是快了一点,但是很有限。

第二种方法,使用std::fill()函数。

#include <time.h>
#include <stdio.h>
#include <algorithm>
#define MAX_PIXELS 0x6400000 #define COLOR 0xaabbccdd int main () { int *p = new int[MAX_PIXELS]; clock_t start, finish; start = clock(); std::fill (p, p + MAX_PIXELS, COLOR); finish = clock(); printf ("%lf ms ", (double)(finish - start)*1000/CLOCKS_PER_SEC); delete p; return 0; }

在gcc编译器不优化的情况下,仍然需要270ms。

如果加上优化选项 -O3,居然能在80ms跑完。这是什么巫术?

第三种方法,利用SSE指令嵌入汇编。 通过一条指令可以一次完成4个像素128位的填充,应该可以比一次1个像素大致快4倍。

#include <time.h>
#include <stdio.h>

#define MAX_PIXELS 0x6400000
#define COLOR 0xaabbccdd

int main () {
    int *p = new int[MAX_PIXELS];
    clock_t start, finish;
    
int
a[4] = {COLOR, COLOR, COLOR, COLOR};
start
= clock(); asm("movdqa %0, %%xmm0 "::"m"(a));
for (register long i=0; i<MAX_PIXELS; i+=4) { asm("movdqa %%xmm0, %0 "::"m"(p[i])); }
finish = clock();
    printf ("%lf ms
", (double)(finish - start)*1000/CLOCKS_PER_SEC); 

delete p;
return 0;
}

测试下性能,在gcc编译器不优化的情况下,只需要70ms。

加上优化选项 -O3,反倒稍慢点需要80ms。原因是过度优化添加了一些冗余指令。

 

原来std::fill()的巫术就是利用了SSE优化。

原文地址:https://www.cnblogs.com/silmerusse/p/3536069.html