DEFINE_PER_CPU，如何实现“数组”

引述自：http://www.unixresources.net/linux/clf/linuxK/archive/00/00/47/91/479165.html

Kevin.Liu 的《调度器笔记》中指明“有几个 CPU 就会有几个 rq 结构体,所有的结构体保存在一个数组中(即runqueues)";

《深入Linux内核架构》p_73指明”系统的所有就绪队列中都在runqueues数组中，由下定义完成：

static DEFINE_PER_CPU_SHARED_ALIGNED(struct rq, runqueues);

由于unicore32是单核，所以原先就没关注过这个问题；

在2.6.32中并没有找到所谓的“数组”，那么它是如何实现的？？

我们需要了解几个知识点：

1、相关的DEFINE_PER_CPU宏通过指定变量的section属性而放到指定的节中，可以确定链接生成的vimlinux中只有一份，而不是每个CPU都有一份，因此实际上更本就不存在“数组”（在概念上，我们仍然可以讲“数组”）。

根据指明的section属性，我们知道在内核启动过程中该节所占的存储空间被释放了。

//vmlinux.lds
.init : {
//...........
__per_cpu_load = .;
__per_cpu_start = .;
*(.data.percpu.page_aligned)
*(.data.percpu)
*(.data.per.shared_aligned)
__per_cpu_end = .;
//............
__init_end = .;
}

2、unsigned long __per_cpu_offset[NR_CPUS];

//unicore32是单核，因此此处列出x86代码
void *__cpuinit
per_cpu_init(void)
{
//................
    for_each_possible_cpu(cpu) {
        void *src = cpu == 0 ? cpu0_data : __phys_per_cpu_start;

         memcpy(cpu_data, src, __per_cpu_end - __per_cpu_start);
         __per_cpu_offset[cpu] = (char *)cpu_data - __per_cpu_start;
         per_cpu(local_per_cpu_offset, cpu) = __per_cpu_offset[cpu];

          //...............

         cpu_data += PERCPU_PAGE_SIZE;
    }       
//................
}

即对于每一个CPU对于位于__per_cpu_start与__per_cpu_end之间的变量都拷贝了一份，在__per_cpu_offset[NR_CPUS]中存放了与__per_cpu_start的偏移量。因此当我们get cpu variable的时候，给出variable name和cpu的id，就可以在形式上以数组的形式存取了。

疑问：1、为什么不直接定义成数组的形式，这样也可以完成操作啊，而且又不需要在运行时做拷贝，也不需要分配空间？

2、现行的做法是不是可以提高缓存利用率？毕竟每个核都有自己的L1 Dcache，如果我们直接以数组的形式来实现，就会将其它cpu的数据也缓存进自己的cache，当然对于龙芯和ARM还有预取指令，把总线资源和功耗花在自己极少会使用的数据上，纯属浪费。