转自:http://www.cnblogs.com/super-king/p/3291120.html

  1. start_kernel -> setup_arch 在这个函数中我们主要看这几个函数.
  2. machine_specific_memory_setup
  3. max_low_pfn = setup_memory();
  4. paging_init
  5. zone_sizes_init
  6. 然后我们还要看
  7. build_all_zonelists();
  8. mem_init();
  9.  
  10. //处理内存图,最后保存在e820中
  11. char * __init machine_specific_memory_setup(void)
  12. {
  13. ......
  14. who = "BIOS-e820";
  15.  
  16. // #define E820_MAP_NR (*(char*) (PARAM+E820NR))
  17. // #define E820_MAP ((struct e820entry *) (PARAM+E820MAP))
  18. // 删除内存构成图中任何重叠的部分,因为BIOS所报告的内存构成图可能有重叠
  19. sanitize_e820_map(E820_MAP, &E820_MAP_NR);
  20.  
  21. //调用copy_e820_map()进行实际的拷贝。
  22. //如果操作失败,创建一个伪内存构成图,这个伪构成图有两部分:0到640K及1M到最大物理内存。
  23. if (copy_e820_map(E820_MAP, E820_MAP_NR) < 0) {
  24. ......
  25. e820.nr_map = 0;
  26. add_memory_region(0, LOWMEMSIZE(), E820_RAM);
  27. add_memory_region(HIGH_MEMORY, mem_size << 10, E820_RAM);
  28. }
  29. ......
  30. }
  31. 这里要特别对宏E820_MAP进行说明。E820_MAP是个struct e820entry数据结构的指针.
  32. 这个数据结构定义在include/i386/e820.h中:
  33. struct e820map {
  34. int nr_map;
  35. struct e820entry {
  36. unsigned long long addr; /* start of memory segment */
  37. unsigned long long size; /* size of memory segment */
  38. unsigned long type; /* type of memory segment */
  39. } map[E820MAX];
  40. };
  41. 其中,E820MAX被定义为128。从这个数据结构的定义可以看出,每个e820entry都是对一个物理区间的描述,并且一个物理区间必须是同一类型。如果有一片地址连续的物理内存空间,其一部分是RAM,而另一部分是ROM,那就要分成两个区间。即使同属RAM,如果其中一部分要保留用于特殊目的,那也属于不同的一个分区。在e820.h文件中定义了4种不同的类型:
  42.  
  43. #define E820_RAM 1
  44. #define E820_RESERVED 2
  45. #define E820_ACPI 3 /* usable as RAM once ACPI tables have been read */
  46. #define E820_NVS 4
  47.  
  48. #define HIGH_MEMORY (1024*1024)

其中E820_NVS表示“Non-Volatile Storage”,即“不挥发”存储器,包括ROM、EPROM、Flash存储器等。

在PC中,对于最初1MB存储空间的使用是特殊的。开头640KB(0x0~0x9FFFF为RAM,从0xA0000开始的空间则用于CGA、EGA、VGA等图形卡。现在已经很少使用这些图形卡,但是不管是什么图形卡,开机时总是工作于EGA或VGA模式。从0xF0000开始到0xFFFFF,即最高的4KB,就是在EPROM或Flash存储器中的BIOS。所以,只要有BIOS存在,就至少有两个区间,如果nr_map小于2,那就一定出错了。由于BIOS的存在,本来连续的RAM空间就不连续了。当然,现在已经不存在这样的存储结构了。1MB的边界早已被突破,但因为历史的原因,把1MB以上的空间定义为“HIGH­­_MEMORY”,这个称呼一直沿用到现在,于是代码中的常数HIGH­­_MEMORY就定义为“1024´1024”但是,为了保持兼容,就得留出最初1MB的空间。

这个阶段初始化后,物理内存中内核映像的分布如图所示:

 
  *

图  内核映象在物理内存中的分布

符号_text对应物理地址0x00100000,表示内核代码的第一个字节的地址。内核代码的结束位置用另一个类似的符号_etext表示。内核数据被分为两组:初始化过的数据和未初始化过的数据。初始化过的数据在_etext后开始,在_edata处结束,紧接着是未初始化过的数据,其结束符号为_end,这也是整个内核映像的结束符号。

图中出现的符号是由编译程序在编译内核时产生的。你可以在System.map文件中找到这些符号的线性地址(或叫虚拟地址),System.map是编译内核以后所创建的。

调用copy_e820_map()进行实际的拷贝。

如果操作失败,创建一个伪内存构成图,这个伪构成图有两部分:0到640K及1M到最大物理内存。

  1. //进行实际拷贝
  2. int __init copy_e820_map(struct e820entry * biosmap, int nr_map)
  3. {
  4. //如果物理内存区间小于2,那肯定出错。因为BIOS至少和RAM属于不同的物理区间。
  5. if (nr_map < 2)
  6. return -1;
  7.  
  8. //从BIOS构成图中读出一项
  9. do {
  10. unsigned long long start = biosmap->addr;
  11. unsigned long long size = biosmap->size;
  12. unsigned long long end = start + size;
  13. unsigned long type = biosmap->type;
  14.  
  15. if (start > end)
  16. return -1;
  17.  
  18. //一些BIOS把640K~1MB之间的区间作为RAM来用,这是不符合常规的。因为从0xA0000开始的空间用于图形卡,因此,在内存构成图中要进行修正。
  19. ////如果一个区的起点在0xA0000 (640K)以下,而终点在1MB之上,就要将这个区间拆开成两个区间,中间跳过从0xA0000到1MB边界之间的那一部分。
  20. if (type == E820_RAM) {
  21. if (start < 0x100000ULL && end > 0xA0000ULL) {
  22. if (start < 0xA0000ULL)
  23. add_memory_region(start, 0xA0000ULL-start, type);
  24.  
  25. if (end <= 0x100000ULL)
  26. continue;
  27.  
  28. start = 0x100000ULL;
  29. size = end - start;
  30. }
  31. }
  32. //这个函数的功能就是在e820中增加一项
  33. add_memory_region(start, size, type);
  34. } while (biosmap++, --nr_map);
  35. return 0;
  36. }
  37. 下面来看
  38. #define PFN_UP(x) (((x) + PAGE_SIZE-1) >> PAGE_SHIFT)
  39. #define PFN_DOWN(x) ((x) >> PAGE_SHIFT)
  40. #define PFN_PHYS(x) ((x) << PAGE_SHIFT)
  41. PFN_UP() PFN_DOWN()都是将地址x转换为页面号(PFNPage Frame Number的缩写),二者之间的区别为:PFN_UP()返回大于x的第一个页面号,而PFN_DOWN()返回小于x的第一个页面号。宏PFN_PHYS()返回页面号x的物理地址。
  42. static unsigned long __init setup_memory(void)
  43. {
  44. //arch/i386/kernel/head.S 中有
  45. //movl %edi,(init_pg_tables_end - __PAGE_OFFSET) 将实际映射到的最后页表的内存地址放到变量init_pg_tables_end的物理地址
  46. //init_pg_tables_end = 内核保护模式代码启始地址(0x100000) + 内核保护模式代码尺寸 + pg0的1024个4字节页面描述符号 + 保证第一次分页设置的页表尺寸
  47. //(一般还需要若干1024个4字节的页面描述符号,由内核尺寸决定) + 描述1G内存的位图尺寸128K字节 + 描述1G内存的页表空间(1024*4096字节) +
  48. //间隔空间(4*4096字节)
  49. //初始化最小可用pfn
  50. min_low_pfn = PFN_UP(init_pg_tables_end);
  51. //在e820 结构中查找最大pfn. 初始化max_pfn
  52. find_max_pfn();
  53. //我们要好好看看这个
  54. max_low_pfn = find_max_low_pfn();
  55. #ifdef CONFIG_HIGHMEM
  56. highstart_pfn = highend_pfn = max_pfn;
  57. if (max_pfn > max_low_pfn) {
  58. highstart_pfn = max_low_pfn; //初始化高端内存开始pfn
  59. }
  60. printk(KERN_NOTICE "%ldMB HIGHMEM available.\n", pages_to_mb(highend_pfn - highstart_pfn));
  61. #endif
  62. printk(KERN_NOTICE "%ldMB LOWMEM available.\n", pages_to_mb(max_low_pfn));
  63. //初始化max_low_pfn的低端内存映射图bitmap,并对系统启动时使用一些特殊占用内存进行保留设置。
  64. setup_bootmem_allocator();
  65.  
  66. return max_low_pfn;
  67. }
  68.  
  69. 首先介绍一些宏定义:
  70. #define VMALLOC_RESERVE (unsigned long)(128 << 20)
  71. #define MAXMEM (unsigned long)(-PAGE_OFFSET-VMALLOC_RESERVE)
  72. #define MAXMEM_PFN PFN_DOWN(MAXMEM)
  73. #define MAX_NONPAE_PFN (1 << 20)
  74.  
  75. VMALLOC_RESERVE :为vmalloc()函数访问内核空间所保留的内存区,大小为128MB
  76. MAXMEM :内核能够直接映射的最大RAM容量,为1GB128MB896MB(-PAGE_OFFSET就等于1GB
  77. MAXMEM_PFN :返回由内核能直接映射的最大物理页面数。
  78. MAX_NONPAE_PFN :给出在4GB之上第一个页面的页面号。当页面扩充(PAE)功能启用时,才能访问4GB以上的内存。
  79. unsigned long __init find_max_low_pfn(void)
  80. {
  81. unsigned long max_low_pfn;
  82. max_low_pfn = max_pfn;
  83.  
  84. if (max_low_pfn > MAXMEM_PFN) { //内存大于896M
  85. if (highmem_pages == -1)
  86. highmem_pages = max_pfn - MAXMEM_PFN; //初始化高端内存页数量为 max_pfn - 896
  87.  
  88. if (highmem_pages + MAXMEM_PFN < max_pfn) //在调整max_pfn
  89. max_pfn = MAXMEM_PFN + highmem_pages;
  90.  
  91. if (highmem_pages + MAXMEM_PFN > max_pfn) { //说明有错误发生
  92. printk("only %luMB highmem pages available, ignoring highmem size of %uMB. n", pages_to_mb(max_pfn - MAXMEM_PFN), ages_to_mb(highmem_pages));
  93. highmem_pages = 0; //忽略
  94. }
  95. max_low_pfn = MAXMEM_PFN; //初始化为896M内存的pfn
  96. #ifndef CONFIG_HIGHMEM //没有定义使用高端内存
  97. printk(KERN_WARNING "Warning only %ldMB will be used.\n", MAXMEM>>20);
  98. if (max_pfn > MAX_NONPAE_PFN) //内存超过4G
  99. printk(KERN_WARNING "Use a PAE enabled kernel.\n");
  100. else
  101. printk(KERN_WARNING "Use a HIGHMEM enabled kernel.\n");
  102. max_pfn = MAXMEM_PFN; //最多使用到896M
  103. #else //定义
  104. #ifndef CONFIG_X86_PAE //没有开启PAE
  105. if (max_pfn > MAX_NONPAE_PFN) {
  106. max_pfn = MAX_NONPAE_PFN; //只能使用4G内存
  107. printk(KERN_WARNING "Warning only 4GB will be used.\n");
  108. printk(KERN_WARNING "Use a PAE enabled kernel.\n");
  109. }
  110. #endif /* !CONFIG_X86_PAE */
  111. #endif /* !CONFIG_HIGHMEM */
  112. //下面说明内存小于896M
  113. } else {
  114. if (highmem_pages == -1)
  115. highmem_pages = 0; //没有高端内存
  116. #ifdef CONFIG_HIGHMEM
  117. if (highmem_pages >= max_pfn) {
  118. printk(KERN_ERR "highmem size specified (%uMB) is bigger than pages available (%luMB)!.\n", pages_to_mb(highmem_pages), pages_to_mb(max_pfn));
  119. highmem_pages = 0;
  120.  
  121. }
  122. if (highmem_pages) { //有高端内存
  123. if (max_low_pfn-highmem_pages < 64*1024*1024/PAGE_SIZE) { //高端内存的使用导致了常规内存小于64M
  124. printk(KERN_ERR "highmem size %uMB results in smaller than 64MB lowmem, ignoring it.\n", pages_to_mb(highmem_pages));
  125. highmem_pages = 0; //忽略
  126. }
  127. max_low_pfn -= highmem_pages; //缩小常规内存大小
  128. }
  129. #else
  130. if (highmem_pages)
  131. printk(KERN_ERR "ignoring highmem size on non-highmem kernel!\n");
  132. #endif
  133. }
  134. return max_low_pfn;
  135. }
  136.  
  137. typedef struct bootmem_data {
  138. unsigned long node_boot_start; //表示存放bootmem位图的第一个页面(即内核映象结束处的第一个页面)
  139. unsigned long node_low_pfn; //表示物理内存的顶点,最高不超过896MB
  140. void *node_bootmem_map; //指向bootmem位图
  141. unsigned long last_offset; //用来存放在前一次分配中所分配的最后一个字节相对于last_pos的位移量
  142. unsigned long last_pos; //用来存放前一次分配的最后一个页面的页面号,
  143. //这个域用在__alloc_bootmem_core()函数中,通过合并相邻的内存来减少内部碎片
  144. } bootmem_data_t;
  145. 为了对页面管理机制作出初步准备,Linux使用了一种叫bootmem分配器(bootmem allocator)的机制,这种机制仅仅用在系统引导时,
  146. 它为整个物理内存建立起一个页面位图。这个位图建立在从min_low_pfn开始的地方,也就是说,内核映象终点_end上方的地方。
  147. 这个位图用来管理低区(例如小于896MB),因为在0896MB的范围内,有些页面可能保留,有些页面可能有空洞,因此,建立这个
  148. 位图的目的就是要搞清楚哪一些物理页面是可以动态分配的。
  149. void __init setup_bootmem_allocator(void)
  150. {
  151. ......
  152. /*
  153. 通过调用init_bootmem()函数,为物理内存页面管理机制的建立做初步准备,为整个物理内存建立起一个页面位图。这个位图建立在从min_low_pfn开始的地方,
  154. 也就是说,把内核映像终点_end上方的若干页面用作物理页面位图。在前面的代码中已经搞清楚了物理内存顶点所在的页面号为max_low_pfn,所以物理内存的页面号一定在0~max_low_pfn之间。可是,在这个范围内可能有空洞(hole),另一方面,并不是所有的物理内存页面都可以动态分配。建立这个位图的目的就是要搞清楚哪一些物理内存页面可以动态分配的。
  155. */
  156. bootmap_size = init_bootmem(min_low_pfn, max_low_pfn);
  157. //根据e820表将未使用的内存在bdata->node_bootmem_map中对应的位置清0,很简单
  158. register_bootmem_low_pages(max_low_pfn);
  159.  
  160. //启始地址是内核启始指针,尺寸为从内核开始到内存映射表结束,保留从内核开始到内存映射表结束的内存
  161. //通过使用test_and_set_bit,将保留空间设置为1
  162. reserve_bootmem(__pa_symbol(_text), (PFN_PHYS(min_low_pfn) + bootmap_size + PAGE_SIZE-1) - __pa_symbol(_text));
  163. reserve_bootmem(0, PAGE_SIZE); //保留启始4K内存
  164. reserve_ebda_region();保留EBDA开始4K内存
  165. ......
  166. }
  167. 在这里NODE_DATA(0)是全局变量contig_page_data的地址,startmin_low_pfnpagesmax_low_pfn
  168. unsigned long __init init_bootmem (unsigned long start, unsigned long pages)
  169. {
  170. max_low_pfn = pages;
  171. min_low_pfn = start;
  172. return(init_bootmem_core(NODE_DATA(0), start, 0, pages));
  173. }
  174. static unsigned long __init init_bootmem_core (pg_data_t *pgdat, unsigned long mapstart, unsigned long start, unsigned long end)
  175. {
  176. bootmem_data_t *bdata = pgdat->bdata;
  177. unsigned long mapsize = ((end - start)+7)/8; //低端页面表所占用尺寸
  178.  
  179. mapsize = ALIGN(mapsize, sizeof(long));
  180. bdata->node_bootmem_map = phys_to_virt(mapstart << PAGE_SHIFT); //获得min_low_pfn指向的虚拟地址
  181. bdata->node_boot_start = (start << PAGE_SHIFT); // 0
  182. bdata->node_low_pfn = end; //低端内存页面数目
  183. link_bootmem(bdata); //将这结构插入bdata_list连表
  184.  
  185. //设置min_low_pfn起内存供低端页面表占用的空间初始化为0xFF
  186. memset(bdata->node_bootmem_map, 0xff, mapsize);
  187.  
  188. return mapsize;
  189. }
  190. 下面我们看一个非常重要的函数
  191. void __init paging_init(void)
  192. {
  193. ......
  194. //建立内核页表
  195. pagetable_init(); //这个最重要,我们下面看
  196.  
  197. load_cr3(swapper_pg_dir); //__asm__( "movl %%ecx,%%cr3\n" ::"c"(__pa(swapper_pg_dir))); 大约是这样
  198. //这一句是个宏,它使得转换旁路缓冲区(TLB)无效。TLB总是要维持几个最新的虚地址到物理地址的转换。每当页目录改变时,TLB就需要被刷新。
  199. __flush_tlb_all();
  200. //临时内核映射初始化 kmap_atomic()使用
  201. kmap_init();
  202. }
  203. static void __init pagetable_init (void)
  204. {
  205. unsigned long vaddr;
  206. //让pgd_base (页目录基地址) 指向 swapper_pg_dir
  207. pgd_t *pgd_base = swapper_pg_dir;
  208. #ifdef CONFIG_X86_PAE
  209. int i;
  210. //如果PAE 被激活, PTRS_PER_PGD就为4,且变量 swapper_pg_dir 用作页目录指针表
  211. for (i = 0; i < PTRS_PER_PGD; i++)
  212. set_pgd(pgd_base + i, __pgd(__pa(empty_zero_page) | _PAGE_PRESENT));
  213. #endif
  214. ......
  215. kernel_physical_mapping_init(pgd_base); //映射核心页表
  216. ......
  217. //在内存的最高端(4GB - 128MB),有些虚地址直接用在内核资源的某些部分中,这些地址的映射定义在/include/asm-i386/fixmap.h中,
  218. //枚举类型__end_of_fixed_addresses用作索引,宏__fix_to_virt()返回给定索引的虚地址。
  219. //#define __fix_to_virt(x) (FIXADDR_TOP - ((x) << PAGE_SHIFT))
  220. // FIXADDR_TOP 0xfffff000 (4G)
  221. vaddr = __fix_to_virt(__end_of_fixed_addresses - 1) & PMD_MASK;
  222. //进行保留映射页的初始化
  223. page_table_range_init(vaddr, 0, pgd_base);
  224. //永久映射页的初始化
  225. permanent_kmaps_init(pgd_base);
  226. ......
  227. }
  228. //i386体系结构正常使用两级页表,如果开启物理地址扩展PAE那么使用三级页表
  229. static void __init kernel_physical_mapping_init(pgd_t *pgd_base)
  230. {
  231. unsigned long pfn;
  232. pgd_t *pgd;
  233. pmd_t *pmd;
  234. pte_t *pte;
  235. int pgd_idx, pmd_idx, pte_ofs;
  236.  
  237. //在给定地址的页目录中检索相应的下标。因此返回0x300 (或 十进制768 ),即内核地址空间开始处的下标。
  238. //因此,pgd现在指向页目录表的第768项。
  239. /*
  240. #define PGDIR_SHIFT 22
  241. #define PTRS_PER_PGD 1024
  242. 开启PAE
  243. #define PGDIR_SHIFT 30
  244. #define PTRS_PER_PGD 4
  245. */
  246. pgd_idx = pgd_index(PAGE_OFFSET);
  247. pgd = pgd_base + pgd_idx; //指向768项
  248. pfn = 0;
  249.  
  250. for (; pgd_idx < PTRS_PER_PGD; pgd++, pgd_idx++) {
  251. pmd = one_md_table_init(pgd);
  252. if (pfn >= max_low_pfn)
  253. continue;
  254.  
  255. //如果是两级分页 PTRS_PER_PMD = 1,三级分页 = 512 启用了PAE
  256. for (pmd_idx = 0; pmd_idx < PTRS_PER_PMD && pfn < max_low_pfn; pmd++, pmd_idx++) {
  257. //计算第pfn个页框的虚拟地址
  258. unsigned int address = pfn * PAGE_SIZE + PAGE_OFFSET; //0xC0000000
  259. if (cpu_has_pse) { //开启了PSE 4M页
  260. //计算第pfn个4M页框结束边界的虚拟地址
  261. unsigned int address2 = (pfn + PTRS_PER_PTE - 1) * PAGE_SIZE + PAGE_OFFSET + PAGE_SIZE-1;
  262. if (is_kernel_text(address) || is_kernel_text(address2))
  263. set_pmd(pmd, pfn_pmd(pfn, PAGE_KERNEL_LARGE_EXEC));
  264. else
  265. set_pmd(pmd, pfn_pmd(pfn, PAGE_KERNEL_LARGE));
  266.  
  267. pfn += PTRS_PER_PTE; // pfn += 1024
  268. } else {
  269. //分配一个页表
  270. pte = one_page_table_init(pmd);
  271. //两级 1024 三级 512 PTRS_PER_PTE
  272. for (pte_ofs = 0; pte_ofs < PTRS_PER_PTE && pfn < max_low_pfn; pte++, pfn++, pte_ofs++) {
  273. if (is_kernel_text(address)) //addr >= PAGE_OFFSET && addr <= (unsigned long)__init_end 核心正使用
  274. //PAGE_KERNEL_EXEC .. include/asm-i386/pgtable.h
  275. //#define __pte(x) ((pte_t) { (x) } )
  276. //#define pfn_pte(pfn, prot) __pte(((pfn) << PAGE_SHIFT) | pgprot_val(prot))
  277. set_pte(pte, pfn_pte(pfn, PAGE_KERNEL_EXEC));
  278. else
  279. set_pte(pte, pfn_pte(pfn, PAGE_KERNEL));
  280. }
  281. }
  282. }
  283. }
  284. }
  285. static pmd_t * __init one_md_table_init(pgd_t *pgd)
  286. {
  287. pud_t *pud;
  288. pmd_t *pmd_table;
  289.  
  290. //如果使用了CONFIG_X86_PAE选项,则分配一页(4K)的内存给页中间目录,并在全局目录中设置它的地址。
  291. //#define pud_offset(pgd, start) (pgd)
  292. //#define pmd_offset(pud, address) (pud) //正常两级分页,类似这样
  293. #ifdef CONFIG_X86_PAE
  294. pmd_table = (pmd_t *) alloc_bootmem_low_pages(PAGE_SIZE);
  295. set_pgd(pgd, __pgd(__pa(pmd_table) | _PAGE_PRESENT));
  296. pud = pud_offset(pgd, 0);
  297. if (pmd_table != pmd_offset(pud, 0)) //从上面的宏可以看出肯定是一样的
  298. BUG();
  299. #else //否则,没有页上级目录,就把页上级目录直接映射到全局页目录
  300. pud = pud_offset(pgd, 0); //pud = pgd
  301. pmd_table = pmd_offset(pud, 0); // 三级页表时 pmd_table 为什么是 pgd,pmd_offset 与两级页表时不同
  302. #endif
  303.  
  304. return pmd_table;
  305. }
  306. static pte_t * __init one_page_table_init(pmd_t *pmd)
  307. {
  308. if (pmd_none(*pmd)) { //如果pmd项中为空,分配一页用作页表
  309. pte_t *page_table = (pte_t *) alloc_bootmem_low_pages(PAGE_SIZE);
  310. set_pmd(pmd, __pmd(__pa(page_table) | _PAGE_TABLE));
  311. if (page_table != pte_offset_kernel(pmd, 0))
  312. BUG();
  313.  
  314. return page_table;
  315. }
  316. //返回已经存在的页表
  317. return pte_offset_kernel(pmd, 0);
  318. }
  319. static void __init page_table_range_init (unsigned long start, unsigned long end, pgd_t *pgd_base)
  320. {
  321. pgd_t *pgd;
  322. pud_t *pud;
  323. pmd_t *pmd;
  324. int pgd_idx, pmd_idx;
  325. unsigned long vaddr;
  326.  
  327. vaddr = start;
  328. pgd_idx = pgd_index(vaddr); //pgd 索引
  329. pmd_idx = pmd_index(vaddr);
  330. pgd = pgd_base + pgd_idx; //指向所在pgd项
  331.  
  332. for ( ; (pgd_idx < PTRS_PER_PGD) && (vaddr != end); pgd++, pgd_idx++) {
  333. if (pgd_none(*pgd))
  334. one_md_table_init(pgd); //已经看过
  335.  
  336. pud = pud_offset(pgd, vaddr); //取出相应的索引
  337. pmd = pmd_offset(pud, vaddr);
  338. for (; (pmd_idx < PTRS_PER_PMD) && (vaddr != end); pmd++, pmd_idx++) {
  339. if (pmd_none(*pmd))
  340. one_page_table_init(pmd); //已经看过
  341.  
  342. //两级页表 PMD_SIZE (1 << 22) 三级页表 (1 << 30)
  343. vaddr += PMD_SIZE;
  344. }
  345. pmd_idx = 0;
  346. }
  347. }
  348. static void __init permanent_kmaps_init(pgd_t *pgd_base)
  349. {
  350. pgd_t *pgd;
  351. pud_t *pud;
  352. pmd_t *pmd;
  353. pte_t *pte;
  354. unsigned long vaddr;
  355.  
  356. //#define FIXADDR_BOOT_START (FIXADDR_TOP - __FIXADDR_BOOT_SIZE)
  357. //#define __FIXADDR_BOOT_SIZE (__end_of_fixed_addresses << PAGE_SHIFT)
  358. //#define PKMAP_BASE ( (FIXADDR_BOOT_START - PAGE_SIZE*(LAST_PKMAP + 1)) & PMD_MASK )
  359. vaddr = PKMAP_BASE;
  360.  
  361. //LAST_PKMAP 1024 PAE enable 512
  362. page_table_range_init(vaddr, vaddr + PAGE_SIZE*LAST_PKMAP, pgd_base);
  363.  
  364. pgd = swapper_pg_dir + pgd_index(vaddr);
  365. pud = pud_offset(pgd, vaddr);
  366. pmd = pmd_offset(pud, vaddr);
  367. pte = pte_offset_kernel(pmd, vaddr);
  368. pkmap_page_table = pte; //永久内核映射的开始 kmap 函数使用
  369. }
  370. //为kmap_atomic函数初始化一些参数
  371. static void __init kmap_init(void)
  372. {
  373. unsigned long kmap_vstart;
  374. //临时内核映射线性地址开始
  375. kmap_vstart = __fix_to_virt(FIX_KMAP_BEGIN);
  376.  
  377. //#define kmap_get_fixmap_pte(vaddr) pte_offset_kernel(pmd_offset(pud_offset(pgd_offset_k(vaddr), vaddr), (vaddr)), (vaddr))
  378. //#define pgd_offset(mm, address) ((mm)->pgd+pgd_index(address))
  379. //#define pgd_offset_k(address) pgd_offset(&init_mm, address)
  380. //init_mm->pgd = swapper_pg_dir :)
  381. kmap_pte = kmap_get_fixmap_pte(kmap_vstart); //指向开始的页表项
  382. kmap_prot = PAGE_KERNEL;
  383. }
  384. 下面我们看内存页是怎样组织的.
  385. 物理内存被划分为三个区来管理,它们是ZONE_DMAZONE_NORMAL ZONE_HIGHMEM。每个区都用struct zone结构来表示,
  386. 定义于include/linux/mmzone.h
  387. struct zone {
  388. unsigned long free_pages; //在这个区中现有空闲页的个数
  389. unsigned long pages_min, pages_low, pages_high; //对这个区最少、较少及最多页面个数的描述
  390. ......
  391. struct free_area free_area[MAX_ORDER]; //在伙伴分配系统中的位图数组和页面链表
  392. ......
  393. struct pglist_data *zone_pgdat; //本管理区所在的存储节点
  394. ......
  395. unsigned long zone_start_pfn; //该管理区的起始pfn
  396. unsigned long spanned_pages; //总计页数量,包含洞
  397. unsigned long present_pages; //总计页数量,除了洞
  398. char *name; //管理区名字
  399. };
  400. #define ZONE_DMA 0
  401. #define ZONE_DMA32 1
  402. #define ZONE_NORMAL 2
  403. #define ZONE_HIGHMEM 3
  404. #define MAX_NR_ZONES 4
  405.  
  406. struct free_area {
  407. struct list_head free_list;
  408. unsigned long nr_free;
  409. };
  410. zone­­­结构中的free_area[MAX_ORDER]是一组“空闲区间”链表。为什么要定义一组而不是一个空闲队列呢?
  411. 这是因为常常需要成块地在物理空间分配连续的多个页面,所以要按块的大小分别加以管理。
  412. 因此,在管理区数据结构中既要有一个队列来保持一些离散(连续长度为1)的物理页面,还要有一个队列来保持一些
  413. 连续长度为2的页面块以及连续长度为4816、…、直至2 MAX_ORDER(即4M字节)的队列。
  414.  
  415. void __init zone_sizes_init(void)
  416. {
  417. unsigned long zones_size[MAX_NR_ZONES] = {0, 0, 0};
  418. ......
  419. //define MAX_DMA_ADDRESS (PAGE_OFFSET+0x1000000) (PAGE_OFFSET + 16M)
  420. max_dma = virt_to_phys((char *)MAX_DMA_ADDRESS) >> PAGE_SHIFT;
  421. low = max_low_pfn;
  422. if (low < max_dma)
  423. zones_size[ZONE_DMA] = low;
  424. else { //建立域
  425. zones_size[ZONE_DMA] = max_dma;
  426. zones_size[ZONE_NORMAL] = low - max_dma;
  427. #ifdef CONFIG_HIGHMEM
  428. zones_size[ZONE_HIGHMEM] = highend_pfn - low;
  429. #endif
  430. }
  431. //这个函数用来初始化内存管理区并创建内存映射表,定义于mm/page_alloc.c中
  432. //NODE_DATA(0) 就是struct pglist_data contig_page_data 变量的宏定义,一般在NUMA中有多个节点,其他就只有这一个变量.
  433. free_area_init(zones_size); //这个函数是 free_area_init_node(0, NODE_DATA(0), zones_size, __pa(PAGE_OFFSET) >> PAGE_SHIFT, NULL);的封装
  434. }
  435. //我们一个一个看
  436. void __meminit free_area_init_node(int nid, struct pglist_data *pgdat, unsigned long *zones_size, unsigned long node_start_pfn, unsigned long *zholes_size)
  437. {
  438. pgdat->node_id = nid; // 0
  439. pgdat->node_start_pfn = node_start_pfn; // 也是0
  440. calculate_zone_totalpages(pgdat, zones_size, zholes_size);
  441.  
  442. alloc_node_mem_map(pgdat);
  443.  
  444. free_area_init_core(pgdat, zones_size, zholes_size);
  445. }
  446. static void __init calculate_zone_totalpages(struct pglist_data *pgdat, unsigned long *zones_size, unsigned long *zholes_size)
  447. {
  448. unsigned long realtotalpages, totalpages = 0;
  449. int i;
  450. //总计页数量
  451. for (i = 0; i < MAX_NR_ZONES; i++)
  452. totalpages += zones_size[i];
  453. pgdat->node_spanned_pages = totalpages; //记录全部页数量包含洞
  454.  
  455. realtotalpages = totalpages;
  456. if (zholes_size)
  457. for (i = 0; i < MAX_NR_ZONES; i++)
  458. realtotalpages -= zholes_size[i];
  459. pgdat->node_present_pages = realtotalpages; //现在这是和上面的totalpages一样,因为这时zholes_size = NULL.
  460. }
  461. static void __init alloc_node_mem_map(struct pglist_data *pgdat)
  462. {
  463. ......
  464. if (!pgdat->node_mem_map) {
  465. unsigned long size, start, end;
  466. struct page *map;
  467. //计算页数量,之所以要这样是为了适应NUMA体系结构,如果不是NUMA那么直接使用pgdat->node_spanned_pages就可以了
  468. start = pgdat->node_start_pfn & ~(MAX_ORDER_NR_PAGES - 1);
  469. end = pgdat->node_start_pfn + pgdat->node_spanned_pages;
  470. end = ALIGN(end, MAX_ORDER_NR_PAGES);
  471. size = (end - start) * sizeof(struct page);
  472.  
  473. map = alloc_remap(pgdat->node_id, size); // ?
  474. if (!map)
  475. map = alloc_bootmem_node(pgdat, size); //分配size 数量的struct page 内存
  476.  
  477. pgdat->node_mem_map = map + (pgdat->node_start_pfn - start); //指向位图的相应位置
  478. }
  479. #ifdef CONFIG_FLATMEM
  480. if (pgdat == NODE_DATA(0))
  481. mem_map = NODE_DATA(0)->node_mem_map; //mem_map是一个全局变量
  482. #endif
  483. ......
  484. }
  485. static void __meminit free_area_init_core(struct pglist_data *pgdat, unsigned long *zones_size, unsigned long *zholes_size)
  486. {
  487. unsigned long j;
  488. int nid = pgdat->node_id;
  489. unsigned long zone_start_pfn = pgdat->node_start_pfn;
  490. int ret;
  491.  
  492. pgdat_resize_init(pgdat); // 调用 spin_lock_init(&pgdat->node_size_lock);
  493. pgdat->nr_zones = 0;
  494. init_waitqueue_head(&pgdat->kswapd_wait);
  495. pgdat->kswapd_max_order = 0;
  496.  
  497. for (j = 0; j < MAX_NR_ZONES; j++) {
  498. struct zone *zone = pgdat->node_zones + j;
  499. unsigned long size, realsize;
  500. realsize = size = zones_size[j];
  501. if (zholes_size)
  502. realsize -= zholes_size[j]; //实际大小为去掉洞的大小
  503.  
  504. if (j < ZONE_HIGHMEM)
  505. nr_kernel_pages += realsize; //全局变量,记录kernel可以使用的页数量
  506.  
  507. nr_all_pages += realsize; //全局变量,记录总共可以使用的页数量,去掉了洞
  508.  
  509. //下面初始化zone
  510. zone->spanned_pages = size;
  511. zone->present_pages = realsize;
  512. ...... //略过关于 NUMA
  513. //static char *zone_names[MAX_NR_ZONES] = { "DMA", "DMA32", "Normal", "HighMem" };
  514. zone->name = zone_names[j];
  515. spin_lock_init(&zone->lock);
  516. spin_lock_init(&zone->lru_lock);
  517. zone_seqlock_init(zone);
  518. zone->zone_pgdat = pgdat;
  519. zone->free_pages = 0;
  520.  
  521. zone->prev_priority = DEF_PRIORITY;
  522. //初始化zone结构体中的pageset成员,这个成员为zone中的每cpu变量,其中又分cold和hot下标1和0的页集合
  523. zone_pcp_init(zone);
  524. INIT_LIST_HEAD(&zone->active_list);
  525. INIT_LIST_HEAD(&zone->inactive_list);
  526. zone->nr_scan_active = 0;
  527. zone->nr_scan_inactive = 0;
  528. zone->nr_active = 0;
  529. zone->nr_inactive = 0;
  530. zap_zone_vm_stats(zone); // 实现为memset(zone->vm_stat, 0, sizeof(zone->vm_stat));
  531. atomic_set(&zone->reclaim_in_progress, 0);
  532.  
  533. if (!size)
  534. continue;
  535.  
  536. //初始化 struct zone *zone_table[1 << ZONETABLE_SHIFT] __read_mostly;
  537. zonetable_add(zone, nid, j, zone_start_pfn, size);
  538. ret = init_currently_empty_zone(zone, zone_start_pfn, size, MEMMAP_EARLY);
  539.  
  540. zone_start_pfn += size; //下一个zone的zone_start_pfn
  541.  
  542. }
  543. }
  544. __meminit int init_currently_empty_zone(struct zone *zone, unsigned long zone_start_pfn, unsigned long size, enum memmap_context context)
  545. {
  546. struct pglist_data *pgdat = zone->zone_pgdat;
  547. int ret;
  548. /*初始化zone中的
  549. wait_queue_head_t * wait_table;
  550. unsigned long wait_table_hash_nr_entries;
  551. unsigned long wait_table_bits;
  552. */
  553. ret = zone_wait_table_init(zone, size);
  554. if (ret)
  555. return ret;
  556. pgdat->nr_zones = zone_idx(zone) + 1;
  557. zone->zone_start_pfn = zone_start_pfn;
  558. //#define memmap_init(size, nid, zone, start_pfn) memmap_init_zone((size), (nid), (zone), (start_pfn), MEMMAP_EARLY)
  559. //#define zone_idx(zone) ((zone) - (zone)->zone_pgdat->node_zones) //计算zone的索引是DMA 0 或其他 1,2,3等
  560. memmap_init(size, pgdat->node_id, zone_idx(zone), zone_start_pfn);
  561. //初始化zone中的free_area
  562. zone_init_free_lists(pgdat, zone, zone->spanned_pages);
  563. return 0;
  564. }
  565. 下面我们看
  566. void __meminit memmap_init_zone(unsigned long size, int nid, unsigned long zone, unsigned long start_pfn, enum memmap_context context)
  567. {
  568. struct page *page;
  569. unsigned long end_pfn = start_pfn + size;
  570. unsigned long pfn;
  571.  
  572. for (pfn = start_pfn; pfn < end_pfn; pfn++) {
  573. if (context == MEMMAP_EARLY) {
  574. //#define early_pfn_valid(pfn) pfn_valid(pfn)
  575. if (!early_pfn_valid(pfn))
  576. continue;
  577.  
  578. if (!early_pfn_in_nid(pfn, nid))
  579. continue;
  580. }
  581. page = pfn_to_page(pfn); //在 CONFIG_FLATMEM 内存模式 基本上为 (mem_map + pfn)
  582. set_page_links(page, zone, nid, pfn); //用来设置page所属的节点,zone, node, section, 设置在struct page->flags中.
  583. init_page_count(page); //atomic_set(&page->_count, 1);
  584. reset_page_mapcount(page); //atomic_set(&(page)->_mapcount, -1);
  585. SetPageReserved(page); //设置页为保留
  586. INIT_LIST_HEAD(&page->lru);
  587. #ifdef WANT_PAGE_VIRTUAL
  588. if (!is_highmem_idx(zone)) //不是高端内存
  589. set_page_address(page, __va(pfn << PAGE_SHIFT)); //设置页的虚拟地址
  590. #endif
  591. }
  592. }
  593. //进一步初始化内存域连表
  594. void __meminit build_all_zonelists(void)
  595. {
  596. if (system_state == SYSTEM_BOOTING) { //启动时
  597. //这个函数循环在每个节点上调用 build_zonelists(NODE_DATA(nid)); 对于无NUMA就一个节点
  598. __build_all_zonelists(0);
  599. cpuset_init_current_mems_allowed();
  600. } else {
  601. /* we have to stop all cpus to guaranntee there is no user of zonelist */
  602. stop_machine_run(__build_all_zonelists, NULL, NR_CPUS);
  603. /* cpuset refresh routine should be here */
  604. }
  605. //计算出全部空闲的页
  606. vm_total_pages = nr_free_pagecache_pages(); //实现为 return nr_free_zone_pages(gfp_zone(GFP_HIGHUSER));
  607. printk("Built %i zonelists. Total pages: %ld\n", num_online_nodes(), vm_total_pages);
  608. }
  609. //我们看无NUMA的
  610. struct zonelist {
  611. struct zone *zones[MAX_NUMNODES * MAX_NR_ZONES + 1]; // NULL delimited
  612. };
  613. static void __meminit build_zonelists(pg_data_t *pgdat)
  614. {
  615. int i, j, k, node, local_node;
  616. local_node = pgdat->node_id; // 0
  617.  
  618. for (i = 0; i < GFP_ZONETYPES; i++) { //GPF_ZONETYPES 是 5
  619. struct zonelist *zonelist;
  620. //获得节点中指向管理区链表的域
  621. zonelist = pgdat->node_zonelists + i;
  622.  
  623. j = 0;
  624. //仔细看一下当 i=2 时,连表管理区有全部的zone
  625. k = highest_zone(i); //获得一个域类型 例如 ZONE_NORMAL 或 .. 等
  626. j = build_zonelists_node(pgdat, zonelist, j, k); //返回设置了几个zone
  627. ...... //这有几个循环在不是NUMA的情况下不执行
  628.  
  629. zonelist->zones[j] = NULL; //最后一个为NULL表示结束
  630. }
  631. }
  632. static int __meminit build_zonelists_node(pg_data_t *pgdat, struct zonelist *zonelist, int nr_zones, int zone_type)
  633. {
  634. struct zone *zone;
  635.  
  636. BUG_ON(zone_type > ZONE_HIGHMEM);
  637.  
  638. do {
  639. zone = pgdat->node_zones + zone_type; //指向相应类型的域
  640. if (populated_zone(zone)) { //zone有页存在
  641. #ifndef CONFIG_HIGHMEM
  642. BUG_ON(zone_type > ZONE_NORMAL);
  643. #endif
  644. //如果zone_type为ZONE_DMA,管理区链表zonelist将仅仅包含DMA管理区,如果为ZONE_HIGHMEM,
  645. //则管理区链表中就会依次有ZONE_HIGHMEM、 ZONE_NORMAL和ZONE_DMA
  646. zonelist->zones[nr_zones++] = zone; //安排好优先顺序
  647. check_highest_zone(zone_type);
  648. }
  649. zone_type--;
  650. } while (zone_type >= 0);
  651. return nr_zones;
  652. }
  653. static unsigned int nr_free_zone_pages(int offset)
  654. {
  655. pg_data_t *pgdat = NODE_DATA(numa_node_id());
  656. unsigned int sum = 0;
  657.  
  658. struct zonelist *zonelist = pgdat->node_zonelists + offset;
  659. struct zone **zonep = zonelist->zones;
  660. struct zone *zone;
  661. //计算出全部的空闲页
  662. for (zone = *zonep++; zone; zone = *zonep++) {
  663. unsigned long size = zone->present_pages;
  664. unsigned long high = zone->pages_high;
  665. if (size > high)
  666. sum += size - high;
  667. }
  668. return sum;
  669. }
  670. 最后内存初始化,释放前边标志为保留的所有页面
  671. void __init mem_init(void)
  672. {
  673. extern int ppro_with_ram_bug(void); // 检测pentium是否是有bug的cpu
  674. int codesize, reservedpages, datasize, initsize;
  675. int tmp;
  676. int bad_ppro;
  677. #ifdef CONFIG_FLATMEM
  678. if (!mem_map)
  679. BUG();
  680. #endif
  681. bad_ppro = ppro_with_ram_bug();
  682.  
  683. #ifdef CONFIG_HIGHMEM
  684. //确认fixmap和kmap映射范围没有重叠
  685. if (PKMAP_BASE+LAST_PKMAP*PAGE_SIZE >= FIXADDR_START) {
  686.  
  687. printk(KERN_ERR "fixmap and kmap areas overlap - this will crash\n");
  688. printk(KERN_ERR "pkstart: %lxh pkend: %lxh fixstart %lxh\n",
  689. PKMAP_BASE, PKMAP_BASE+LAST_PKMAP*PAGE_SIZE, FIXADDR_START);
  690. BUG();
  691. }
  692. #endif
  693. set_max_mapnr_init(); //设置num_physpages 和 (也许有)max_mapnr 全局变量
  694. #ifdef CONFIG_HIGHMEM
  695. high_memory = (void *) __va(highstart_pfn * PAGE_SIZE - 1) + 1; //设置高端内存开始虚拟地址
  696. #else
  697. high_memory = (void *) __va(max_low_pfn * PAGE_SIZE - 1) + 1;
  698. #endif
  699. //实现为 return(free_all_bootmem_core(NODE_DATA(0)));
  700. totalram_pages += free_all_bootmem(); //根据页面位图释放内存中所有可供动态分配的页面
  701.  
  702. reservedpages = 0;
  703. for (tmp = 0; tmp < max_low_pfn; tmp++)
  704. //在e820中寻找
  705. if (page_is_ram(tmp) && PageReserved(pfn_to_page(tmp)))
  706. reservedpages++; //计算保留页
  707. //我认为下面这行应该和上面的循环颠倒一下,然后 max_low_pfn 应该为num_physpages. 这样可以统计所有的保留页
  708. set_highmem_pages_init(bad_ppro);//初始化高端页面
  709.  
  710. //计算内核各个部分的大小
  711. codesize = (unsigned long) &_etext - (unsigned long) &_text;
  712. datasize = (unsigned long) &_edata - (unsigned long) &_etext;
  713. initsize = (unsigned long) &__init_end - (unsigned long) &__init_begin;
  714.  
  715. kclist_add(&kcore_mem, __va(0), max_low_pfn << PAGE_SHIFT);
  716. //#define VMALLOC_OFFSET (8*1024*1024) // 8M gap
  717. //#define VMALLOC_START (((unsigned long) high_memory + vmalloc_earlyreserve + 2*VMALLOC_OFFSET-1) & ~(VMALLOC_OFFSET-1))
  718. //vmalloc_earlyreserve 在非discontig内存模式下为0
  719. kclist_add(&kcore_vmalloc, (void *)VMALLOC_START, VMALLOC_END-VMALLOC_START);
  720.  
  721. //打印一些统计信息
  722. //nr_free_pages 函数核心就是
  723. // for_each_zone(zone) 循环所有zone
  724. // sum += zone->free_pages; //统计所有空闲页数量,前面释放页调用过free_page()函数
  725. printk(KERN_INFO "Memory: %luk/%luk available (%dk kernel code, %dk reserved, %dk data, %dk init, %ldk highmem)\n",
  726. (unsigned long) nr_free_pages() << (PAGE_SHIFT-10),
  727. num_physpages << (PAGE_SHIFT-10), codesize >> 10,
  728. reservedpages << (PAGE_SHIFT-10), datasize >> 10,
  729. initsize >> 10, (unsigned long) (totalhigh_pages << (PAGE_SHIFT-10))
  730. );
  731. ......
  732. if (boot_cpu_data.wp_works_ok < 0)
  733. test_wp_bit(); //检查cpu是否支持写保护位,不支持就提示用户重新编译内核.
  734.  
  735. #ifndef CONFIG_SMP
  736. //由startup_32( )函数创建的物理内存前8MB的恒等映射用来完成内核的初始化阶段.
  737. //当这种映射不再必要时,内核调用这函数清除对应的页表项
  738. zap_low_mappings();
  739. #endif
  740. }
  741. static void __init set_max_mapnr_init(void)
  742. {
  743. #ifdef CONFIG_HIGHMEM
  744. num_physpages = highend_pfn;
  745. #else
  746. num_physpages = max_low_pfn;
  747. #endif
  748. #ifdef CONFIG_FLATMEM
  749. max_mapnr = num_physpages;
  750. #endif
  751. }
  752. static unsigned long __init free_all_bootmem_core(pg_data_t *pgdat)
  753. {
  754. struct page *page;
  755. unsigned long pfn;
  756. bootmem_data_t *bdata = pgdat->bdata;
  757. unsigned long i, count, total = 0;
  758. unsigned long idx;
  759. unsigned long *map;
  760. int gofast = 0;
  761.  
  762. pfn = bdata->node_boot_start >> PAGE_SHIFT; //存放bootmem位图的第一个页面
  763. idx = bdata->node_low_pfn - (bdata->node_boot_start >> PAGE_SHIFT); //总计需要释放的内存页数量, node_low_pfn 最高到896M的pfn
  764. map = bdata->node_bootmem_map; //节点内存位图
  765.  
  766. if (bdata->node_boot_start == 0 || ffs(bdata->node_boot_start) - PAGE_SHIFT > ffs(BITS_PER_LONG))
  767.  
  768. gofast = 1;
  769. for (i = 0; i < idx; ) {
  770. //没有使用页相应位是0,取反后为1
  771. unsigned long v = ~map[i / BITS_PER_LONG]; //#define BITS_PER_LONG 32
  772. if (gofast && v == ~0UL) { //v为0xFFFFFFFF,即连续32个页面都没有使用
  773. int order;
  774. page = pfn_to_page(pfn);
  775. count += BITS_PER_LONG;
  776. order = ffs(BITS_PER_LONG) - 1;
  777. __free_pages_bootmem(page, order);
  778. i += BITS_PER_LONG;
  779. page += BITS_PER_LONG;
  780. } else if (v) {
  781. unsigned long m;
  782. page = pfn_to_page(pfn);
  783. for (m = 1; m && i < idx; m<<=1, page++, i++) {
  784. if (v & m) { //相应位为1,没有使用
  785. count++;
  786. __free_pages_bootmem(page, 0); //释放页
  787. }
  788. }
  789. } else {
  790. i+=BITS_PER_LONG;
  791. }
  792. pfn += BITS_PER_LONG;
  793. }
  794. total += count;
  795.  
  796. page = virt_to_page(bdata->node_bootmem_map); //释放位图页面
  797. count = 0;
  798. //一个字节8位,每一位代表一个pfn,下面 / 8 在 / PAGE_SIZE 就是换算使用了多少个页面
  799. for (i = 0; i < ((bdata->node_low_pfn-(bdata->node_boot_start >> PAGE_SHIFT))/8 + PAGE_SIZE-1)/PAGE_SIZE; i++,page++) {
  800. count++;
  801. __free_pages_bootmem(page, 0);
  802. }
  803. total += count;
  804. bdata->node_bootmem_map = NULL;
  805. return total;
  806. }
  807. void fastcall __init __free_pages_bootmem(struct page *page, unsigned int order)
  808. {
  809. if (order == 0) {
  810. __ClearPageReserved(page); //清除页的保留标志
  811. set_page_count(page, 0); //atomic_set(&page->_count, 0);
  812. set_page_refcounted(page); //set_page_count(page, 1);
  813. __free_page(page); //释放这页
  814. } else {
  815. int loop;
  816. prefetchw(page); //预取
  817. for (loop = 0; loop < BITS_PER_LONG; loop++) {
  818. struct page *p = &page[loop];
  819. if (loop + 1 < BITS_PER_LONG)
  820. prefetchw(p + 1);
  821.  
  822. __ClearPageReserved(p);
  823. set_page_count(p, 0);
  824. }
  825. set_page_refcounted(page);
  826. __free_pages(page, order);
  827. }
  828. }
  829. mem_init->
  830. static void __init set_highmem_pages_init(int bad_ppro)
  831. {
  832. int pfn;
  833. for (pfn = highstart_pfn; pfn < highend_pfn; pfn++)
  834. add_one_highpage_init(pfn_to_page(pfn), pfn, bad_ppro);
  835. totalram_pages += totalhigh_pages;
  836. }
  837. void __init add_one_highpage_init(struct page *page, int pfn, int bad_ppro)
  838. {
  839. if (page_is_ram(pfn) && !(bad_ppro && page_kills_ppro(pfn))) {
  840. ClearPageReserved(page); //清除保留标志
  841. free_new_highpage(page);
  842. } else
  843. SetPageReserved(page); //设置保留标志,此页不能使用
  844. }
  845. static void __meminit free_new_highpage(struct page *page)
  846. {
  847. init_page_count(page); //atomic_set(&page->_count, 1);
  848. __free_page(page);
  849. totalhigh_pages++; //统计高端内存页数量
  850. }
  851. mem_init->
  852. void kclist_add(struct kcore_list *new, void *addr, size_t size)
  853. {
  854. new->addr = (unsigned long)addr;
  855. new->size = size;
  856.  
  857. write_lock(&kclist_lock);
  858. new->next = kclist;
  859. kclist = new;
  860. write_unlock(&kclist_lock);
  861. }

Linux内存初始化【转】的更多相关文章

  1. Linux内存初始化

    start_kernel -> setup_arch 在这个函数中我们主要看这几个函数. machine_specific_memory_setup max_low_pfn = setup_me ...

  2. Linux内存初始化(四) 创建系统内存地址映射

    一.前言 经过内存初始化代码分析(一)和内存初始化代码分析(二)的过渡,我们终于来到了内存初始化的核心部分:paging_init.当然本文不能全部解析完该函数(那需要的篇幅太长了),我们只关注创建系 ...

  3. Linux内存初始化(三) 内存布局

    一.前言 同样的,本文是内存初始化文章的一份补充文档,希望能够通过这样的一份文档,细致的展示在初始化阶段,Linux 4.4.6内核如何从device tree中提取信息,完成内存布局的任务.具体的c ...

  4. Linux内存初始化(二)identity mapping和kernel image mapping

    一.前言 本文没有什么框架性的东西,就是按照__create_page_tables代码的执行路径走读一遍,记录在初始化阶段,内核是如何创建内核运行需要的页表过程.想要了解一些概述性的.框架性的东西可 ...

  5. Linux内存初始化(一)

    一.前言 一直以来,我都非常着迷于两种电影拍摄手法:一种是慢镜头,将每一个细节全方位的展现给观众.另外一种就是快镜头,多半是反应一个时代的变迁,从非常长的时间段中,截取几个典型的snapshot,合成 ...

  6. linux内存管理初始化

    内存管理子系统是linux内核最核心最重要的一部分,内核的其他部分都需要在内存管理子系统的基础上运行.而对其初始化是了解整个内存管理子系统的基础.对相关数据结构的初始化是从全局启动例程start_ke ...

  7. 启动期间的内存管理之bootmem_init初始化内存管理–Linux内存管理(十二)

    1. 启动过程中的内存初始化 首先我们来看看start_kernel是如何初始化系统的, start_kerne定义在init/main.c?v=4.7, line 479 其代码很复杂, 我们只截取 ...

  8. 启动期间的内存管理之初始化过程概述----Linux内存管理(九)

    在内存管理的上下文中, 初始化(initialization)可以有多种含义. 在许多CPU上, 必须显式设置适用于Linux内核的内存模型. 例如在x86_32上需要切换到保护模式, 然后内核才能检 ...

  9. Linux内存管理 (1)物理内存初始化

    专题:Linux内存管理专题 关键词:用户内核空间划分.Node/Zone/Page.memblock.PGD/PUD/PMD/PTE.lowmem/highmem.ZONE_DMA/ZONE_NOR ...

随机推荐

  1. HotSpot垃圾收集器GC的种类

      堆内存的结构:

  2. python的==和is区别

    Python中: is判断两个标识符是否引自同一个对象 ==判断两个标识符的值是否相等 区别于java: ==判断两个标识符是否引自同一个对象 .equals()判断是否相等   #如果是String ...

  3. [AT2567] [arc074_c] RGB Sequence

    题目链接 AtCoder:https://arc074.contest.atcoder.jp/tasks/arc074_c 洛谷:https://www.luogu.org/problemnew/sh ...

  4. Effective C++ 条款08:别让异常逃离析构函数

    1.别让异常逃离析构函数的原因 <Effective C++>第三版中条款08建议不要在析构函数中抛出异常,原因是C++异常机制不能同时处理两个或两个以上的异常.多个异常同时存在的情况下, ...

  5. python之旅:面向对象之继承与派生

    一 初识继承 编写类时,并非总要从空白开始.如果你要编写的类正好是另一个现成类的特殊版本,可使用继承来减少代码冗余,子类会“遗传”父类的属性,从而解决代码重用问题 什么是继承 继承是一种创建新类的方式 ...

  6. MVC 中@Html.DropDownListFor() 设置选中项 这么不好使 ? [问题点数:40分,结帖人lkf181]

    http://bbs.csdn.net/topics/390867060 由于不知道错误原因在哪 我尽量把代码都贴出来吧:重点是:在 Controller 类里 我给 SelectListItem集合 ...

  7. CSS--overflow和hover

    一.Overflow overflow 属性规定当内容溢出元素框时发生的事情. 当插入的一张图片大小超过了元素本身大小,就会将元素撑大 <!DOCTYPE html> <html l ...

  8. Docker网络 Weave

    当容器分布在多个不同的主机上时,这些容器之间的相互通信变得复杂起来.容器在不同主机之间都使用的是自己的私有IP地址,不同主机的容器之间进行通讯需要将主机的端口映射到容器的端口上,而且IP地址需要使用主 ...

  9. python【数据类型:列表与元组】

    python列表: 定义一个列表:cities=['北京','上海','广州','深圳'] 注意:列表的下标0表示第一个元素,下标-1表示最后一个元素 列表增加元素 在列表末尾添加一个元素:citie ...

  10. CF&&CC百套计划3 Codeforces Round #204 (Div. 1) E. Jeff and Permutation

    http://codeforces.com/contest/351/problem/E 题意: 给出一些数,可以改变任意数的正负,使序列的逆序对数量最少 因为可以任意加负号,所以可以先把所有数看作正数 ...