【MTI 6.S081 Lab】Copy-on-write

The problem
The solution
Implement copy-on-write fork (hard)
- 实验任务
- Hints
- 解决方案
- - 问题解决思考
  - uvmcopy
  - kfree
  - kalloc
  - kpageref
  - cow_handler
  - trap

虚拟内存提供了一定程度的间接性：内核可以通过将PTE标记为无效或只读来拦截内存引用，从而导致页面错误，并可以通过修改PTE来更改地址的含义。在计算机系统中有一种说法，任何系统问题都可以通过一定程度的间接性来解决。这个实验室探索了一个例子：copy-on-write fork

The problem

xv6中的fork（）系统调用将父进程的所有用户空间内存复制到子进程中。如果父对象很大，则复制可能需要很长时间。更糟糕的是，这项工作经常被大量浪费：fork（）通常在子进程中后跟exec（），这会丢弃复制的内存，通常不会使用大部分内存。另一方面，如果父进程和子进程都使用复制的页面，并且其中一个或两个都写入，则确实需要复制。‘

The solution

实现写时复制（COW）fork（）的目标是推迟分配和复制物理内存页，直到实际需要副本（如果有的话）。突然安排

COW fork（）只为子进程创建一个页表，用户内存的PTE指向父进程的物理页面。COW fork（）将父进程和子进程中的所有用户PTE标记为只读。当任一进程尝试写入其中一个COW页面时，CPU将强制执行页面故障。内核页面错误处理程序检测到这种情况，为出错进程分配一页物理内存，将原始页面复制到新页面中，并修改出错进程中的相关PTE以引用新页面，这一次PTE标记为可写。当页面错误处理程序返回时，用户进程将能够写入页面的副本。

COW fork（）使得释放实现用户内存的物理页面变得有点棘手。一个给定的物理页面可能被多个进程的页面表引用，并且只有当最后一个引用消失时才应该释放。在像xv6这样的简单内核中，这种记账相当简单，但在生产内核中，这可能很难做到正确；例如，请参阅Patching until the COWs come home.

Implement copy-on-write fork (hard)

实验任务

你的任务是在xv6内核中实现copy-on-write fork。如果修改后的内核成功地执行了cowtest和“usertests-q”程序，那么就完成了。

为了帮助你测试你的实现，我们已经提供了一个xv6程序叫做cowtest。cowtest运行不同的测试，但是在未修改xv6的情况下，第一个测试都会失败。

$ cowtest
simple: fork() failed

”simple“测试分配超过一半可用的物理内存，然后fork（）。fork失败的原因是没有足够的物理内存分配给子进程去完整的copy父进程的所有内存。

但你完成这个实验后，你的内核应该能通过所有的cowtest和usertests -q的测试。

$ cowtest
simple: ok
simple: ok
three: zombie!
ok
three: zombie!
ok
three: zombie!
ok
file: ok
ALL COW TESTS PASSED
$ usertests -q
...
ALL TESTS PASSED

这是一个合理的攻击计划。

修改uvmcopy（）将父进程的物理页面映射到子进程，而不是分配新页面。清除已设置PTE_W的页的子进程和父进程PTE中的PTE_W。
修改usertrap（）以识别页面错误。当最初可写入的COW页面出现写入页面错误时，使用kalloc（）分配一个新页面，将旧页面复制到新页面，然后在PTE_W设置的PTE中安装新页面。最初只读的页面（未映射PTE_W，如文本段中的页面）应保持只读，并在父进程和子进程之间共享；试图写入这样一个页面的进程应该被终止。
确保每个物理页在最后一个PTE引用消失时都被释放，而不是之前。实现这一点的一个好方法是，为每个物理页面保留引用该页面的用户页面表数量的“引用计数”。当kalloc（）分配页面时，将页面的引用计数设置为1。当fork导致子级共享页面时，增加页面的引用数，每当任何进程将页面从其页面表中删除时，减少页面的计数。只有当引用计数为零时，kfree（）才应将页面放回空闲列表。将这些计数保存在一个固定大小的整数数组中是可以的。您必须制定出一个方案，说明如何索引数组以及如何选择其大小。例如，您可以用页面的物理地址除以4096对数组进行索引，并通过kalloc.c中的kinit（）为数组指定一个元素数，该元素数等于自由列表中任何页面的最高物理地址。您可以随意修改kalloc.c（例如，kalloc（）和kfree（））以保持引用计数。
当遇到COW页面时，修改copyout（）以使用与页面错误相同的方案。

Hints

对于每个PTE，有一种方法来记录它是否是COW映射可能是有用的。为此，您可以使用RISC-V PTE中的RSW（保留用于软件）位。
usertests -q探索了cowtest没有测试的场景，所以不要忘记检查所有测试都通过了。
一些有用的宏和页表标志的定义在kernel/rescv.h的末尾。
如果发生COW页面故障，并且没有可用内存，则应终止进程。

解决方案

问题解决思考

用一位代表是否是COW页面。因为只读页面不存在COW的问题，所以只要对可写页面进行COW映射即可。

第九位代表是否是COW页面，也即
```
#define PTE_C (1L << 8)
```
页表需要创建。也即至少需要三个页表页
蹦床页面，每次fork都在allocproc中分配了，所以我们不用管蹦床页面
usertrap中确定页面错误的类型

在SCAUSE（注，Supervisor cause寄存器，保存了trap机制中进入到supervisor mode的原因）寄存器的介绍中，有多个与page fault相关的原因。比如，
- 13表示是因为load引起的page fault；
- 15表示是因为store引起的page fault；
- 12表示是因为指令执行引起的page fault。
XV6内核会打印出错的虚拟地址，并且这个地址会被保存在STVAL寄存器中，所以要更新SVAL所指虚拟地址中物理页面。

uvmcopy

// Given a parent process's page table, copy
// its memory into a child's page table.
// Copies both the page table and the
// physical memory.
// returns 0 on success, -1 on failure.
// frees any allocated pages on failure.
int
uvmcopy(pagetable_t old, pagetable_t new, uint64 sz)
{
  pte_t *pte;
  uint64 pa, i;
  uint flags;
  // char *mem;

  for(i = 0; i < sz; i += PGSIZE){
    if((pte = walk(old, i, 0)) == 0)
      panic("uvmcopy: pte should exist");
    if((*pte & PTE_V) == 0)
      panic("uvmcopy: page not present");
    pa = PTE2PA(*pte);
    flags = PTE_FLAGS(*pte);
    // if((mem = kalloc()) == 0)
    //   goto err;
    // memmove(mem, (char*)pa, PGSIZE);
    // if(mappages(new, i, PGSIZE, (uint64)mem, flags) != 0){
    //   kfree(mem);
    //   goto err;
    // }
    if ((flags & PTE_C) || (flags & PTE_W)) {
      flags = (flags & (~PTE_W)) | PTE_C;
      *pte = (*pte & (~PTE_W)) | PTE_C;
    }
    if(mappages(new, i, PGSIZE, (uint64)pa, flags) != 0){
      goto err;
    }
    kpageref(pa, 1);
  }
  return 0;

 err:
  uvmunmap(new, 0, i / PGSIZE, 1);
  return -1;
}

kfree

// Free the page of physical memory pointed at by pa,
// which normally should have been returned by a
// call to kalloc().  (The exception is when
// initializing the allocator; see kinit above.)
void
kfree(void *pa)
{
  struct run *r;

  if(((uint64)pa % PGSIZE) != 0 || (char*)pa < end || (uint64)pa >= PHYSTOP)
    panic("kfree");

  int idx = (uint64)pa / PGSIZE;
  acquire(&pageref.lock);
  int count = pageref.count[idx];
  if (count > 1) {      // 还有大于一个在引用，直接返回即可
    pageref.count[idx]--;
    release(&pageref.lock);
    return;
  }
  pageref.count[idx] = 0;
  release(&pageref.lock);

  // Fill with junk to catch dangling refs.
  memset(pa, 1, PGSIZE);

  r = (struct run*)pa;

  acquire(&kmem.lock);
  r->next = kmem.freelist;
  kmem.freelist = r;
  release(&kmem.lock);
}

kalloc

// Allocate one 4096-byte page of physical memory.
// Returns a pointer that the kernel can use.
// Returns 0 if the memory cannot be allocated.
void *
kalloc(void)
{
  struct run *r;

  acquire(&kmem.lock);
  r = kmem.freelist;
  if(r) {
    kmem.freelist = r->next;
    int idx = (uint64)r / PGSIZE;
    acquire(&pageref.lock);
    pageref.count[idx] = 1;
    release(&pageref.lock);
  }
  release(&kmem.lock);

  if(r)
    memset((char*)r, 5, PGSIZE); // fill with junk
  return (void*)r;
}

kpageref

void
kpageref(uint64 pa, int inc) {
  int idx = pa / PGSIZE;
  acquire(&pageref.lock);
  pageref.count[idx] += inc;
  release(&pageref.lock);
}

cow_handler

int
cow_handler(pagetable_t pagetable, uint64 va) {
  pte_t *pte;
  uint64 pa;
  uint flags;
  char *mem;

  if (va >= MAXVA) {
    return -1;
  }
  va = PGROUNDDOWN(va);
  if ((pte = walk(pagetable, va, 0)) == 0) {
    return 0;
  }
  pa = PTE2PA(*pte);
  flags = PTE_FLAGS(*pte);
  if (!(flags & PTE_C)) {
    return -1;      // 不是cow
  }
  if((mem = kalloc()) == 0)
    return -1;
  memmove(mem, (char*)pa, PGSIZE);
  // 更新flag
  flags |= PTE_W;
  flags &= (~PTE_C);
  *pte = PA2PTE(mem) | flags;
  kfree((void *)pa);        // 减少pa的引用计数
  return 0;
}

trap

//
// handle an interrupt, exception, or system call from user space.
// called from trampoline.S
//
void
usertrap(void)
{
  uint64 scause = r_scause(); 
  if(scause == 8){
    // system call
  } else if (scause == 15) {
    if (cow_handler(p->pagetable, r_stval()) < 0) {
      setkilled(p);
    }
  } else if((which_dev = devintr()) != 0){
}