实验目的
- 掌握虚拟文件系统的实现原理
- 实践文件、目录、索引节点等概念
实验内容
在Linux 0.11上实现procfs(proc文件系统)内的psinfo结点。当读取此结点的内容时,可得到系统当前所有进程的状态信息。例如,用cat命令显示/proc/psinfo的内容,可得到:
# cat /proc/psinfo
pid state father counter start_time
0 1 -1 0 0
1 1 0 28 1
4 1 1 1 73
3 1 1 27 63
6 0 4 12 817
# cat /proc/hdinfo
total_blocks:62000;
free_blocks:39037;
used_blocks:22963;
total_inodes:20666;
...
procfs及其结点要在内核启动时自动创建。相关功能实现在fs/proc.c文件内。
基本思路
Linux是通过文件系统接口实现procfs,并在启动时自动将其mount到/proc目录上。此目录下的所有内容都是随着系统的运行自动建立、删除和更新的,而且它们完全存在于内存中,不占用任何外存空间。
Linux 0.11还没有实现虚拟文件系统,也就是,还没有提供增加新文件系统支持的接口。所以本实验只能在现有文件系统的基础上,通过打补丁的方式模拟一个procfs。
Linux 0.11使用的是Minix的文件系统,这是一个典型的基于inode的文件系统,它的每个文件都要对应至少一个inode,而inode中记录着文件的各种属性,包括文件类型。文件类型有普通文件、目录、字符设备文件和块设备文件等。在内核中,每种类型的文件都有不同的处理函数与之对应。我们可以增加一种新的文件类型——proc文件,并在相应的处理函数内实现procfs要实现的功能。
增加新文件类型
在include/sys/stat.h文件中定义了几种文件类型和相应的测试宏:
增加新的类型的方法分两步:
- 定义一个类型宏S_IFPROC,其值应在0010000到0100000之间,但后四位八进制数必须是0(这是S_IFMT的限制,分析测试宏可知原因),而且不能和已有的任意一个S_IFXXX相同;
- 定义一个测试宏S_ISPROC(m),形式仿照其它的S_ISXXX(m)
注意,C语言中以“0”直接接数字的常数是八进制数。
代码如下:
#define S_IFPROC 0030000
#define S_ISPROC(m) (((m) & S_IFMT) == S_IFPROC)
让mknod()支持新的文件类型
psinfo结点要通过mknod()系统调用建立,所以要让它支持新的文件类型。直接修改fs/namei.c文件中的sys_mknod()函数中的一行代码,如下:
if (S_ISBLK(mode) || S_ISCHR(mode) || S_ISPROC(mode))
inode->i_zone[0] = dev;
文件系统初始化
内核初始化的全部工作是在main()中完成,而main()在最后从内核态切换到用户态,并调用init()。init()做的第一件事情就是挂载根文件系统:
void init(void)
{
……
setup((void *) &drive_info);
……
}
procfs的初始化工作应该在根文件系统挂载之后开始。它包括两个步骤:
- 建立/proc目录;
- 建立/proc目录下的各个结点。本实验只建立/proc/psinfo。
建立目录和结点分别需要调用mkdir()和mknod()系统调用。因为初始化时已经在用户态,所以不能直接调用sys_mkdir()和sys_mknod()。必须在初始化代码所在文件中实现这两个系统调用的用户态接口,即API:
#define __LIBRARY__
_syscall2(int,mkdir,const char*,name,mode_t,mode)
_syscall3(int,mknod,const char*,filename,mode_t,mode,dev_t,dev)
上面的初始化代码放在main.c文件中。
现在可以调用mkdir()来创建proc目录,可以调用mknod()来创建proc目录下的proc文件节点了。mkdir()的mode参数的值可以是“0755”(rwxr-xr-x),表示只允许root用户改写此目录,其它人只能进入和读取此目录。procfs是一个只读文件系统,所以用mknod()建立psinfo结点时,必须通过mode参数将其设为只读。建议使用“S_IFPROC|0444”做为mode值,表示这是一个proc文件,权限为0444(r–r–r–),对所有用户只读。
mknod()的第三个参数dev用来说明结点所代表的设备编号。对于procfs来说,此编号可以完全自定义。proc文件的处理函数将通过这个编号决定对应文件包含的信息是什么。例如,可以把0对应psinfo,1对应meminfo,2对应cpuinfo。
创建proc目录及文件节点的代码如下:
mkdir("/proc",0755);
mknod("/proc/psinfo",S_IFPROC|0444,0);
mknod("/proc/hdinfo",S_IFPROC|0444,1);
添加上面的代码之后,重新编译并运行Linux 0.11,然后查看文件目录和节点是否已经创建。
inode->i_mode就是通过mknod()设置的mode,通过此值可以了解mknod()工作是否正常。这些信息说明内核在对psinfo进行读操作时不能正确处理,向cat返回了EINVAL错误。因为还没有实现处理函数,所以这是很正常的。
这些信息至少说明,psinfo被正确open()了。所以我们不需要对sys_open()动任何手脚,唯一要打补丁的,是sys_read()。
让proc文件可读
open()没有变化,那么需要修改的就是sys_read()了。首先分析sys_read(在文件fs/read_write.c中):
int sys_read(unsigned int fd,char * buf,int count)
{
struct file * file;
struct m_inode * inode;
if (fd>=NR_OPEN || count<0 || !(file=current->filp[fd]))
return -EINVAL;
if (!count)
return 0;
verify_area(buf,count);
inode = file->f_inode;
if (inode->i_pipe)
return (file->f_mode&1)?read_pipe(inode,buf,count):-EIO;
if (S_ISCHR(inode->i_mode))
return rw_char(READ,inode->i_zone[0],buf,count,&file->f_pos);
if (S_ISBLK(inode->i_mode))
return block_read(inode->i_zone[0],&file->f_pos,buf,count);
if (S_ISDIR(inode->i_mode) || S_ISREG(inode->i_mode)) {
if (count+file->f_pos > inode->i_size)
count = inode->i_size - file->f_pos;
if (count<=0)
return 0;
return file_read(inode,file,buf,count);
}
printk("(Read)inode->i_mode=%06o\n\r",inode->i_mode);
return -EINVAL;
}
显然,要在if分支中加上S_IFPROC()的分支,进入对proc文件的处理函数。需要传给处理函数的参数包括:
- inode->i_zone[0],这就是mknod()时指定的dev——设备编号
- buf,指向用户空间,就是read()的第二个参数,用来接收数据
- count,就是read()的第三个参数,说明buf指向的缓冲区大小
- &file->f_pos,f_pos是上一次读文件结束时“文件位置指针”的指向。这里必须传指针,因为处理函数需要根据传给buf的数据量修改f_pos的值。
代码如下:
if(S_ISPROC(inode->i_mode))
return proc_read(inode->i_zone[0], buf, count, &file->f_pos);
这里的proc_read()函数还未实现,在下面会实现。
proc_read()函数的实现
proc文件的处理函数的功能是根据设备编号,把不同的内容写入到用户空间的buf。写入的数据要从f_pos指向的位置开始,每次最多写count个字节,并根据实际写入的字节数调整f_pos的值,最后返回实际写入的字节数。当设备编号表明要读的是psinfo的内容时,就要按照psinfo的形式组织数据。
sprintf()
Linux 0.11没有sprintf(),可以参考printf()自己实现一个,如下:
int sprintf(char *buf, const char *fmt, ...)
{
va_list args; int i;
va_start(args, fmt);
i=vsprintf(buf, fmt, args);
va_end(args);
return i;
}
该函数的作用是输出结果到指定的字符串中。
psinfo的内容
进程的信息就来源于内核全局结构数组struct task_struct * task[NR_TASKS]中,具体读取细节可参照sched.c中的函数schedule()>
hdinfo的内容
硬盘总共有多少块,多少块空闲,有多少inode等信息都放在super块中,super块可以通过get_super()函数获得。
完整的代码实现如下:(文件路径:ps/proc.c)
#include <linux/kernel.h>
#include <linux/sched.h>
#include <asm/segment.h>
#include <linux/fs.h>
#include <stdarg.h>
#include <unistd.h>
#define set_bit(bitnr,addr) ({ \
register int __res ; \
__asm__("bt %2,%3;setb %%al":"=a" (__res):"a" (0),"r" (bitnr),"m" (*(addr))); \
__res; })
char proc_buf[4096];
extern int vsprintf(char * buf, const char * fmt, va_list args);
int sprintf(char *buf, const char *fmt, ...)
{
va_list args; int i;
va_start(args, fmt);
i=vsprintf(buf, fmt, args);
va_end(args);
return i;
}
int get_psinfo()
{
struct task_struct **p;
int read = 0;
read += sprintf(proc_buf+read,"%s","pid state father counter start_time\n");
for(p = &FIRST_TASK ; p <= &LAST_TASK ; ++p){
if (*p != NULL){
read += sprintf(proc_buf+read,"%d\t",(*p)->pid);
read += sprintf(proc_buf+read,"%d\t",(*p)->state);
read += sprintf(proc_buf+read,"%d\t",(*p)->father);
read += sprintf(proc_buf+read,"%d\t",(*p)->counter);
read += sprintf(proc_buf+read,"%d\n",(*p)->start_time);
}
}
return read;
}
int get_hdinfo()
{
int read = 0;
int i,used;
struct super_block * sb;
sb=get_super(0x301); /*磁盘设备号 3*256+1*/
/*Blocks信息*/
read += sprintf(proc_buf+read,"Total blocks:%d\n",sb->s_nzones);
used = 0;
i=sb->s_nzones;
while(--i >= 0)
{
if(set_bit(i&8191,sb->s_zmap[i>>13]->b_data))
used++;
}
read += sprintf(proc_buf+read,"Used blocks:%d\n",used);
read += sprintf(proc_buf+read,"Free blocks:%d\n",sb->s_nzones-used);
/*Inodes 信息*/
read += sprintf(proc_buf+read,"Total inodes:%d\n",sb->s_ninodes);
used = 0;
i=sb->s_ninodes+1;
while(--i >= 0)
{
if(set_bit(i&8191,sb->s_imap[i>>13]->b_data))
used++;
}
read += sprintf(proc_buf+read,"Used inodes:%d\n",used);
read += sprintf(proc_buf+read,"Free inodes:%d\n",sb->s_ninodes-used);
return read;
}
int proc_read(int dev, char * buf, int count, off_t * pos)
{
int i = 0;
if(*pos % 1024 == 0){
if(dev == 0)
get_psinfo();
else if(dev == 1)
get_hdinfo();
}
for(i = 0; i < count; i++){
if(proc_buf[i+ *pos ] == '\0')
break;
put_fs_byte(proc_buf[i+ *pos],buf + i+ *pos);
}
*pos += i;
return i;
}
修改Makefile
文件路径:fs/Makefile
编译、运行
注意,如果proc目录和下面的节点没有创建对的话,需要挂载然后用root权限删除,在重新创建,文件已经存在的话是不会再创建的。在实验过程中,第一次S_IFPROC没有定义对,导致错误,删除文件后修改S_IFPROC,重新创建就可以了。