mmap原理与应用

mmap基础概念

内存映射(mmap),就是将文件的磁盘扇区映射到进程的虚拟内存空间的过程,即将一个文件映射到进程的虚拟空间,实现文件磁盘地址和进程虚拟空间中一段虚拟地址的一一对应关系。实现这样的映射关系后,进程就可以采用指针的方式读写操作这一段内存,而系统会自动回写脏页面到对应的文件磁盘上,即完成了对文件的操作而不必再调用read,write等系统调用函数。

mmap_1

由上图可知,进程的虚拟地址空间,由多个虚拟内存区域构成。每个虚拟内存区域都是进程在虚拟地址空间中的一个同质区间,即具有同样特性的连续地址范围。上图中所示的text数据段(代码段)、初始数据段、BSS数据段、堆、栈和内存映射,都是一个独立的虚拟内存区域。内存映射的地址空间处在堆栈之间的空余部分。

linux内核使用 vm_area_struct 结构来表示一个独立的虚拟内存区域,由于每个不同质的虚拟内存区域功能和内部机制都不同,因此一个进程使用多个 vm_area_struct 结构来分别表示不同类型的虚拟内存区域。各个 vm_area_struct 结构使用链表或者树形结构链接,方便进程快速访问,如下图所示:

mmap_2

vm_area_struct 结构中包含区域起始和终止地址以及其他相关信息。这样,进程对某一虚拟内存区域的任何操作需要用要的信息,都可以从 vm_area_struct 中获得。mmap函数就是要创建一个新的 vm_area_struct 结构,并将其与文件的物理磁盘地址相连。

mmap原理

mmap内存映射的实现过程,总的来说可以分为三个阶段:

阶段一:进程启动映射过程,并在虚拟地址空间中为映射创建虚拟映射区域

  1. 进程在用户空间调用mmap库函数,函数原型如下:

    1
    void *mmap(void *addr, size_t length, int prot, int flags, int fd, off_t offset);

    addr:指定映射的虚拟内存地址,可以设置为 NULL,让内核自动选择合适的虚拟内存地址

    length:映射的长度。

    prot:映射内存的保护模式,可选值如下:

    1
    2
    3
    4
    PROT_EXEC:可以被执行
    PROT_READ:可以被读取
    PROT_WRITE:可以被写入
    PROT_NONE:不可访问

    flags:指定映射的类型,常用的可选值如下:

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    1 MAP_FIXED //使用指定的映射起始地址,如果由start和len参数指定的内存区重叠于现存的映射空间,重叠部分将会被丢弃。如果指定的起始地址不可用,操作将会失败。并且起始地址必须落在页的边界上。
    2 MAP_SHARED //与其它所有映射这个对象的进程共享映射空间。对共享区的写入,相当于输出到文件。直到msync()或者munmap()被调用,文件实际上不会被更新。
    3 MAP_PRIVATE //建立一个写入时拷贝的私有映射。内存区域的写入不会影响到原文件。这个标志和以上标志是互斥的,只能使用其中一个。
    4 MAP_DENYWRITE //这个标志被忽略。
    5 MAP_EXECUTABLE //同上
    6 MAP_NORESERVE //不要为这个映射保留交换空间。当交换空间被保留,对映射区修改的可能会得到保证。当交换空间不被保留,同时内存不足,对映射区的修改会引起段违例信号。
    7 MAP_LOCKED //锁定映射区的页面,从而防止页面被交换出内存。
    8 MAP_GROWSDOWN //用于堆栈,告诉内核VM系统,映射区可以向下扩展。
    9 MAP_ANONYMOUS //匿名映射,映射区不与任何文件关联。
    10 MAP_ANON //MAP_ANONYMOUS的别称,不再被使用。
    11 MAP_FILE //兼容标志,被忽略。
    12 MAP_32BIT //将映射区放在进程地址空间的低2GB,MAP_FIXED指定时会被忽略。当前这个标志只在x86-64平台上得到支持。
    13 MAP_POPULATE //为文件映射通过预读的方式准备好页表。随后对映射区的访问不会被页违例阻塞。
    14 MAP_NONBLOCK //仅和MAP_POPULATE一起使用时才有意义。不执行预读,只为已存在于内存中的页面建立页表入

    fd:进行映射的文件句柄。

    offset:文件偏移量(从文件的何处开始映射)

  2. 在当前进程的虚拟地址空间中,寻找一段空闲的满足要求的连续的虚拟地址

  3. 为此虚拟区分配一个 vm_area_struct 结构,接着对这个结构的各个域进行了初始化

  4. 将新创建的虚拟区结构 vm_area_struct 对象插入到进程的虚拟地址区域链表/树中

阶段二:调用内核空间的mmap函数(不同于用户空间函数),实现文件物理地址和进程虚拟地址的一一映射关系

  1. 为映射分配了新的虚拟地址区域后,通过待映射的文件指针,在文件描述符表中找到对应的文件描述符,通过文件描述符,链接到内核“已打开文件集”中该文件的文件结构体(struct file),每个文件结构体维护着和这个已打开文件相关各项信息。

  2. 通过该文件的文件结构体,链接到 file_operations 模块,调用内核mmap函数,其原型为:

    1
    int mmap(struct file *filp, struct vm_area_struct *vma) //不同于用户空间mmap库函数
  3. 内核mmap函数通过虚拟文件系统inode模块定位到文件磁盘物理地址。

    什么是 inode ?

    全称为 index node,既存储文件元信息的区域,中文译名“索引节点”。
    包含:文件权限、文件拥有者的UID、文件的大小等等。

  4. 通过 remap_pfn_range 函数建立页表,即实现了文件地址和虚拟地址区域的映射关系。此时,这片虚拟地址并没有任何数据关联到物理内存(主存)中。

    主存

    主存储器(Main memory),简称主存。是计算机硬件的一个重要部件,其作用是存放指令和数据,并能由中央处理器(CPU)直接随机存取

阶段三:进程发起对这片映射地址空间的访问,引发缺页异常,实现文件内容到主存(物理内存)的拷贝

⚠️ 前两个阶段仅在于创建虚拟区间并完成地址映射,但是并没有将任何文件数据的拷贝至主存。真正的文件读取是当进程发起读或写操作时

  1. 进程的读或写操作访问虚拟地址空间这一段映射地址,通过查询页表,发现这一段地址并不在物理页上。因为目前只建立了地址映射,真正的硬盘数据还没有拷贝到内存中,因此引发缺页异常。

  2. 缺页异常进行一系列判断,确定无非法操作后,内核发起请求调页过程。

  3. 调页过程先在交换缓存空间(swap cache)中寻找需要访问的内存页,如果没有则调用nopage函数把所缺的页从磁盘装入到主存中。

  4. 之后进程即可对这片主存进行读或者写的操作,如果写操作改变了其内容,一定时间后系统会自动回写脏页面到对应磁盘地址,也即完成了写入到文件的过程。

    修改过的脏页面并不会立即更新回文件中,而是有一段时间的延迟,可以调用msync()来强制同步, 这样所写的内容就能立即保存到文件里了

mmap文件映射和常规文件操作的区别

常规文件读写操作(调用read/fread等函数)过程如下:

  1. 进程发起读写文件请求。

  2. 内核通过查找进程文件符表,定位到内核已打开文件集上的文件信息,从而找到此文件的inode

  3. inodeaddress_space 上查找要请求的文件页是否已经缓存在页缓存中。如果存在,则直接返回这片文件页的内容。

  4. 如果不存在,则通过 inode 定位到文件磁盘地址,将数据从磁盘复制到页缓存。之后再次发起读页面过程,进而将页缓存中的数据发给用户进程。

总结来说,常规文件操作为了提高读写效率和保护磁盘,使用了页缓存机制。这样造成读文件时需要先将文件页从磁盘拷贝到页缓存中,由于页缓存处在内核空间,不能被用户进程直接寻址访问,所以还需要将页缓存中的数据页再次拷贝到用户空间中。这样,通过了两次数据拷贝过程,才能完成进程文件内容的访问。

写操作也是一样,待写入的 buffer 在内核空间不能直接访问,必须要先拷贝至内核空间对应的主存,再写回磁盘中(延迟写回),也是需要两次数据拷贝。

而使用 mmap 操作文件中,创建新的虚拟内存区域和建立文件磁盘地址和虚拟内存区域映射这两步,没有任何文件内容拷贝操作。而之后访问数据时发现内存中并无数据而发起的缺页异常过程,可以通过已经建立好的映射关系,只使用一次数据拷贝,就从磁盘中将数据传入到用户空间中,供进程使用。

总而言之,常规文件操作需要从磁盘到内核空间页缓存再到用户空间主存的两次数据拷贝。而mmap文件映射,只需要从磁盘到用户空间主存的一次数据拷贝过程。说白了,mmap的关键点是实现了用户空间和内核空间的数据直接交互而省去了空间不同数据不通的繁琐过程。因此mmap效率更高。

mmap使用时需要注意的细节

  1. 使用mmap需要注意的一个关键点是,mmap映射区域大小必须是物理页大小(page_size)的整倍数(32位系统中通常是4k字节)。原因是,内存的最小粒度是页,而进程虚拟地址空间和内存的映射也是以页为单位。为了匹配内存的操作,mmap从磁盘虚拟地址空间的映射也必须是页。

  2. 内核可以跟踪被内存映射的底层对象(文件)的大小,进程可以合法的访问在当前文件大小以内并且又在内存映射区以内的那些字节。也就是说,如果文件的大小一直在扩张,只要在映射区域范围内的数据,进程都可以合法得到,这和映射建立时文件的大小无关。

  3. 映射建立之后,即使文件关闭,映射依然存在。因为映射的是磁盘的地址,不是文件本身,和文件句柄无关。

下面看看如果映射的大小不是页的整倍数的几种情况:

  1. 一个文件的大小是5000字节,mmap函数从一个文件的起始位置开始,映射5000字节到虚拟内存中

    因为单位物理页面的大小是4096字节,虽然被映射的文件只有5000字节,但是对应到进程虚拟地址区域的大小需要满足整页大小,因此mmap函数执行后,实际映射到虚拟内存区域8192个 字节,5000~8191的字节部分用零填充。映射后的对应关系如下图所示:

mmap_3

  • 读/写前5000个字节(0~4999),会返回操作文件内容。

  • 读字节5000~8191时,结果全为0。写5000~8191时,进程不会报错,但是所写的内容不会写入原文件中 。

  • 读/写8192以外的磁盘部分,会返回一个SIGSECV错误。

2. 一个文件的大小是5000字节,mmap函数从一个文件的起始位置开始,映射15000字节到虚拟内存中,即映射大小超过了原始文件的大小

由于文件的大小是 5000 字节,它对应着两个物理页。那么这两个物理页都是合法可以读写的,只是超出5000的部分不会体现在原文件中。由于程序要求映射15000字节,而文件只占两个物理页,因此8192字节~15000字节都不能读写,操作时会返回异常。如下图所示:

mmap_4

  • 进程可以正常读/写被映射的前5000字节(0~4999),写操作的改动会在一定时间后反映在原文件中。

  • 对于5000~8191字节,进程可以进行读写过程,不会报错。但是内容在写入前均为0,另外,写入后不会反映在文件中。

  • 对于8192~14999字节,进程不能对其进行读写,会报SIGBUS错误。

  • 对于15000以外的字节,进程不能对其读写,会引发SIGSEGV错误。

3. 一个文件初始大小为0,使用mmap操作映射了1000*4K的大小,即1000个物理页大约4M字节空间,mmap返回指针 ptr。

如果在映射建立之初,就对文件进行读写操作,由于文件大小为0,并没有合法的物理页对应,如同情形二一样,会返回SIGBUS错误。

但是如果,每次操作 ptr 读写前,先增加文件的大小,那么ptr在文件大小内部的操作就是合法的。例如,文件扩充4096字节,ptr就能操作ptr ~ [ (char)ptr + 4095]的空间。只要文件扩充的范围在1000个物理页(映射范围)内,ptr都可以对应操作相同的大小。

这样,方便随时扩充文件空间,随时写入文件,不造成空间浪费

iOS 中的文件映射

文件映射就是使用 mmap 映射磁盘文件到进程的虚拟地址空间。完成映射后,app访问文件就好像是访问内存一样高效。那么什么时候可以考虑使用文件映射呢?

在以下场景下,文件映射非常高效:

  • 你有一个大文件,并且文件内容你会随机的访问一次或多次
  • 你有一个小文件,并且你需要一次性把整个文件数据读入内存中,并且频繁访问。这种技术最适用于大小不超过几个虚拟内存页的文件。
  • 你想在内存中缓存一个文件的一个特定部分。

在以下场景下,不可以使用文件映射:

  • 从头到尾依次读取文件内容仅一次
  • 文件有几百兆字节甚至更大
  • 文件位于可移动驱动器或者网络驱动器中

当随机访问一个很大的文件时,最好的办法是一次映射文件的一小部分。如果映射太多,会占用应用的虚拟地址空间。

mmap应用

1. 日志

京东零售云mPaaS移动端日志回捞探索实践

微信 mars

美团 Logan

2. 持久化存储(MMKV)

MMKV原理