详解 Linux mmap 内存映射:高效的文件操作方式
很多做 Linux C 开发的都遇到过这样的问题:需要处理一个几十兆甚至几百兆的大文件,用传统的 read/write 方法,每次读取都要频繁调用系统接口,程序慢得像蜗牛爬一样。这个问题如何解决呢?
在 Linux 下,有一个叫 mmap 的系统调用,可以帮咱们直接把文件映射到内存里,让咱们像操作普通数组一样访问文件数据,不仅代码简洁,而且性能大幅提升。本文小编将介绍下 mmap 的原理、用法等,让大文件处理不再成为”性能瓶颈”。
1、什么是 mmap?
mmap(内存映射)是一种将文件、设备或匿名内存直接映射到进程虚拟地址空间的技术。
虽然最初设计用于文件映射,mmap 实际上是一种通用的映射工具,可以将各种对象(如文件、内存、设备等)映射到进程地址空间。
以文件映射为例,映射后进程的内存地址与文件的磁盘地址直接对应。进程可以像操作内存一样读写文件内容,系统会自动将修改后的数据(脏页)同步回磁盘文件。

上图表示进程的虚拟地址空间布局,分为多个区域,每个区域存放不同类型的数据。内存映射区域处于堆与栈之间。
2、vm_area_struct 结构体
Linux 内核使用 vm_area_struct 结构体来表示进程虚拟内存区域。它用于管理进程的虚拟地址空间,将内存映射与进程的虚拟内存区域关联起来。
在 Linux 内核源码中,vm_area_struct定义如下:
struct vm_area_struct {
unsignedlong vm_start; // 映射区域的起始虚拟地址
unsignedlong vm_end; // 映射区域的结束虚拟地址
structmm_struct *vm_mm; // 指向所属进程的内存管理结构体
structvm_area_struct *vm_next;// 链接到下一个虚拟内存区域
pgprot_t vm_page_prot; // 内存页面的保护标志(如读、写、执行)
unsignedlong vm_flags; // 映射区域的标志位(例如共享、私有、只读等)
structfile *vm_file; // 映射文件的指针
unsignedlong vm_pgoff; // 文件映射的偏移量
void *vm_private_data; // 私有数据,通常用于映射驱动的专用信息
structanon_vma *anon_vma; // 如果是匿名内存映射,指向匿名虚拟内存区域
unsignedlong vm_page_prot_flags; // 页面保护标志的额外信息
};
关键字段说明:
vm_start和vm_end:这两个字段表示一个内存区域的起始和结束虚拟地址。vm_start是区域的起始地址,vm_end是结束地址(不包括该地址)。vm_mm:指向进程的内存管理结构体mm_struct,该结构体描述了进程的整个虚拟内存布局。vm_next:链接到下一个虚拟内存区域的指针。vm_area_struct通常会被链式排列在mm_struct的 mmap 链表中。vm_page_prot:这是页面保护标志,指示该内存区域的访问权限。例如,是否允许读取、写入或执行。vm_flags:这是一个标志位,用于描述该内存区域的特性。常见标志位:- VM_READ: 可读;
- VM_WRITE: 可写;
- VM_EXEC: 可执行;
- VM_SHARED: 共享映射;
- VM_PRIVATE: 私有映射。
vm_file:如果该内存区域是映射一个文件(例如使用 mmap 映射的文件),该字段指向映射的文件对象。vm_pgoff:映射文件的偏移量。对于文件映射,内存区域的起始位置可能并不是文件的起始位置,而是从文件的某个偏移开始。vm_private_data:私有数据指针,通常用于存储与该内存区域相关的特定数据。例如,设备驱动程序可能会在此存储映射的设备特定信息。anon_vma:如果该区域是匿名映射(比如使用 mmap 映射匿名内存),该字段指向匿名虚拟内存区域。匿名内存区域并不对应任何文件。
vm_area_struct 在内存管理中的作用:
- 内存区域的管理:每个进程的虚拟地址空间被划分成多个虚拟内存区域,每个区域由一个
vm_area_struct描述。这个结构帮助内核了解哪些区域是可读的、可写的、可执行的等。 - 内存映射的实现:当一个进程使用 mmap 映射文件或设备时,内核会为这个映射创建一个
vm_area_struct,并将其添加到进程的内存管理链表中。 - 保护和权限控制:通过
vm_area_struct中的保护标志(vm_page_prot和vm_flags),内核能够控制每个虚拟内存区域的访问权限,如读、写、执行等。 - 映射关系的追踪:内核可以通过
vm_area_struct追踪哪些内存区域是文件映射,哪些是匿名映射,甚至是设备映射。
3、mmap 实现原理
(1)系统调用:用户空间的程序通过调用 mmap 来请求将文件或设备映射到进程的虚拟内存空间中。调用时,用户可以指定映射的起始地址、映射的大小、访问权限(读、写、执行)等参数。
(2)文件或设备的映射:内核会根据 mmap 的参数创建一个虚拟内存区域,并将目标文件或设备的内容映射到这个区域。文件的每一部分会对应进程虚拟地址空间中的一段内存。
- 对于文件映射,内核会建立文件和虚拟内存之间的映射关系,使得进程可以像操作内存一样直接访问文件内容。
- 对于设备映射,内核会将设备的内存映射到进程地址空间中,允许进程通过内存访问设备。
(3)页表映射与懒加载:当文件映射到内存时,内核并不会一次性将整个文件加载到内存,而是采用 懒加载(lazy loading)策略。只在进程访问某个虚拟地址时,内核才会把该页加载到物理内存中。这个过程是通过修改进程的 页表 实现的。
- 页表是操作系统用来管理虚拟内存到物理内存映射的数据结构。
- 访问一个未映射的页时,触发页面缺失(page fault)异常,内核会加载相应的文件页到物理内存。
(4)脏页回写:如果映射的是一个可写的文件,当进程修改映射内存时,内核会标记这些页面为“脏页”。在适当的时候,内核会将这些修改后的脏页回写到原始文件中,保持文件与内存的一致性。
(5)内存保护和权限:mmap 提供了对映射内存的权限控制,内核通过修改页面保护标志(如读、写、执行)来控制进程访问这些内存区域的权限。如果进程尝试进行不允许的操作(例如写一个只读区域),内核会触发权限错误。
4、mmap vs 常规文件操作
区别:
mmap |
read/write |
|
|---|---|---|
| 访问方式 | 内存指针直接访问 | 系统调用读写 |
| 数据路径 | 磁盘→页缓存→用户(0 拷贝) | 磁盘→内核缓存→用户(2 次拷贝) |
| 调用开销 | 只需一次 mmap 调用 | 每次读写都要系统调用 |
| 同步方式 | msync()主动刷回 |
write 即刷回 |
read/write:把文件内容读/写到用户缓冲区;mmap:把文件直接映射成进程的虚拟内存,访问时触发缺页中断再加载。
5、函数介绍
创建 mmap 映射:
#include <sys/mman.h> void *mmap(void *addr, size_t length, int prot, int flags, int fd, off_t offset);
参数说明:
addr:建议的映射起始地址,通常可以设置为 NULL。length:映射区域的长度。prot:映射区域的保护标志,可以是以下值的组合:PROT_READ: 可读 PROT_WRITE: 可写 PROT_EXEC: 可执行 PROT_NONE: 不可访问
flags:映射选项,可以是以下值的组合:MAP_SHARED:共享映射,映射区域的更改会影响到原文件。 MAP_PRIVATE: 私有映射,映射区域的更改不会影响原文件。
fd:文件描述符,指向要映射的文件。offset:从文件中的哪个位置开始映射,必须是页大小的倍数。
成功执行时,mmap()返回被映射区的指针。失败时,mmap()返回MAP_FAILED,其值为 (void *)-1,errno 被设为以下的某个值:
EACCES 访问出错 EAGAIN 文件已被锁定,或者太多的内存已被锁定 EBADF 不是有效的文件描述词 EINVAL 一个或者多个参数无效 ENFILE 已达到系统对打开文件的限制 ENODEV 指定文件所在的文件系统不支持内存映射 ENOMEM 内存不足,或者进程已超出最大内存映射数量 EPERM 权能不足,操作不允许 ETXTBSY 已写的方式打开文件,同时指定 MAP_DENYWRITE 标志 SIGSEGV 试着向只读区写入 SIGBUS 试着访问不属于进程的内存区
解除映射:
#include <sys/mman.h> int munmap(void *addr, size_t length);
成功返回 0,失败返回 -1,errno 返回标志和 mmap 一致。当映射关系解除后,对原来映射地址的访问将导致段错误发生。
举个示例:
#include <stdio.h>
#include <stdlib.h>
#include <fcntl.h>
#include <sys/mman.h>
#include <unistd.h>
int main() {
int fd = open("test.txt", O_RDONLY);
if (fd == -1) {
perror("Open failed");
return EXIT_FAILURE;
}
// 获取文件大小
off_t file_size = lseek(fd, 0, SEEK_END);
// 映射文件到内存
char *mapped = mmap(NULL, file_size, PROT_READ, MAP_PRIVATE, fd, 0);
if (mapped == MAP_FAILED) {
perror("mmap failed");
close(fd);
return EXIT_FAILURE;
}
// 使用映射的内存
printf("File content:\n%s\n", mapped);
// 解除映射
if (munmap(mapped, file_size) == -1) {
perror("munmap failed");
}
close(fd);
return EXIT_SUCCESS;
}
6、mmap 使用场景
- 大文件高效读写:避免
read/write频繁拷贝,适合随机访问; - 进程间通信(共享内存):匿名映射创建共享内存,多进程直接读写同一块内存;
- 动态内存分配:匿名映射用于高性能内存分配(如 glibc 的 malloc 底层);
- 设备内存映射:访问硬件设备的寄存器(如 GPU、帧缓冲);
- 程序加载:动态链接库、可执行文件的加载本身就用 mmap;
- 数据库/日志系统:数据库文件、日志文件常用 mmap 提升性能。
总结
mmap 通过将文件、设备或匿名内存映射到进程的虚拟内存空间,避免了传统的 I/O 操作,提高了文件读写的效率。内核使用页表和懒加载技术来动态管理内存,减少内存占用,并通过内存保护机制确保进程的访问权限控制。
以上关于详解 Linux mmap 内存映射:高效的文件操作方式的文章就介绍到这了,更多相关内容请搜索码云笔记以前的文章或继续浏览下面的相关文章,希望大家以后多多支持码云笔记。
如若内容造成侵权/违法违规/事实不符,请将相关资料发送至 admin@mybj123.com 进行投诉反馈,一经查实,立即处理!
重要:如软件存在付费、会员、充值等,均属软件开发者或所属公司行为,与本站无关,网友需自行判断
码云笔记 » 详解 Linux mmap 内存映射:高效的文件操作方式
微信
支付宝