关于文件I/o的原子操作

【摘自《Linux/Unix系统编程手册》】

所有系统调用都是以原子操作方式执行的。这里是指内核保证了某系统调用中的所有步骤会作为独立操作而一次性执行，其间不会为其它进程或线程所中断。

原子性是某些操作得以圆满成功的关键所在。特别是它规避了竞争状态（race conditions）。竞争状态是这样一种情形：操作共享资源的两个进程（或线程），其结果取决于一个无法预期的顺序，即这些进程（或线程）获得CPU使用权的先后相对顺序。

以独占方式创建一个文件

当同时指定O_EXCL与O_CREAT作为open()的标志位时，如果要打开的文件已然存在，则open()将返回一个错误。

这就提供了一个机制，保证了进程是打开文件的创建者。对文件是否存在的检查和创建文件属于同一原子操作。

下面这段代码没有使用O_EXCL标志

 1     fd = open(argv[1], O_WRONLY);       /* Open 1: check if file exists */
 2     if (fd != -1) {                     /* Open succeeded */
 3         printf("[PID %ld] File "%s" already exists
",
 4                 (long) getpid(), argv[1]);
 5         close(fd);
 6     } else {
 7         if (errno != ENOENT) {          /* Failed for unexpected reason */
 8             errExit("open");
 9         } else {
10             printf("[PID %ld] File "%s" doesn't exist yet
",
11                     (long) getpid(), argv[1]);
12             if (argc > 2) {             /* Delay between check and create */
13                 sleep(5);               /* Suspend execution for 5 seconds */
14                 printf("[PID %ld] Done sleeping
", (long) getpid());
15             }
16             fd = open(argv[1], O_WRONLY | O_CREAT, S_IRUSR | S_IWUSR);
17             if (fd == -1)
18                 errExit("open");
19 
20             printf("[PID %ld] Created file "%s" exclusively
",
21                     (long) getpid(), argv[1]);          /* MAY NOT BE TRUE! */
22         }
23     }

可以看到，它调用了open()两次，而且还潜伏了一个bug：

假设当第一次调用open()时，希望打开的文件还不存在，而当第二次调用open()时，其它进程已经创建了该文件，则当前进程会得出错误的结论：目标文件是自己创建的。

向文件尾部追加数据

用以说明原子操作必要性的第二个例子是：多个进程同时向同一个文件（例如，全局的日志文件）尾部添加数据。为了达到这一目的，也许可以考虑在每个写进程中使用如下代码

1 if (lseek(fd, 0, SEEK_END) == -1)
2     errExit("lseek");
3 if (write(fd, buf, len) != len)
4     fatal("Partial/failed write");

但是这段代码存在的缺陷和前一个例子如出一辙。如果第一个进程执行到lseek()和write()之间，被执行相同代码的第二个进程所中断，那么这两个进程会在写入数据前，将文件偏移量设为相同位置，而当第一个进程再次获得调度时，会覆盖第二个进程已写入的数据。

要规避这一问题，需要将文件偏移量的移动与数据写操作纳入同一原子操作。在打开文件时加入O_APPEND标志可以保证这一点。注：有些文件系统（例如NFS）不支持O_APPEND标志。在这种情况下，内核会选择按如上代码所示的方式，施之以非原子操作的调用序列，从而可能导致上述的文件脏写入问题。

多线程中的应用

系统调用pread()和pwrite()完成与read()和write()相类似的工作，只是前两者会在offset参数所指定的位置进行文件I/O操作，而非始于文件的当前偏移量处，且它们不会改变文件的当前偏移量。

1 #include <unistd.h>
2 ssize_t pread(int fd, void* buf, size_t count, off_t offset);
3                             Returns number of bytes read, 0 on EOF, or -1 on error
4 ssize_t pwrite(int fd, const void* buf, size_t count, off_t offset);
5                             Returns number of bytes written, or -1 on error

pread()调用等同于将如下调用纳入同一原子操作：

off_t orig;
orig = lseek(fd, 0, SEEK_CUR); // Save current offset
lseek(fd, offset, SEEK_SET);
s = read(fd, buf, len);
lseek(fd, orig, SEEK_SET); // Restore original file offset

对pread()和pwrite()而言，fd所指代的文件必须是可定位的（即允许对文件描述符执行lseek()调用）。

多线程应用为这些系统调用提供了用武之地。进程下辖的所有线程将共享同一文件描述符表。这也意味着每个已打开文件的文件偏移量为所有线程所共享。当调用pread()和pwrite()时，多个线程可同时对同一个文件描述符执行I/O操作，且不会因其他线程修改文件偏移量而受到影响。如果还试图使用lseek()和read()/write()来代替pread()/pwrite()，那么将引发竞争状态。这类似于O_APPEND标志时的描述（当多个进程的文件描述符指向相同的打开文件句柄时，使用pread()和pwrite()系统调用同样能够避免进程间出现竞争状态）。

如果需要反复执行lseek()，并伴之以文件I/O，那么pread()和pwrite()系统调用在某些情况下是具有性能优势的。这是因为执行单个pread()或pwrite()系统调用的成本要低于执行lseek()和read()/write()两个系统调用。然而，较之于执行I/O实际所需的时间，系统调用的开销就有些相形见绌了（执行实际I/O的开销要远大于执行系统调用，系统调用的性能优势作用有限）。