VC++ 中使用内存映射文件处理大文件

先贴代码：

#include "stdafx.h"
#include <windows.h>
#include <iostream>
using namespace std;


string GetValue(const char* lpbMapAddress, const char* sName);

int main()  
{  
    HANDLE hFile = CreateFile(
        TEXT("E:\\test.txt"), 
        GENERIC_READ | GENERIC_WRITE,  
        0, 
        0, 
        OPEN_EXISTING, 
        FILE_ATTRIBUTE_NORMAL, 
        NULL);

    if (hFile == INVALID_HANDLE_VALUE)  
    {  
        cout<< "创建文件对象失败,错误代码: "<<GetLastError()<<endl;  
        return 0;  
    }

    //// 得到文件尺寸  
    //DWORD dwFileSizeHigh;  
    //__int64 qwFileSize = GetFileSize(hFile, &dwFileSizeHigh);  
    //qwFileSize |= (((__int64)dwFileSizeHigh) << 32);  

    ////
    //DWORD sizeRead;
    //_tstring strR;
    //char p[MAX_PATH] = {0};
    //一定要用char的数组而不能用TCHAR，因为若是UNICODE，那么TCHAR是两个字节的宽字符，
    //但是ReadFile只能一个字节一个字节的读，这样会把两个单字节字符读到一个宽字节里面，
    //然后把这2个字符当做一个宽字节字符来解读就会出错！
    //bool bRestule = ReadFile(hFile, p, qwFileSize, &sizeRead, NULL);


    // 创建文件映射对象  
    HANDLE hFileMap = CreateFileMapping(hFile, NULL, PAGE_READWRITE, 0, 0, NULL);  
    if (hFileMap == NULL)  
    {  
        cout<<"创建文件映射对象失败,错误代码: "<<GetLastError()<<endl;  
        return 0; 
    }  

    // 得到系统分配粒度  
    SYSTEM_INFO SysInfo;  
    GetSystemInfo(&SysInfo);  
    DWORD dwGran = SysInfo.dwAllocationGranularity;  

    // 得到文件尺寸  
    DWORD dwFileSizeHigh;  
    __int64 qwFileSize = GetFileSize(hFile, &dwFileSizeHigh);  
    qwFileSize |= (((__int64)dwFileSizeHigh) << 32);  

    // 关闭文件对象  
    CloseHandle(hFile); 

    // 偏移地址   
    __int64 qwFileOffset = 0;  

    // 块大小 
    DWORD dwBlockBytes = 0;
    for (int i=1; ;++i)
    {
        if (qwFileSize <= i * dwGran)
        {
            dwBlockBytes = i * dwGran;
            break;
        }
    }

    if (qwFileOffset >= 0)  
    {  
        // 映射视图
        //如果在调用MapViewOfFile()的时候，dwNumberOfBytesToMap如果大于文件的size，那么该call就会失败，
        //并且error code是access denied。所以MapViewOfFile的最后一个参数不能用dwBlockSize而只能用qwFileSize。
        //MapViewOfFile的返回值不能是TCHAR*，因为UNICODE时解释成宽字符，会出错，只能用char*
        char *lpbMapAddress = (char *)MapViewOfFile(hFileMap, FILE_MAP_READ, 0, 0, qwFileSize);  
        if (lpbMapAddress == NULL)  
        {  
            cout<<"映射文件映射失败,错误代码: "<<GetLastError()<<endl;  
            return 0;  
        } 

        string str = GetValue(lpbMapAddress, ("hkx"));
        cout<<str.c_str()<<endl;
        
        getchar();

        // 撤销文件映像  
        UnmapViewOfFile(lpbMapAddress);  
    }

    // 关闭文件映射对象句柄  
    CloseHandle(hFileMap);

    return 0;
}


string GetValue(const char* lpbMapAddress, const char* sName)  
{  
    string str;
    const char* p1 = strstr(lpbMapAddress,sName);
    if (NULL != p1)
    {
        const char* p2 = strstr(p1, sName);
        if(p2 != NULL) 
        {
            const char* p3 = strstr(p2, "=");
            if (p3 != NULL)
            {
                const char* p4 = p3 + 1;
                str = p4;
            }
        }
    }
    return str;
}

引言

　　文件操作是应用程序最为基本的功能之一，Win32 API和MFC均提供有支持文件处理的函数和类，常用的有Win32 API的CreateFile()、WriteFile()、ReadFile()和MFC提供的CFile类等。一般来说，以上这些函数可以满足大多数场合的要求，但是对于某些特殊应用领域所需要的动辄几十GB、几百GB、乃至几TB的海量存储，再以通常的文件处理方法进行处理显然是行不通的。目前，对于上述这种大文件的操作一般是以内存映射文件的方式来加以处理的，本文下面将针对这种Windows核心编程技术展开讨论。

　　内存映射文件概述

　　内存文件映射也是Windows的一种内存管理方法，提供了一个统一的内存管理特征，使应用程序可以通过内存指针对磁盘上的文件进行访问，其过程就如同对加载了文件的内存的访问。通过文件映射这种使磁盘文件的全部或部分内容与进程虚拟地址空间的某个区域建立映射关联的能力，可以直接对被映射的文件进行访问，而不必执行文件I/O操作也无需对文件内容进行缓冲处理。内存文件映射的这种特性是非常适合于用来管理大尺寸文件的。

　　在使用内存映射文件进行I/O处理时，系统对数据的传输按页面来进行。至于内部的所有内存页面则是由虚拟内存管理器来负责管理，由其来决定内存页面何时被分页到磁盘，哪些页面应该被释放以便为其它进程提供空闲空间，以及每个进程可以拥有超出实际分配物理内存之外的多少个页面空间等等。由于虚拟内存管理器是以一种统一的方式来处理所有磁盘I/O的（以页面为单位对内存数据进行读写），因此这种优化使其有能力以足够快的速度来处理内存操作。

　　使用内存映射文件时所进行的任何实际I/O交互都是在内存中进行并以标准的内存地址形式来访问。磁盘的周期性分页也是由操作系统在后台隐蔽实现的，对应用程序而言是完全透明的。内存映射文件的这种特性在进行大文件的磁盘事务操作时将获得很高的效益。

　　需要说明的是，在系统的正常的分页操作过程中，内存映射文件并非一成不变的，它将被定期更新。如果系统要使用的页面目前正被某个内存映射文件所占用，系统将释放此页面，如果页面数据尚未保存，系统将在释放页面之前自动完成页面数据到磁盘的写入。

　　对于使用页虚拟存储管理的Windows操作系统，内存映射文件是其内部已有的内存管理组件的一个扩充。由可执行代码页面和数据页面组成的应用程序可根据需要由操作系统来将这些页面换进或换出内存。如果内存中的某个页面不再需要，操作系统将撤消此页面原拥用者对它的控制权，并释放该页面以供其它进程使用。只有在该页面再次成为需求页面时，才会从磁盘上的可执行文件重新读入内存。同样地，当一个进程初始化启动时，内存的页面将用来存储该应用程序的静态、动态数据，一旦对它们的操作被提交，这些页面也将被备份至系统的页面文件，这与可执行文件被用来备份执行代码页面的过程是很类似的。图1展示了代码页面和数据页面在磁盘存储器上的备份过程：

图1 进程的代码页、数据页在磁盘存储器上的备份

　　显然，如果可以采取同一种方式来处理代码和数据页面，无疑将会提高程序的执行效率，而内存映射文件的使用恰恰可以满足此需求。

对大文件的管理

　　内存映射文件对象在关闭对象之前并没有必要撤销内存映射文件的所有视图。在对象被释放之前，所有的脏页面将自动写入磁盘。通过 CloseHandle（）关闭内存映射文件对象，只是释放该对象，如果内存映射文件代表的是磁盘文件，那么还需要调用标准文件I/O函数来将其关闭。在处理大文件处理时，内存映射文件将表示出卓越的优势，只需要消耗极少的物理资源，对系统的影响微乎其微。下面先给出内存映射文件的一般编程流程框图：

图2 使用内存映射文件的一般流程

　　而在某些特殊行业，经常要面对十几GB乃至几十GB容量的巨型文件，而一个32位进程所拥有的虚拟地址空间只有232 = 4GB，显然不能一次将文件映像全部映射进来。对于这种情况只能依次将大文件的各个部分映射到进程中的一个较小的地址空间。这需要对上面的一般流程进行适当的更改：

　　1）映射文件开头的映像。

　　2）对该映像进行访问。

　　3）取消此映像

　　4）映射一个从文件中的一个更深的位移开始的新映像。

　　5）重复步骤2，直到访问完全部的文件数据。