在中国知网下载 PDF 格式的学位论文

中国知网真是奇怪，非要自己搞出一个封闭的 CAJ 格式，学位论文还不提供 PDF 的格式，逼着人们只能去下载它们的 CAJViewer，最不可忍受的是竟然没有 Linux 下的版本！

但是群众的智慧是无穷的，最近发现，通过一个 userscript 就可以给学位论文页面加上“PDF 下载”的按钮。

所谓 userscript，就是一个浏览器插件，能够动态地修改页面内容。在 Chrome 浏览器中，需要安装 tampermonkey 插件来管理 userscripts，FireFox 中可以使用 Greasemonkey。

脚本的内容可以从这里获取。原本的域名是 userscripts.org，但这个网站似乎挂了很久了，不过镜像站 userscripts-mirror.org 一直可用。
代码

为了保险，将脚本完整内容复制在此：

    // ==UserScript==
    // @id             CNKI-PDF-Special
    // @name           CNKI 中国知网 PDF 全文下载(特制版)
    // @version        1.25
    // @namespace      http://yuelong.info
    // @author         YUE Long
    // @updateURL      https://userscripts.org/scripts/source/164338.meta.js
    // @description    ① 点击 CNKI 检索结果界面中的下载按钮可以直接下载 PDF 格式文献；
    //                 ② 在硕士/博士学位论文详细信息界面添加“PDF下载”按钮。
    //                 ※ 特制版功能：在检索页面中的硕士/博士论文默认下载 CAJ 文件。
    // @include        http://*.cnki.net/*
    // @include        http://*.cnki.net.*/*
    // @run-at         document-idle
    // ==/UserScript==

    var allLis, thisLi, newLi, aPDF, allLinks, thisLink, pageType;
    pageType = true;

    allLinks = document.evaluate(
        '//a[@href]',
        document,
        null,
        XPathResult.UNORDERED_NODE_SNAPSHOT_TYPE,
        null);

    allLis = document.evaluate(
        "//li[@class]",
        document,
        null,
        XPathResult.UNORDERED_NODE_SNAPSHOT_TYPE,
        null);

    if (allLis) {
        for (var i = 0; i < allLis.snapshotLength; i++) {
            thisLi = allLis.snapshotItem(i);
            if (thisLi.getAttribute("class").indexOf("readol") !== -1) {
                pageType = false;
                newLi = document.createElement('li');
                newLi.setAttribute("class","pdf");
                aPDF = '<a target="_blank" href="' +
                       thisLi.firstChild.href.replace("&dflag=readonline","&dflag=pdfdown") +
                       '">PDF下载</a>';
                newLi.innerHTML=aPDF;
                thisLi.parentNode.insertBefore(newLi, thisLi.nextSibling);
            }
            if (thisLi.getAttribute("class").indexOf("cajNew") !== -1) {
                pageType = false;
            }
        }
    }

    if (pageType) {
        for (var i = 0; i < allLinks.snapshotLength; i++) {
            thisLink = allLinks.snapshotItem(i);
            if (thisLink.href &&
                thisLink.href.indexOf("download.aspx?filename=") != -1 &&
                thisLink.href.indexOf("&dflag") == -1 &&
                thisLink.href.indexOf("=CMFD") == -1 &&
                thisLink.href.indexOf("=CDFD") == -1
            ) {
                thisLink.href = thisLink.href + "&dflag=pdfdown";
            }
            if (thisLink.href &&
                thisLink.href.indexOf("download.aspx?filename=") != -1 &&
                thisLink.href.indexOf("&dflag") == -1 &&
                (thisLink.href.indexOf("=CMFD") !== -1 || thisLink.href.indexOf("=CDFD") !== -1 )
            ) {
                thisLink.href = thisLink.href + "&dflag=nhdown";
            }
        }
    }

把这段代码添加到 Tampermonkey 中，再访问知网，点开一个学位论文的页面，就能从上面看到“PDF 下载”的按钮了。就像这样：

学位论文可以下载 PDF 格式
关于 Userscript

UserScript 就是一段 JavaScript 代码，当一个页面加载完成之后，这段 JavaScript 就会自动执行，效果就和在调试工具的终端里执行 JavaScript 一样。因此，Userscript 能够访问操作 DOM 节点，能使用页面引用的所有库。

UserScript 通常由浏览器的插件来管理，例如 FireFox 有 Greasemonkey，Webkit/Blink 内核的浏览器则有 Tampermonkey，而且这些工具支持的 UserScripts 接口相同，同样的 UserScript 在不同的管理插件下执行效果相同。

至于代码开头的那一段注释，其实就是这个 Userscript 的元数据，其中描述了代码的名称、版本、作者，以及作用于哪些网页等等。

注：这里是这段带码的原始出处。

这个脚本可以在能够下载CAJ文件的情况下，提供PDF文件的下载链接，这下不用wine CAJViewer了，Ubuntu/Linux用户福音

主要实现了一下两个功能：

    在文献检索结果列表界面中，点击或后，可以直接下载 PDF 文件，而非 CAJ/NH 文件；
    在博士/硕士学位论文详细信息界面添加了“PDF下载”按钮，实现了博士/硕士学位论文的 PDF 下载功能，如下图所示。

脚本使用方法：在 Firefox 中先安装 Greasemonkey 或 Scriptish 扩展后，再安装脚本；在 Chrome 中请参考这篇文章（wu.nerd注：Chrome直接拖到Extensions页面即可）；在 Safari 中借助 Ninjiakit 使用（感谢 Heart7）。IE 尚不能使用。

脚本下载地址：http://userscripts.org/scripts/show/162636

UPDATE(2013/04/06)：感谢 Troy 的建议，我制作了一个特制版的脚本。其特别之处在于可以在检索页面中的硕士/博士论文默认下载 CAJ/NH 文件，避免了 PDF 文件没有目录所带来的遗憾。

特制版脚本下载地址：http://userscripts.org/scripts/show/164338

P.S. 这段代码实现 PDF 下载的原理并不高神，只是修改了下载链接，改了一些 GET 参数。因此可以推断，CAJ 格式实际上与 PDF 非常相似，知网的服务器可以实现格式的转换。这样转出来的 PDF 是文字版，虽然没有 CAJ 中的目录，基本需求已经完全满足。