[Python自学] day-24 (1) (组合搜索、JSONP、XSS、bs4、单例模式)

一、什么是组合搜索

我们在很多网站都可以找到组合搜索的功能，例如博客园、汽车之家等。

在汽车的组合搜索中，可以看到有价格、级别、国别、品牌、结构等过滤条件。

这些条件我们可以认为都对应数据库的一张表（实际上静态的条件可以放内存）。

当我们选择条件时，页面所展示的内容要根据我们选择的条件进行过滤（对应数据库中过滤条件）。

二、如何实现的

1.观察实例

我们在选择各种过滤条件的时候，观察浏览器的URL变化：

可以发现，当我们全部选择 "不限" 的时候，URL变为：

list后面的所有数字全部变为0。说明，各项条件中"不限"对应的状态数字就是0。在数据库中自增ID是从1开始的，所以0用于表示ALL（即不过滤）。

当我们选择一些条件时，例如选择国别为中国，级别为微型车，可以看到URL变为：

也就是说这些数字就代表了我们选择的条件。对应在数据库中，该条件对应的ID就是这个数字。

2.实现思路

1）页面上分别将所有的条件列举出来

2）当我们点击某个条件时，触发事件，获取所有条件对应的ID，然后串在一起。并请求页面，将串在一起的字符串作为请求URL的一部分。

3）路由系统通过正则表达式可以获取到每个条件的ID，然后通过参数传递给视图函数。

4）视图函数将获得的条件ID作为数据库查询条件，查询对应的内容。

三、实现一个简单的组合搜索

HTML代码：

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>Index</title>
    <style>
        .condition{
            padding: 5px;
        }
        /*a标签的默认样式*/
        .condition a{
            display: inline-block;
            padding: 3px 5px;
            text-decoration: none;
            color: #3B5998;
        }
    </style>
</head>
<body>
    <div style=" 800px;margin:0 auto;border: 1px solid #dddddd">
        <h2>过滤条件</h2>
        <div class="condition">
            <!-- 不限这个按钮，category_id一定为0，但点击它不能改变article_type_id，所以要将上次请求的article_type_id放进href中 -->
            <a id="a_cate_0" href="/app01/index-0-{{ last_args.article_type_id }}/">不限</a>
            <!-- 其他从1开始的category_id随着循环来设置，但article_type_id同样不能动 -->
            {% for row in category_list %}
                <!-- 这里设置一个id，用于JS操作样式 -->
                <a id="a_cate_{{ row.id }}" href="/app01/index-{{ row.id }}-{{ last_args.article_type_id }}/">{{ row.caption }}</a>
            {% endfor %}
        </div>
        <!-- article_type_list和category一样，只是反了一下 -->
        <div class="condition">
            <a id="a_art_0" href="/app01/index-{{ last_args.category_id }}-0/">不限</a>
            {% for row in article_type_list %}
                <a id="a_art_{{ row.id }}" href="/app01/index-{{ last_args.category_id }}-{{ row.id }}/">{{ row.caption }}</a>
            {% endfor %}
        </div>
        <h2>查询结果</h2>
        <ul>
            {% for row in result %}
                <li style="padding: 10px;">
                    <div style="font-weight: bold;">{{ row.title}}</div>
                    <div>
                        {{ row.content }}
                    </div>
                </li>
            {% endfor %}
        </ul>
    </div>
    <script src="/static/js/jquery-1.12.4.js"></script>
    <script>
        $(function(){
            // 每次请求的页面，一加载完，就将该页面对应的过滤条件<a>标签染色
            $("#a_cate_{{ last_args.category_id }}").css("background-color","#3B5998").css("color","white");
            $("#a_art_{{ last_args.article_type_id }}").css("background-color","#3B5998").css("color","white");
        })
    </script>
</body>
</html>

路由：

urlpatterns = [
    re_path('^index-(?P<category_id>d+)-(?P<article_type_id>d+)/$', views.index),
]

视图函数代码：

def index(request, **kwargs):
    # 获取参数，如果为0，为不限，则不加入过滤条件中
    condition_dict = {}
    for k, v in kwargs.items():
        if v != '0':
            condition_dict[k] = v

    # 获取所有的category、article_type_list和博客内容
    category_list = models.Category.objects.all()
    article_type_list = models.ArticleType.objects.all()
    result = models.Article.objects.filter(**condition_dict)

    # 将过滤条件和内容，以及该次请求的id传回页面
    return render(request,
                  'index.html',
                  {'result': result,
                   'category_list': category_list,
                   'article_type_list': article_type_list,
                   'last_args': kwargs})

实现效果：

四、JSONP

JSON是一种数据格式，用于不同语言程序之间可以传递数据。

JSONP是一种操作方式（或者说是一种技巧）。

1.跨域请求数据

跨域请求数据，我们可以才用以下两种方式：

1）我们在视图函数中使用requests包，来请求其他网站提供的数据接口。（可行）

2）直接使用前端JS代码来请求其他网站的数据接口。（直接使用Ajax来请求不可行）

为什么第二种方式不可行：

因为AJAX直接请求跨域数据接口，浏览器会拒收其返回的响应数据。浏览器报错：

2.什么是JSONP

当我们想直接使用前端Ajax来请求跨域的API时（返回JSON数据，例如天气网站提供的接口），浏览器会拒收这种方式的响应，我们无法获取到数据。

在这种情况下，我们发现有个取巧的地方，虽然浏览器阻止直接使用Ajax请求，但使用<script>标签可以获取远程站点的JS文件。例如：

<script src="https://code.jquery.com/jquery-1.12.4.js"></script>

使用script标签来引入远程JS文件的时候，浏览器并没有阻止。

那么，我们可以利用script这个后门，来达到我们获取数据的目的。

前提，我们请求的网站（提供数据的站点），要主动提供相应的内容（也就是要主动配合满足JSONP协定）。

HTML代码：

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>JSONP</title>
</head>
<body>
    <input type="button" value="获取数据" onclick="get_data();"/>
    <script src="/static/js/jquery-1.12.4.js"></script>
    <script>
        function get_data(){
            var tag = document.createElement('script');
            tag.src = 'http://xxxx.com/data.html?callback=data_list&k1=v1';
            // 将这个script标签加入到head标签中，加入后，浏览器马上就会从这个src去获取数据
            document.head.appendChild(tag);
            // 获取了src的数据后，马上删除这个script标签
            document.head.removeChild(tag);
        }
    </script>
</body>
</html>

我们可以看到，我们点击"获取数据"按钮的时候，触发get_data事件函数，然后在head标签中添加了一个script标签，浏览器帮我们请求了其中的数据（数据需要是能执行的JS代码），请求完后马上删除了标签。

这个请求让我们可以拿到合法的JS代码。这就需要让跨域网站将数据包含在合法的JS代码中。

我们观察一下<script>标签请求的URL，其中包含了一个GET参数callback=data_list，这个参数的值，要么跨域站点指定，要么我们任意传（要看跨域站点后台怎么处理）。

当跨域网站的后台获取到这个参数后，就可以使用以下方式来返回数据：

data_list(JSON数据);

将data_list作为函数名，将想要提供的数据（JSON格式的字符串）作为参数，然后返回。

此时，我们拿到的JS代码就是data_list(JSON数据)。这段代码的意思就是调用本地的data_list(arg)函数，如果我们本地有这个函数，则可以运行，并且能拿到这些参数（也就是想要获取的数据）。

实现本地data_list函数：

function data_list(arg){
    // 打印拿到的参数（数据）
    console.log(arg)
}

这样，跨域站点提供的JSON数据就通过这种方式到达了我们的浏览器。并打印在了console中。

总结：这种利用<script>标签请求JS代码来偷渡JSON的数据，称为JSONP。

3.利用jQuery发送JSONP（常用）

在2.中，我们使用的是手工添加删除<script>的形式来使用JSONP。

而利用jQuery的Ajax也可以发送JSONP：

function get_data(){
    $.ajax({
        url: 'http://xxxx.com/data.html?k1=v1',
        type: "POST",
        dataType: 'jsonp',
        jsonp:'callback',
        jsonpCallback:'data_list'
    })
}

通过jsonp和jsonpCallback两个参数，就相当于我们URL中的"callback=data_list"。

jQuery这种使用JSONP的方式，底层和前面我们手工添加删除<script>的方式是一样的。

五、CORS跨域资源共享

在第四节中，之所以我们要使用JSONP，是因为浏览器会阻止我们从跨域站点获取的数据。

但是如果跨域站点服务器直接在响应头中进行设置，允许我们的域名获取数据，那么浏览器就不会阻止了。

跨站服务器设置响应头：

set_header('Access-Control-Allow-Origin', "http://www.xxx.com")

http://www.xxx.com是我们的域名。

参照博客：

https://www.cnblogs.com/wupeiqi/articles/5703697.html

https://www.cnblogs.com/loveis715/p/4592246.html

六、XSS过滤

1.XSS问题

当用户在textarea框（例如kindeditor）中输入一些特殊的标签，例如<script>标签，则需要将其过滤掉。

def kind(request):
    if request.method == 'GET':
        return render(request, 'kind.html')
    if request.method == 'POST':
        content = request.POST.get("content")
        print(content)
        return HttpResponse(content)

我们从后台获取到kindeditor的内容(content)。

如果有人在kindeditor中输入以下内容：

这是恶意添加的代码：
<script>alert(123)</script>

kindeditor会自动帮我们转换为：

所以，我们在后台拿到数据其实是：<script>alert(123)</script>

但是，如果用户直接在源码编辑框中写入<script>标签，后台就能够收到未经处理的标签：

此时，如果将内容返回给页面显示，则会运行该<script>标签中的JS代码。如下图：

为了避免这种恶意操作的出现，我们需要将后台收到的数据进行防XSS攻击处理。

2.使用BeautifulSoup过滤标签

安装BeautifulSoup4：

pip3 install beautifulsoup4

使用beautifulsoup4：

def kind(request):
    if request.method == 'GET':
        return render(request, 'kind.html')
    if request.method == 'POST':
        content = request.POST.get("content")
        print(content)
        from bs4 import BeautifulSoup  # 导入bs4
        soup = BeautifulSoup(content, 'html.parser')  # 将content解析成一个对象
        tag = soup.find('script')  # 从soup中查找<script>标签
        print(tag)  # 输出<script>alert(123)</script>
        tag.clear()  # 将<script>标签的内容清除掉
        content = soup.decode()  # 重新将soup解码成字符串
        print(content) # 输出<script></script>
        return HttpResponse(content)

从上述代码中可以看到，我们利用bs4将文本形式的html内容转换为对象soup。然后在利用find()方法找到对应的特殊恶意标签，然后使用clear()将其内容清空。最后重新转换为文本，返回给页面。

如果想将<script>彻底删除，可以使用tag.hidden = True：

tag = soup.find('script')  # 从soup中查找<script>标签
print(tag)  # 输出<script>alert(123)</script>
tag.hidden = True  # 将整个<script>标签删除掉
tag.clear()

bs4的其他用法

某个标签的属性：

span_tag = soup.find('span')
print(span_tag.attrs)  # 打印该标签的所有属性

删除其中一个属性：

span_tag = soup.find('span')
print(span_tag.attrs)
del span_tag.attrs['style']  # 删除style属性

3.利用bs4设置一个白名单

假设我们希望文本中能够生效的标签有<p><div><span><a>，而其他类似<script>标签都是危险标签。

则，我们可以设置一个白名单：

white_list = ["p", "div", "span", "a"]

然后使用bs4进行过滤，只保证白名单中的标签可用：

from bs4 import BeautifulSoup  # 导入bs4
soup = BeautifulSoup(content, 'html.parser')  # 将content解析成一个对象
tags = soup.find_all()
for tag in tags:  # 遍历所有的标签
    if tag.name in white_list:  # 如果标签名在白名单中，则什么都不做
        pass
    else:  # 如果不在白名单中，则删除标签及内容
        tag.hidden = True  # 删除标签
        tag.clear()  # 删除内容

以上这种白名单只能过滤标签，如果我们还想过滤标签的属性，则修改白名单：

white_list = {"p": ['class'],
              "div": ['class', 'id'],
              "span": ['class', 'id'],
              "a": ['class', 'id', 'href']
              }

然后我们在修改过滤部分的代码：

from bs4 import BeautifulSoup  # 导入bs4
soup = BeautifulSoup(content, 'html.parser')  # 将content解析成一个对象
tags = soup.find_all()
for tag in tags:  # 遍历所有的标签
    if tag.name in white_list:  # 如果标签名在白名单中，则什么都不做
        print(tag.attrs)
        for k in list(tag.attrs.keys()):
            if k in white_list[tag.name]:
                pass
            else:
                del tag.attrs[k]
    else:  # 如果不在白名单中，则删除标签及内容
        tag.hidden = True  # 删除标签
        tag.clear()  # 删除内容

4.将过滤功能封装成XSSFilter类

参考：https://www.cnblogs.com/lei0213/p/6434648.html

from bs4 import BeautifulSoup
 
class XSSFilter(object):
    __instance = None
 
    def __init__(self):
        # XSS白名单
        self.valid_tags = {
            "font": ['color', 'size', 'face', 'style'],
            'b': [],
            'div': [],
            "span": [],
            "table": [
                'border', 'cellspacing', 'cellpadding'
            ],
            'th': [
                'colspan', 'rowspan'
            ],
            'td': [
                'colspan', 'rowspan'
            ],
            "a": ['href', 'target', 'name'],
            "img": ['src', 'alt', 'title'],
            'p': [
                'align'
            ],
            "pre": ['class'],
            "hr": ['class'],
            'strong': []
        }
 
    def __new__(cls, *args, **kwargs):
        """
        单例模式
        :param cls:
        :param args:
        :param kwargs:
        :return:
        """
        if not cls.__instance:
            obj = object.__new__(cls, *args, **kwargs)
            cls.__instance = obj
        return cls.__instance
 
    def process(self, content):
        soup = BeautifulSoup(content, 'html.parser')
        # 遍历所有HTML标签
        for tag in soup.find_all(recursive=True):
            # 判断标签名是否在白名单中
            if tag.name not in self.valid_tags:
                tag.hidden = True
                if tag.name not in ['html', 'body']:
                    tag.hidden = True
                    tag.clear()
                continue
            # 当前标签的所有属性白名单
            attr_rules = self.valid_tags[tag.name]
            keys = list(tag.attrs.keys())
            for key in keys:
                if key not in attr_rules:
                    del tag[key]
 
        return soup.decode()

调用方式：

content = form.cleaned_data.pop('content')      # 移出 content需要在表ArticleDetail上手动添加、关联Article
content = XSSFilter().process(content)           # 对content进行数据过滤  过滤到script等标签

七、单例模式

在第六节中，XSSFilter类使用了单例模式。

1.low版

class Foo(object):
    instance = None

    def __init__(self):
        pass

    @classmethod
    def get_instance(cls):
        if cls.instance:
            return cls.instance
        else:
            cls.instance = cls()
            return cls.instance

    def process(self):
        print("process")


if __name__ == '__main__':
    obj1 = Foo.get_instance()
    obj2 = Foo.get_instance()
    print(id(obj1), id(obj2))

这个版本，我们要使用Foo.get_instance()来获得实例，对用户不友好。

2.高级版

class Foo(object):
    instance = None

    def __init__(self):
        pass

    def __new__(cls, *args, **kwargs):
        if cls.instance:
            return cls.instance
        else:
            cls.instance = object.__new__(cls, *args, **kwargs)
            return cls.instance

    def process(self):
        print("process")


if __name__ == '__main__':
    obj1 = Foo()
    obj2 = Foo()
    print(id(obj1), id(obj2))

这个版本，换成了用Foo()来获取实例，和非单例模式是一样的方式，屏蔽了底层细节，对用户友好。

3.基于模块导入机制的单例模型（仅限于python）

核心概念：模块只被导入一次

当我们在导入一个模块时，python会编译生成一个pyc文件，这个文件会在模块的第一次导入时生成。

当pyc存在的时候，例如第二次导入模块，则不会在运行模块中的代码，而是直接使用内存中的pyc。

所以，利用这一特性，我们可以构建单例模型：

# mysingleton.py
class MySingleton(object):
    def foo(self):
        print("foo...")


my_singleton = MySingleton()

在mysingleton模块中，定义了MySingleton类，并获取了一个实例对象。

在另一个模块中，对mysingleton模块进行导入：

# other.py

# 第一次导入my_singleton
from mysingleton import my_singleton
# 第二次导入my_singleton
from mysingleton import my_singleton as my_singleton_2


print(id(my_singleton))
print(id(my_singleton_2))

输出结果是两个对象的id相同，即两个对象实际上是同一个对象。

这是因为第一次导入的my_singleton处于内存中，当第二次导入同样的模块时，发现内存中已经存在，则直接引用了内存中的my_singleton对象。

这样就实现了基于模块的单例模型。

≧◔◡◔≦