第九周进度

本周内容

1. 统一景点名称:尝试在爬取的时候将一些特定的景点进行替换,但是由于景点的名词没有统一的,需要自己定义
         困难:需要找需要替换的景点的词库,还有曾用名,暂时还没有找到,还没思路

2. 划分景点内容:目的是将游记根据景点进行划分,将关于每个景点的描述,对应到对应的景点。
        尝试的方法:
            1. 根据景点词频划分
            2. 根据行词频划分
            3. 根据句子的相似度划分
            4. 根据景点出现的行数,选取某两个行中间的所有行
        困难:
            1. 游记文章的格式太随意,没有一定的格式。
            2. 有的两行文字都是描述一个景点,但是上边那行出现景点,下边虽然也是描述同一个景点,但是没有出现这个名词,导致景点描述不全
            3. 如果只是简单地取两个取地点出现的段落,图片的链接会添加不上去

 3. 爬取的游记虽然都是关于杭州的,但是其中还是会夹杂着一些其他地方的游记,这个在提取的时候遇到的问题跟第二个差不多,还是在游记中切分的问题
原文地址:https://www.cnblogs.com/Zhanghaonihao/p/9982249.html