中文历时语料库

项目的用途

用途名称 技术手段 应用场景
词语考察 分词、词频统计 通用词表等编写
语义计算 共现词、MI搭配、依存搭配 搭配等语义词典编写
热度计算 流通度计算、术语提取 流行语等发布
文化计算 颜色计算、性别计算 文化变迁
媒体对比 媒体差异计算 传播学研究
语法研究 语法模式检索 语法教材与词典编写

项目的获取

对于如何获取数据,下表是对数据集的介绍,需要使用的可以开放下载使用,因涉及版权问题,暂只放数据来源。免责声明:该项目由公开渠道收集而成,不可商用,仅可用于科学研究,若有侵权,可联系删除。

数据名称 时间跨度 数据大小 数据来源
腾讯新闻 2009-2016 5GB https://auto.qq.com/l/201104/scrollnews_15.htm
人民日报 1946-2003 3.44GB http://www.laoziliao.net/rmrb/
参考消息 1957-2002 1.1GB http://www.laoziliao.net/ckxx/
原文地址:https://www.cnblogs.com/ezhar/p/14364144.html