毕业设计思路流水账（2）

准备利用python端做数据处理分析，并且对语言进行处理。Web部分用Java实现，对应的链接方式就采用在Python中创建socket的Server端

Java中调用对应Python中的Server端口中的接口方式并且返回相应的数据回去给Java进行处理。这种方式的好处是不仅在处理速度上比单独调用Python函数的速度快的多（少去了头文件的加载），并且在兼容性上也十分优秀

然后对于数据中的数据分类问题并不是太详细，需要将其中的项全部都进行分类，但是其中分类的类别成为了当前一个最主要的问题，而且每次查询的时候在oracle花费的时间都要好几分钟，所以在进行查询之前必须对如何进行分类有一个思路。关于这个问题，大致有两个方向，一是从原本年鉴的数据中直接提取关键字，二是爬取网上对应的类别的关键词后将年鉴数据进行分类。

考虑到性能，需要将数据表中的所有数据提取成一个树状文件夹里面的文件，这样以后在计算的速度能够得到极大的提升。

虽然数据集中有归属的具体类型，但是这些类型所属的具体并不清楚，因此需要爬取对应具体类型的关键字后根据关键字确定所属类型后再建立对应的树状文件夹。建立层级对应关键数据，既能提高处理数据的速度同时能够对具体信息的问答提取计算结果有极好的性能支持。不过最大的问题还是在分类这个过程中。

如果把知网中的调用对应接口，则对应接口不稳定无法持续。若采用实时分析，则性能绝对不够--毕竟oracle搜索全部数据所要的时间约为半个小时所有。则必定要采用 预处理 的方式来得到对应指标列的抽取形式--毕业设计的第一步。

将提取指标实现了之后，就是将相关类型指标分类，这个时候就要用到知识图谱的构建了。知识图谱在其中最重要的关系应该就是对应相关指标的构建就是构建对应的分类，其次就是相关实体问答流畅性的语言。