对于当代大学生而言,毕业时写的论文是一个对自己知识的
1.基于jieba库对文件进行分词
1 | Similarity::wordfreq Similarity::getWordFreq(const char* filename) |
2.而在统计词频时,需要对分好的词去掉停用词,使用jieba中给出的停用词文件构造停用词表(人类语言包含很多功能词。与其他词相比,功能词没有什么实际含义。 停用词主要包括数字、标点符号及使用频率 特高的词(代词,语气助词、副词、介词、连接词 )等。 我 我们 怎么办 总之 此外 然而 不如 不妨 。 , ? …….. 停用词不代表实际意义,所以不需要统计停用词的词频,停用词不参与构建词频向量 )
1 | void Similarity::getStopWord(const char* stopwordsFile) |