本文旨在对特定的语料库生成各词的逆文档频率。然后根据TF-IDF算法进行关键词提取。 转载请注明出处:Gaussic 。 GitHub代码:https://github.com/gaussic/tf-idf-keyword 分词 对于中文文本的关键词提取,需要先进行分词操作。 去除其中的一些英文和数字,只保留中文: import jieba import re def segment(sentence, cut_all=False): sentence »