OneJane
文章69
标签83
分类12
nlp基本概念及算法

nlp基本概念及算法

整理的一些基本算法及概念

关键字提取(3)

关键字提取(3)

关键词提取就是从文本里面把跟这篇文章意义最相关的一些词语抽取出来。关键词在文献检索、自动文摘、文本聚类/分类等方面有着重要的应用,它不仅是进行这些工作不可或缺的基础和前提,也是互联网上信息建库的一项重要工作。

基于ML的中文短文本聚类(7)

基于ML的中文短文本聚类(7)

文本聚类是将一个个文档由原有的自然语言文字信息转化成数学信息,以高维空间点的形式展现出来,通过计算哪些点距离比较近,从而将那些点聚成一个簇,簇的中心叫做簇心。一个好的聚类要保证簇内点的距离尽量的近,但簇与簇之间的点要尽量的远。