OneJane
文章69
标签83
分类12
词袋与词向量(5)

词袋与词向量(5)

词袋和词向量模型可以将文本数据如转换成计算机能够计算的数据。

基于ML的中文短文本聚类(7)

基于ML的中文短文本聚类(7)

文本聚类是将一个个文档由原有的自然语言文字信息转化成数学信息,以高维空间点的形式展现出来,通过计算哪些点距离比较近,从而将那些点聚成一个簇,簇的中心叫做簇心。一个好的聚类要保证簇内点的距离尽量的近,但簇与簇之间的点要尽量的远。