相似度计算java代码算法相似度

如何计算多个文本的相似度java程序,利用向量

也可以利用knn分类器等分类方法判断相似与否，用deeplearning的话：短文本：拿word2vec开始，然后上面套CNN（如果n-gram更重要），或者LSTM做短文本的embedding，然后算两个文档在embeddingspace里的相似度。

创新互联公司主要从事成都网站制作、成都做网站、网页设计、企业做网站、公司建网站等业务。立足成都服务达拉特,十年网站建设经验,价格优惠、服务专业,欢迎来电咨询建站服务:13518219792

首先，如果不局限于NN的方法，可以用BOW+tf-idf+LSI/LDA的体系搞定，也就是俗称的01或one hot representation。其次，如果楼主指定了必须用流行的NN，俗称word-embedding的方法，当然首推word2vec（虽然不算是DNN）。

最简单的、最节省性能的方法是建立字典。字典的索引就是字本身，遍历字符串，没遇到一个字就加入到字典中，加入的时候判断下，如果索引存在则加1，不存在则创建，然后在取字典最大值，大于6就报错。

首先考虑如何令“文档1中的每个词以不同权重匹配到另一个文档的所有词上”。如下图，很简单，我们允许“部分匹配”就可以了。

linux + thread + progress 这样子可以通过java调用linux命令 linux中有一个comm -12命令来实现比较两个文件的共同数据，生成一个新文本。

因此对于一篇文档我们可以用文档中每个词的TFIDF组成的向量来表示该文档，再根据余弦相似度这类的方法来计算文档之间的相关性。

第一步：对用户查询进行分词。第二步：根据网页库（文档）的数据，计算用户查询中每个词的tf-idf 值。相似度的计算使用余弦相似度来计算用户查询和每个网页之间的夹角。夹角越小，越相似。

第一步，计算所有评论的tf-idf 值。第二步，使用所有评论的tf-idf 值算出商品描述的tf-idf 值。第三步，计算每一个评论和商品描述之间的tf-idf 余弦相似度。

1). Levenshtein.hamming(str1， str2)计算汉明距离。要求str1和str2必须长度一致。是描述两个等长字串之间对应位置上不同字符的个数。2). Levenshtein.distance(str1， str2)计算编辑距离（也称为 Levenshtein距离）。

这样子可以通过java调用linux命令 linux中有一个comm -12命令来实现比较两个文件的共同数据，生成一个新文本。

当前文章：相似度计算java代码算法相似度
文章地址：http://jkwzsj.com/article/dsjehig.html