请问大佬们,我有几千个文件,应该如何找出里面重复文件(相似度50%-70%,不是完全匹配),大佬求解,是只能通过写代码来实现嘛

10人评论了“请问大佬们,我有几千个文件,应该如何找出里面重复文件(相似度50%-70%,不是完全匹配),大佬求解”

  1. 图像的话,写个dhash这种简单算法就可以排查了。文本也可以,先把文本分词转向量,以后在矩阵上dhash也可以

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部