陆-余弦距离以及分词等无聊实宜的Java实现

1、起源

因为一个叫做谭翠平的女人的懒惰,使得另外一个更懒惰的人(我)作出了如此无聊的事情。

而这件事情呢,就是要把一堆题目里面找出重复的然后删掉,有人会问,为什么不在Excel里面去重就行了呢?看到下面这图就懂了: 恶心的题目

明显发现即使删掉逗号问号等题目来去重,有些重复题目也是不能直接去重的。

2、思考出路

既然这样下去不行,那么该如何做了呢?

忽然想起之前看过一篇文章介绍过网易云音乐的推荐算法,里面有一个 余弦相似度_百度百科使我惊为天人!

我可以通过题目的各个关键字作为一个维度来计算不同题目的余弦相似度,然后判断相似度比较高的题目就可以定为相同的题目!不是么!?

3、需要思考的人生不止 - 分词的Java实现

对于中文分词,我以前用JS的时候是做过的,Java下有许多分词包。但问题来了,我该选用哪个呢?

诶,有一个介绍哦!还有评分呢~

二话不说先选速度评分第二(HanLP,别问我不选第一,因为那个我不会用)的来用,使用效果如下: 很不错哦!

但!忽然发现一个问题,这个包的字典是需要另外下载一个100M左右的字典,虽然这不是硬伤但我还是觉得很懒惰,所以选用了另外一个大小为22M的包ansj分词器自定义字典比较方便,而且直接能用)。 使用效果

我觉得其实,差不多,但这个比HanLP有个不足之处就是,空格下划线等判断词性为Null,而且加载速度比较慢(虽然不是硬伤啦)。

另外还有一个问题,对于专业名词之类的肯定得需要自建字典的,这个官网上有详细介绍,可以后续再弄。

至此,分词完毕。

4、余弦相似度。

我是根据关键词词频进行计算的,具体公式可以看 余弦相似度_百度百科,大概思路如下: 好长啊....

具体代码如下:

	/**
	 * @param alstrSpltiWord	第一题关键词数组
	 * @param alintWordFrq		第一题关键词词频数组,与关键词位置对应
	 * @param alstrSpltiWordIn	第二题关键词数组
	 * @param alintWordFrqIn	第二题关键词词频数组,与关键词位置对应
	 * @return	返回double类型变量,范围为 0-1 的余弦相似度
	 */
	double cosineSimilarity(ArrayList<String> alstrSpltiWord, ArrayList<Integer> alintWordFrq,
			ArrayList<String> alstrSpltiWordIn, ArrayList<Integer> alintWordFrqIn) {
		//定义计算中间值及结果
		double fResult = 0;
		double dA = 0;
		double dB = 0;
		double dAB = 0;
		//定义两题关键字并集的关键字位置及各题对于这些关键字的词频
		Map<String, Integer> msHasWord = new HashMap<>();
		int intHWNum = 0;
		ArrayList<String> asCheckWord = new ArrayList<>();
		ArrayList<Integer> aiCehckOne = new ArrayList<>();
		ArrayList<Integer> aiCehckTwo = new ArrayList<>();
		//把第一题的词频导入并集,并生成第一题的词频
		for (int intI = 0; intI < alstrSpltiWord.size(); intI++) {
			String strEle = alstrSpltiWord.get(intI);
			if (!msHasWord.containsKey(strEle)) {
				msHasWord.put(strEle, intHWNum);
				intHWNum++;
				asCheckWord.add(strEle);
				aiCehckOne.add(0);
				aiCehckTwo.add(0);
			}
			aiCehckOne.set(msHasWord.get(strEle), alintWordFrq.get(intI));
		}
		//对第二题进行处理
		for (int intI = 0; intI < alstrSpltiWordIn.size(); intI++) {
			String strEle = alstrSpltiWordIn.get(intI);
			if (!msHasWord.containsKey(strEle)) {
				msHasWord.put(strEle, intHWNum);
				intHWNum++;
				asCheckWord.add(strEle);
				aiCehckOne.add(0);
				aiCehckTwo.add(0);
			}
			aiCehckTwo.set(msHasWord.get(strEle), alintWordFrqIn.get(intI));
		}

		//进行计算
		for (int intI = 0; intI < asCheckWord.size(); intI++) {
			dAB += aiCehckOne.get(intI) * aiCehckTwo.get(intI);
			dA += Math.pow(aiCehckOne.get(intI), 2);
			dB += Math.pow(aiCehckTwo.get(intI), 2);
		}
		fResult = dAB / (Math.pow(dA, 0.5) * Math.pow(dB, 0.5) + 1E-20);

		//输出
		System.out.println("---------------------");
		System.out.println(alstrSpltiWord);
		System.out.println(alstrSpltiWordIn);
		System.out.println(asCheckWord);
		System.out.println(fResult);
		System.out.println(aiCehckOne);
		System.out.println(aiCehckTwo);

		return fResult;
	}

5、桥接处理

因为我打算是做一个JSP然后用一个500M内存的VPS去跑的,所以我把题目全部从CSV上读取到MongoDB里面去,然后再从MongoDB里面导出所有未处理的题目进行处理。本来打算减少内存消耗只是消耗硬盘,但总感觉其实MongoDB也是耗内存的。

我在自己的电脑上跑就发现内存占用得很厉害,我害怕在VPS上跑会跑死那台机子,不过那些东西,God Knows~

6、效果

因为余弦相似度达到多少我算是相似呢?其实我只是拍脑袋写了个80%,但我总觉得感觉还是挺好的,以下为部分结果:

较好的判断出相同题目:

第1组 第2组 第3组

有争议的判断:

第1组

错误的判断:

第1组 第2组

7、改进

其实我觉得不用改进了啦,但实际说需要改进的话,我觉得可以从两点着手:

  1. 自定义字典 对于通信专有名词是必须要进行自定义词典(或许可以用HanLP,里面有新词发现,但考虑效率及硬件开销方面还是自建字典比较稳妥);
  2. 专有名词词频加权 从上述题目看到例如“MME的具体作用及接口”“SGW的具体作用及接口”里面的MME以及SGW被其他关键词被抹消了,但其实这两个才是重点,后续可以在计算词频的时候把相应的关键字给加个权。

8、后续

这个历时3天(你需要给点面子初学者呵)的东西终于做完了,但是大部分都是测试代码,后面肯定需要重写,并且写在JSP里面(方便别人上网使用),那以后的事情就以后再说了。