黄聪：相关词句采集与分析研究

下载地址：ROST内容挖掘系统
沈阳1 朱婵元2 周子轩2
(1:武汉大学信息管理学院；2:计算机学院)

本文发表于：图书情报工作 2009.22 40-43

【摘要】针对目前互联网中相关词句集来源狭窄，没有对相关词的相关性判定公式进行多角度考虑和深层次理论分析等问题，本文实现了相关词采集和分析原型，通过对相关词句集进行去重处理，并利用RSIS、RMRD和DDRW三种方法进行相关词重新排序。按词的特性将相关词分成五类进行相关词特性分析，并在实证实验中对搜索引擎进行人工和机器混合评测。
【关键词】相关词;相似性;元搜索引擎;排序算法

【分类号】TP391.1

Related word Acquisition and Analysis

【Abstract】In view of the current Internet, related words in a narrow set of source ,Not consider the collection formula of determination in a multi-angle and deep analysis.The writer points out a kind of system of gathering and analyzing related word, According to the related words ,We dispel a large amount of highly similar related words . We use RSIS, RMRD and RMDD to arrange the order of the related words. according to the characteristics of related word which include five kinds of situations. Analysis the related words .Analyze search engines by both artifically and mechanically In the experiment.
【Key word】: Related word; Similarity; Meta Search Engine;Sorting algorithm
　　
　　1 背景与相关工作
　　在自然语言处理、信息检索、自动问答系统、搜索引擎、输入法和智能提示等领域经常需要了解一个词的相关词句是什么[1]。由于相关词句比同义词[2]和反义词范围更广，收集整理工作量更大，因此相关词句集1的资料较少。
　　目前在互联网中存在以下几处相关词句集：1.在搜索引擎中输入关键词，返回页面中有一个最相关的词句集，常见的这类搜索引擎有Google、百度、搜狗、有道和迅雷等；2.在QQ书签、365key[3]之类的社会性标签网站和搜狐博客标签等网站中，存在大量的Tag Clouds,其中对于同一网页的Tag群可以认为是相关关键词；3.在Deep Web环境下的学术论文文献资源库中，每篇论文都有关键词，这些关键词经过关系强度分析之后，也可以整理为相关词句集[4]；4.在Wiki百科和百度百科中也存在着大量的词条关系，这些词条语句也可以构成相关词句集；5.在Google Set中输入关键词后，也会返回相关词集。既然存在着经过社会计算过滤出来的相关词句集，那么构建相关词采集模型，对采集之后的相关词句集进行分析和整合，从而构造出高纯净度的相关词集就是一个可以讨论和研究的问题。
　　近年来研究者提出了一系列在文档中筛选相关词的方法[5,6,7]，文献[7]提出通过字体和语义的相似程度来寻找相关词。文献[5]提出一种过滤精炼算法，在最低的相关极限上搜索所有的相关词，并且提出了积极相关词概念和消极相关词概念。积极相关词的是指有直接联系的相关词，比如搜索引擎返回的相关词集；消极相关词是指没有直接联系的相关词，比如通过分析学术论文的关键字，在它们之间，会出现跨领域的消极相关词。在相关词提取算法方面有不少新进展，如用页数和摘录去计算两个给定词语的语义相似度[8]，基于单词和词组频率TF确定相关词的算法[9]，在词的一般类别达到渐进理想的数据相关的算法 [10]，在一个语义地图数据库中计算相关词的算法[11]等。在搜索引擎上，文献[12]依据搜索用户的搜索和浏览行为发现具体关键字的关联关键字并确定相互间的从属关系，并主动搜索关联程度高的其它关键字，文献[13]通过查询行为资料库、浏览行为资料库及关联分析器确定搜索引擎关键词的相关词。目前大部分的研究存在下列缺陷：相关词来源狭窄，没有一套全领域的免费相关词集训练材料，重复研究较多，没有对相关词的相关性判定公式多角度考虑，也未对相关词的相关特点进行深层次理论分析，本文拟就上述问题展开探讨研究。
　　2 RelNET 采集与分析原型
　　要采集元搜索引擎的相关词句集，需要首先构筑一个词表，将该词表中的词依次送到元搜索引擎中进行轮询，获得返回结果之后，将相关词句集进行保存。对于社会性标签网站、文献资源库、百科网站，可以使用笔者开发的ROST WebSpider[15]（自研的一个网页采集工具）对相关网站进行扫描，进行关键词抽取，对抽取之后的相关词进行分析之后增加到相关词集句中。笔者自研的RelNET （ROST Related words Net）[15]采集与分析包含面向多来源的相关词采集引擎，采集完成后形成粗糙相关词集，对粗糙相关词集进行清洗、去重、排序后，进行整合和发布。整体架构如图1。
　　

　　2.1面向多来源采集引擎
　　面向多来源采集引擎包括元搜索引擎采集模块(MSE-SE)、百科采集模块(BK-SE)、文献资源论文相关词采集模块(GS-SE)等。
　　元搜索引擎采集模块(MSE-SE)目前支持的搜索引擎有：Google、百度、Sougou等搜索引擎。MSE-SE首先将查询发送至搜索引擎，获得返回页面源代码，进行返回页面源代码解析。元搜索引擎采集模块已经独立为一个单独软件ROST RelNET，互联网搜索即可下载。基本思路如下：首先自增指针，判断是否遇到特征起始字符，如果遇到，则开始采集字符，采集完成后，调用相关词句字符串解析函数，将一串的相关词句解析为一个个相关词句，保存到stringlist结构中。
　　百科采集模块(BK-SE)构建一个百度百科的网址序列，使用ROST WebSpider进行网页下载，下载到本地之后，对其中的特征字符串进行解析，此后基本过程与MSE-SE 方法接近。
　　文献资源论文相关词采集模块(GS-SE)以Google Scholar为切入口，首先在Google Scholar自动提交一个查询词，然后获得该查询词的系列返回链接，针对返回链接的不同情况进行单独处理。第一种情况是 engine.cqvip.com，即从维普资讯上采集数据，第二种情况是www.wanfangdata.com.cn，即从万方数据上采集数据。维普资讯直接将论文的关键词放在“Keywords”Meta标签中，而万方则将关键词放在“关键词　”之后。反复自动执行上述操作，即可采集大量相关词。
　　2.2采集结果去重算法
　　在相关词句集中存在高度相似的一些相关词句，因此需要将重复的部分去除。采取的思路是将停用字去除之后进行相似性比较，先对相关词句进行分词，经过实体识别、人名识别之后将剩余在孤字中的停用字删除。这样将避免停用一些实际上在某些情况下有用的停用字。分词处理、实体识别和人名识别使用笔者研发的 ROST WordParser，Google搜索可直接下载。相似度算法使用改进的Levenshtein Distance算法。为减少比较数据量，在输入数据时先剔除和原词一样的词，处理过之后数据进行停用字或者停用词处理，进行源词和相关词的词频统计，使用笔者开发的ROST 中文词频统计模块进行词频统计，如果频度矩阵相同，则说明相似，此时再用改进Levenshtein Distance算法进行相似性比较，将相似距离等于0的词删除。这样获得的结果集将是没有高度相似的相关词集。例如：“商品经济的目的”和“商品经济的目的是”两个词串其实是高度相似的词（见图2），产生冗余，如果要去掉，则需要首先分词，分词后，去掉孤立字“是”，对相关词句进行词频统计，此时“商品经济的目的”中，“商品”词频为1，“经济”词频为1，“目的”的词频为1，而“商品经济的目的是”中“商品”词频为1，“经济”词频为1，“目的”词频为1，调用改进Levenshtein Distance算法，计算词频矩阵中的词LD距离为0且频度相同，删除两句中的任何一句。
　　
图2：相关词消重算法实例
　　2.3 相关词排序算法
　　在已完成的相关词采集与分析原型系统中对相关词重新排序，笔者测试了以下三种方法：
　　A．搜索指数权重总和计分排序法（RSIS）：从百度、Google等搜索引擎下载的相关词，在下载的时候对顺序进行标记。使用搜索引擎搜索指数权重总和计分排序法进行重新排序。由此可得：RSIS (x)=，f(x,i)是x相关词在第i个搜索引擎中被搜索的指数。获得返回指数权重总和计分之后对所有的相关词按大小进行排序。较常见的搜索指数有百度指数等，可以通过对如百度指数等页面进行关键词轮询获得所需数据。
　　B．RMRD：我们由NGD[14]演化出RMRD(Rost Meta Relateword Distance)公式，测量相关词之间的相关性，根据相关性来进行排序，不同的是这种方法是根据元搜索引擎中搜索到的网页数目，再进行相关数学计算得到的。
　　
　　其中，x和y是两个词汇，RM是ROST Meta Search Engine元搜索引擎中各搜索引擎的网页总数，一般取值100亿，f(x)是x出现的网页的数目，f(x,，y)是相关词x和y都出现的网页数目。 RMRD的值越小，两个相关词的相关性就越大，从而可以挑选出相关度最高的相关词。RMRD将是所有相关词的网页的权重都认为是一样的，这是RMRD的主要缺陷。
　　C．RMDD：从返回结果的重复率和网页权重考虑，提出RMDD(ROST Meta search engine Delete Duplicate)公式，即对同一源词的相关词进行搜索引擎轮询，使用笔者研发的ROST Meta Search Engine轮询，将得到的结果进行轮询，判断相关词中返回链接结果和源词的重复率，重复率越高说明越相关。
　　
　　RMDD公式对不同网页的权重有所区别，排序在前的网页权重较大，此处取前1000条链接作为检测对象，其后链接省略。
　　?3 相关词特性分析
　　为了更好地对相关词排序以及分析目前各搜索引擎中提供相关词句集的质量，有必要从理论角度对相关词句进行特性分析。?我们把相关词句按特性分成：词理相关、语境相关、社会相关、释义相关和更新相关五类，各类基本含义如下：
　　词理相关是指相关词包含搭配、同类、上位、下位等词之间的关系。是相关词最普遍的一种情况，例如“黄鹤楼”在其相关词“黄鹤楼影院”和“黄鹤楼香烟”中。
　　语境相关指的是相关词在一定的语境下出现不同的含义，每种含义与其他的词进行搭配，所表现的含义在不同语境中大相径庭。例如“帽子”的相关词有“帽子图片”、“帽子戏法”，显然“帽子”在两个相关词句中涵义截然不同。
　　社会相关指的是相关词与社会网络息息相关。例如“周杰伦”的相关词会出现“蔡依林”等人名。
　　释义相关指的是有很多词的相关词句就是这个词的含义以及外语中对应的词，例如“狐假虎威”的相关词有“狐假虎威的意思”、“狐假虎威的寓意”之类的。
　　更新相关是指某个词的相关词会随时间发生变化，例如歌手郑秀文有一首“眉飞色舞”的歌曲，所以“眉飞色舞”的相关词会出现“眉飞色舞 MP3”。相关词的动态性决定了相关词的搜集必须动态更新，否则将不能满足用户对于相关词句的需求。
　　上述五种分类的提出，细化了相关词类别，同时也极大增加了相关词排序和推荐的复杂性，今后需要在此复杂维度上作更细致研究。
　　4 数据集与实验
　　由于该领域无其他中文公开数据集，因此笔者发布由采集模块采集的相关词句集做为一个文本文件。目前给出的下载文件是一个高频1万词集，152027句的相关词句集[15]。经过对上述三个公式形成的相关词序列进行重复词串测试，对10000个词的相关词集前5条数据重复性实验显示重复数据约为17%，此结果表明相关词相关性的评价主观性极大，三种算法主观效果优劣尚无法简单判断。从执行速度角度看，RMDD<RSIS<RMRD。
　　从应用普及程度考虑，本文以采集的各搜索引擎相关词句集为实验对象，从关键词库中抽取关键词获取相关词后进行总体人工和自动混合评测，社会相关通过分词中的人名识别进行测试，而更新相关中的情况根据ROST 中文分词中的新词发现功能进行测试。其他三项使用人工打分，评测结果由好到差分为A-E五个等级，具体评测结果如表1所示：
　　

　　从上表可以看出，Google和百度的相关词提示效果综合评价最高，相关搜索功能比较成熟，但百度存在的最大缺点是相关词重复率太高，而Google的最大缺点则是动态相关较弱。至于Yahoo、Sogou、MS live的相关词搜索部分则各有优劣，有道则落后于前面五名。此结果同时也说明返回网页的准确度和相关词的相关性不存在线性关系。
5 结论
　　本文研究了相关词在互联网各领域的重要作用，指出了存在相关词的5个来源，并完成了相关词采集和分析原型，在该原型中，实现了五个采集模块，在对形成的相关词集分析中，使用了搜索指数权重排序法RSIS，由NGD公式改进了RMRD，提出了RMDD公式，并对相关词的类型做了分类处理，首次将相关词分为词理相关等五类情况，按照类别对各大搜索引擎的五类情况进行了人工和机器混合评测，今后将进一步研究分类情况下相关性评价三大算法主观效果问题。

优质内容筛选与推荐>>
1、正则表达式-学习1
2、春风创投合伙人毕磊：移动医疗下的颠覆式创新
3、Python批量Excel文件数据导入SQLite数据库的优化方案
4、SSE图像算法优化系列五：超高速指数模糊算法的实现和优化（10000*10000在100ms左右实现）。
5、IJCAI2018|腾讯知文等提出新型总结式摘要模型：结合主题信息和强化学习训练生成更优摘要

朋友将在看一看看到

分享想法到看一看