重庆时时彩后一必中|重庆时时彩的规律

文本数据挖掘国内外研究现状和发展趋势

时间:2018-01-11 11:04来源:毕业论文
由于文本数据挖掘主要就包括两个方面分类和聚类,而这两个方面经常是联系在一起的,而且处理过程中也有很多步骤和问题是相同的,如文本表达与索引、特征词提取、相似度评价等
由于文本数据挖掘主要就包括两个方面分类和聚类,而这两个方面经常是联系在一起的,而且处理过程中也有很多步骤和问题是相同的,如文本表达与索引、特征词提取、相似度评价等。故很多研究和应用成果都包含这两个方面。17418
文本聚类分析在信息检索(IR,Information Retrieval)领域有相当长的研究历史,近年来在文本数掘上的聚类分析研究和应用越来越受到关注。关于文本数据上的聚类分析研究,较早的综合性介绍可以追溯到c.J.van Rijsbergen在IR领域的经典书籍《Information Retrieval》中提到的利用文本聚类分析技术来提高信息检索系统的准确率。
上个世纪90年代以来,文本的聚类分析技术研究更多地集中在对大规模的文档集合的浏览上、在对用户提出的查询重新组织搜索引擎的查询结果上。近年来,文档聚类算法还在文档分析处理领域中一个新的应用方向话题检测与跟踪(TDT,Topic Detection and Tracking)中得到了进一步研究与应用。话题检测中利用文档聚类算法从大量的文档中自动地抽取话题,应用于个性化信息服务或者情报分析。
国外现在有很多学者与研究机构正致力于信息资源处理和利用的研究,如贝尔实验室中信息检索和分类、斯坦福大学计算机系的知识系统实验室,进行Web文本挖掘和稳定聚类、卡内基梅隆大学的机器学习组合文本学习组、MIT的智能信息检索中心等等。
由于中文和英文不同,其结构复杂研究困难。在文本数据挖掘,我国起步较晚但也有骄人的成绩。现在国内也有很多大学和机构在进行这方面研究,如中科院计算机研究所、东北大学计算机科学与工程研究所等。 源自六/维\论]文[网!加7位QQ324.9114 重庆时时彩的规律 www.mamitama.com
 发展趋势
当前文献聚类方法的研究,主要用于数据挖掘,作为其他数学算法的预处理步骤,获得数据分布状况,集中对特定的信息做进一步的研究。这也是聚类方法的基本使用领域。经过人们的普遍认知和使用后,聚类算法的运用正逐步扩大。
文献聚类的研究也开始广泛运用于其他领域:
(1)经济领域:帮助市场分析人员从客户数据库中发现不同的客户群,并且用购买模式来刻画不同的客户群的特征。对住宅区进行聚类,确定自动提款机ATM的安放位置。股票市场板块分析,找出最具活力的板块龙头股。企业信用等级分类。
(2)生物学领域:推导植物和动物的分类;对基因分类,获得对种群的认识。(3)统计学:主要集中在基于距离的聚类分析,发现球状类。
(4)机器学习:无指导学习(聚类不依赖预先定义的类,不等同于分类) 文本数据挖掘国内外研究现状和发展趋势:/a/yanjiu/20180111/19076.html
------分隔线----------------------------
推荐内容
小说 小说 小说 小说 小说 小说
小说 小说 小说 小说 小说 小说
小说 小说 小说 小说 小说 小说
体彩11选5开奖结果 在线购买广西快乐十分 11选5杀2个100%技巧 广西11选5玩法介绍 广东快乐10分外围
辽宁35选7好运 辽宁35选7软件 乐宝娱乐城怎样赢 福建31选7今日开奖结果 幸运农场遗漏