Hi:欢迎来到提高路网-专业的论文辅导网站     

所有论文科目分类

首页 > 免费论文 > 计算机论文 > 计算机软件

解析基于Hadoop 的实时文献资料搜索引擎

作者:2017-10-10 16:16:20阅读:文章来源:
一、云平台技术架构
  云存储系统提倡存储即服务的理论,提供超强存储能力和计算能力,具有可扩展性好、易访问、资源利用率高、可靠性高的特点,应用越来越广泛。本文构建的高校分布式数据云存储平台的文件实体存储环境为Hadoop 集群,实现了云存储、数据归档、数据实时查询服务三大功能。云存储平台是层次化结构模型,通常可分为五层,从上到下依次是:基础层、存储层、管理层、接口层、终端层。
  二、实时搜索引擎关键技术
  搜索引擎通过对高校内部各种资源的整合,面向全校用户提供了统一的信息搜索接口,提升资源利用水平。Lucene 是全世界最优秀的全文搜索引擎架构和开发工具包之一,被广泛地用来构建实用的全文搜索应用系统,或被集成于多类软件开发环境之中。然而,Lucene 作为一个通用的搜索引擎开发工具包,在针对高校文献资料搜索及知识发现系统开发方面还存在着许多不足之处,比如大文档集实时搜索速度慢等。
  1.实时索引构建。主要由文档解析、分词、建立索引、搜索索引、相关度排序以及各种外围应用子系统等模块组成。实时搜索引擎主要分索引和检索两部分。索引就是对文档进行格式转换、语法分析后,建立索引文件。检索根据已建立的索引对用户的搜索请求进行查找和匹配,并将结果呈现给用户。索引构建模块管理索引的元数据(记录用户表对应的索引表名称、索引列等信息),并实现针对硬盘索引表和缓存索引表构建方法,包括支持索引表和值表的插入、删除、更新操作。硬盘索引表提供索引表和值表的永持久化存储。缓存索引表用来管理索引热点数据的缓存存储、更新和地址映射,实现热度累积缓存替换策略,使得最近频繁访问的数据能缓存到内存中。搜索索引将用户的查询请求经分词处理后,翻译成系统识别的命令,对索引表进行检索并汇总返回至客户端。相关度排序算法用来对搜索结果文档集按照文档的相关性进行排序,给用户呈现最佳搜索结果。
  响应速度是搜索引擎的重要指标之一,是影响用户使用的主要方面。从用户体验的角度看,一个检索的响应时间不能超过1 秒钟。对系统来说,获取到用户的查询条件并解析后,在磁盘上根据解析的内容寻找相关记录,再将结果反馈给用户。在完成整个检索的过程中,花费时间最多的是搜索过程,因此在磁盘性能不变的情况下,减少磁盘寻找时间是有效提升响应速度的关键策略。
  本文提出以下策略解决此问题:(1)分类索引。在搜索引擎中,用户通常会根据自己的需要对信息进行分类查看。因此,本系统对所有类别信息按照网页、文档、微博等进行分类。搜索引擎可根据用户的兴趣在指定的分类对应的索引中查找即可。(2)分层索引。为了更进一步提高索引访问的速度,本文研究提出了分层索引的方法:将被频繁访问的20%的索引热点数据缓存在内存中,其余80%的数据存放在磁盘中,利用内存的低延时性大幅度提高查询性能。同时,采用热度累积的最近最少(Heat accumulation Least Recently Used,以下简称Ha-LRU)算法对所有的记录计算热度,根据热度排序,将热度排序TOP-K 的集合记录缓存到内存中。采用的Ha-LRU 算法的基本设计思想是周期性地累积缓存索引表被访问的次数,并将访问算法周期性地累积成热度保存在缓存元数据中
  2.文献检索。文献检索是指利用Lucene 的全文检索引擎实现文献资料的查询功能,它根据用户输入的查询语句将符合条件的索引信息从索引文件中提取出来,并将结果返回给用户。Lucene 的搜索过程可划分为几个步骤:(1)Lucene获取用户输入的搜索语句并进行分词处理,得到系列检索词。(2)向内存缓存层的服务进程发起查询请求。若命中则返回查询结果。(3)若缓存索引表未命中,则根据分类情况向硬盘索引表的索引表发起查询请求。获取结果后,返回查询得到的结果。(4)对搜索结果文档集进行排序,呈现给用户。
  可以看出,如果在缓存索引表命中,整个查询流程都不会访问到磁盘,减少了磁盘访问开销,能够大幅度提高响应速度。另外,在访问硬盘索引表时,根据指定的分类,只需要查询对应的某一类索引表。使用此策略缩小了查询规模,可以加快在分类查询时的速度。
  三、实验分析
  本系统使用的Hadoop 集群由5 个节点组成,分为1 个Namenode 和5 个Datanode 的集群。配置如表1 所示,其中IBM X3850X5 为Namenode。Hadoop 版本为0.20.2, 操作系统为Ubuntu10.10, 数据库采用Oracle11g。所有节点之间通过千兆以太网完成互联。
  1. 构建索引测试。本实验的测试数据集分别是530M、1126M、6374M、13260M。集群采用的就是Hadoop 计算机集群。单机只采用IBM X3850X5进行测试。当文献资料为530M 时,单机创建索引的时间比集群的速度快了近一倍。这主要是由于Hadoop集群在job 的分发过程中消耗了一定的时间。当文献资料规模增加到1126M 时,两者创建索引的时间相差不大,集群创建索引所花时间比单机快了17s。随后,随着文献资料规模的增加,两者差距越来越大,采用集群构建索引的优势表现明显。
  2.Lucene 与Oracle11g 性能对比。测试选取1000000 条文献资料,在10000、100000、1000000 数据规模下对Lucene 和Oracle11g 数据库检索分别进行了100 次测试,取其平均值作为测试结果。测试结果表明:基于Lucene 的云存储及实时检索系统具有较好的时间和资源优势,并且随着文献记录数的增多,其优势更加明显。
  3.查询性能对比实验。缓存命中率是指在批量查询中,在缓存中获得结果集的数据查询个数占全部数据查询个数的比率。命中率越高,访问磁盘的次数越少,缓存系统的查询性能越好。测试选取1000000 条记录,可以看出,缓存空间增加,命中率提高。热度累积缓存算法的命中率高于LRU,尤其是在数据缓存比例为0.2 时,热度累积缓存算法的命中率大约比LRU 的命中率高16%,因为热度累积缓存算法的热度累积机制能够更精确地记录数据的冷热程度,将热点数据缓存到内存中。对于大数据应用,缓存空间受内存限制,热度累积缓存算法在缓存比例不高的时候正可以充分发挥优势,提高大数据下的查询性能。
  可以看出,命中率随缓存空间的增大而不断提升,使用两种替换策略的索引查询时间都在随之降低。由于热度累积的缓存替换策略在命中率上的优势,查询响应时间明显优于使用LRU 替换策略的查询性能。高校云存储服务平台及实时搜索引擎系统是一项系统工程,它能够为高校教学管理、资源平台、舆情分析等教育管理信息系统提供较好的公共服务支持。本文结合广东金融学院的实际情况,利用现有基础设备,构建了基于Hadoop 和Lucene 的云平台存储架构,改进了实时搜索引擎系统,可以为存储和数据整合提供较好解决方案,由此构建的高效的云平台具有重要意义。
 

最近相关

最新更新

热门推荐

[经济法]九好集团财务造假案例分析与对策思考
 九好集团是2017年第一家因“忽悠式重组上市”而被证监会处以顶格处罚的后勤托管服务公司,主要业务模式是作为中介服务平台为客户寻找后勤服务供应商,根据成交额收取一定比例的服务费。九好集团财务造假手段,可以代表我国拟上市公司财务造假普遍存在的现状...[全文]
[行政管理]单纯收受行政管理对象财物的司法认定
  在单纯收受下级、行政管理对象的财物行为中,国家工作人员并未利用职务上的便利为对方谋取利益,也不存在具体请托事项。司法解释规定此类行为一定条件下可构成受贿,但在具体执行中尚有不少疑难问题。事实上,将单纯收受下级、行政管理对象的财物认定为受贿,...[全文]
[互联网技术]人工智能时代的特点及就业趋势
摘要:随着科学技术的发展,人工智能在各行各业的应用日渐广泛。人工智能在改变了人们的生活的同时,也对社会的就业形势带来了一定的影响。本文将简单阐述人工智能时代的特点,并分...[全文]
[世界历史]海绵城市建设的困难误区及推进建议
 1、海绵城市热潮  传统的城市雨水系统建设模式已经对水环境造成巨大的负面影响与危害,近年来的城市内涝灾害广受病垢。  事实上,严重的径流污染、水文循环的破坏乃至生...[全文]
[硕博论文]基于上市大数据企业的经营绩效与研发投入关系研究
近年来,大数据(Big Data)已经成为学术界和业界所共同关注的热点和焦点。随着网络和信息技术的普及,人类产生的数据量呈指数级增长,这与原始信息时代已经很不一样。...[全文]
[信息]联系方式
欢迎访问提高路网。您有任何问题,都可与提高路网取得联系。以下是提高路网的联系渠道: 一、推荐您与提高路网的在线客服联系,以获得最快最及时的回复。如果客服不在线请致电138...[全文]
[硕博论文]RV减速器可靠性研究与关键件疲劳可靠性分析
RV减速器是结合行星传动和巧妙地利用曲柄轴实现摆线传动的减速器,具有结构紧凑、过载能力强和可靠性高等优点。目前国内的RV减速器仅处于研究生产阶段,其主要原因是...[全文]
[信息]关于我们
提高路-论文网(www.tigaolu.com)全国论文辅导平台。本着帮助有志于提高自身任职现状的人们,提高路-论文网是国内较早提供论文、职称解决方案的服务商,是中国在线学术服...[全文]
[财政税收]港澳地区及大陆税收政策的差异
摘要:虽然港澳地区和大陆同属中国政府管辖,但由于历史原因,港澳在社会经济制度、经济发展模式、发展水平及税收管理政策等方面和大陆存在差异。我国经济的发展使港澳和大陆之间...[全文]
[法理法史]国际法历史发展因素
广义地说,古代社会已有国际法(可称之为“古代国际法”),或者至少有国际法的遗迹。当然,一般意义上,国际法是指近现代国际法,下面是编辑老师为大家准备的国际法历史发展...[全文]
[艺术理论]颐和园园林艺术论文范例赏析(共2篇)
  颐和园园林艺术论文怎么写呢?颐和园园林是中国现在保存最完好和规模最大的古代园林,同时也是我国园林艺术的杰出代表,是我国清代著名的皇家园林,其兴建历经乾隆、光绪两朝,园林布局集中了皇家园林与私家园林、北方园林与南方园林之特色,下面是千里马...[全文]
[硕博论文]基于双边市场的平台纵向一体化策略研究
双边平台具有网络外部性、不对称定价、用户多归属等双边市场所特有的特征,这些特征使得双边平台的竞争模式与传统企业有所区别,平台用户数量是平台企业的主要竞争目...[全文]