首页 >> 科研成果

基于大数据智能化处理的情报挖掘系统研究及应用

湖南省科技信息研究所 www.hninfo.org.cn     时间:2019月03月20日   [字体: ]

成果名称:基于大数据智能化处理的情报挖掘系统研究及应用

成果简介:

大数据时代,决策环境发生巨大变化,庞大而复杂的数据考验着情报系统的技术体系结构和数据处理能力。本项目面向科技情报研究人员与科技情报服务机构,提出基于大数据智能处理的情报判读理论、方法,运用人工智能等技术开发辅助情报判读的情报挖掘系统,并在科技情报工作中得到系统的应用,实现了基于科研项目、论文、企业年报、网页媒体报道等大数据的科技情报自动采集、抽取、分析以及自动生成报告,通过固化专家思路和直接展示判读点信息的方法,使情报生产从基于个人能力的生产发展成专家与情报人员协同的标准化生产,改变了情报生产方式,建立了基于情报生产线的情报工作体系。

主要技术内容:一是从理论上提出大数据环境下情报的核心是判读;情报判读的目的是通过发现并跟踪领域关键人物、重要机构和热点主题,对领域发展可能的判读点做出判断;提出包括科研项目、学术论文、技术专利、企业年报、媒体报道等情报判读信息要素结构框架,为情报判读的规范化作业提供理论与方法上的支持。二是以情报判读任务需要为导向,从一般情报判读思维和特点出发,充分发挥判读人员知识、经验和主观能动作用,综合专业领域知识、情报学方法与信息技术等多学科领域的优势,研究开发用于情报判读的基于大数据智能化处理的情报挖掘群系统,具体包括基于科研项目、学术论文、专利、企业年报以及网页媒体报道共5 个情报挖掘子系统。三是从湖南省科技信息研究所产业竞争情报判读标志建立、子系统功能应用到群系统功能应用三个层次,研究制定了情报挖掘系统在不同情报判读任务类型中的应用方法与技术流程。

知识产权情况:取得计算机软件著作权10 项,著作2 本,论文12 篇(含人大复印资料全文收录一篇)。

技术经济指标:该成果建立的发达国家重大科研项目和《财富》500 强企业年报关系型数据库和全文数据库,GB 级数据全文检索响应在毫秒之内;建立的中文科技词库收录科技词汇382 万,覆盖科技情报工作的全部领域和所有专业;中文学术论文数据覆盖率达98%以上,论文题录数据抓取工具响应速度为500 毫秒,1 小时平均抓取2000 篇论文,科技词条分析工具处理速度5 分钟,平均1 篇论文需要10 毫秒;学术研究情报挖掘描述准确率达95%以上;学术研究概貌描述情报报告完成效率较以前平均提升50%。网页信息情报挖掘系统响应速度为500 毫秒,1 小时平均抓取20000 条互联网文本信息,网络文本信息实体解析速度9 分钟,平均1 条文本信息需要27 毫秒;聚类精度达98%

应用推广及效率情况:该成果在广西有色金属集团汇元锰业有限公司、中车株洲所研究院产经中心、楚天科技股份有限公司等正式使用,取得良好应用口碑,同时,该成果有效推动了湖南省产业竞争情报研究体系地不断完善,提升了企业技术创新能力,推动了湖南省经济建设。除此之外,该成果还在北京、浙江、河北、宁夏、山东省、广西等10 多个省市级科技情报机构开展推广应用,提高了科技情报事业的信息化水平,推动了科技情报挖掘分析的自动化。

信息来源:综合办公室