• 我和党报党网有个约会在线征集活动 2019-05-21
  • 长治一网民因散布交通事故谣言被行政拘留10日罚款500元 2019-05-21
  • 6月热身赛第三周获奖公告 1人获300奖金 2019-05-16
  • 回复@学童2015:你的智商达不到搞懂这个问题的基本需求! 2019-04-27
  • 技能人才 有待遇更有机遇 2019-04-20
  • 《读药》148期:《男人之间》:为何有人恐惧同性恋? 2019-04-17
  • 洪虎回忆“我的父亲洪学智”——纪念洪学智诞辰100周年 2019-04-08
  • 紫光阁中共中央国家机关工作委员会 2019-04-08
  • 南宁地铁2号线今日正式开通试运营 2019-03-31
  • 新四军用“梅花桩”战术布阵阻敌 打出1:10战损比 2019-03-29
  • 可再生能源电价附加资金补助目录公布 2019-03-27
  • 上海频繁"出镜"好莱坞 大片里重要的"未来"城市 2019-03-27
  • “一带一路”建设与网络媒体责任论坛 2019-03-24
  • 人社部副部长汤涛巡视中央机关及其直属机构2018年度考试录用公务员四川考区笔试考务工作 2019-03-24
  • 习近平要求把这项工作作为重大政治任务 2019-03-19
  • 湖南快乐十分计划app

     首页 >> 图书情报学
    基于深度学习的学术搜索引擎 ——Semantic Scholar
    2018年11月09日 11:17 来源:情报杂志 作者:谢智敏 郭倩玲 字号

    湖南快乐十分计划app www.aoejz.com 内容摘要:AlphaGo战胜李世石后,人工智能的研究与发展备受关注。在此之前不久,基于深度学习的Semantic Scholar免费学术搜索引擎的问世,也为科研工作者们搜索和筛选学术文献资源带来了新的体验。[方法/过程]在介绍人工智能、机器学习和深度学习之间关系的基础上,介绍了Semantic Scholar的检索功能,重点就该引擎基于系统在理解文献内容基础上的学术影响力评价功能作了分析,并将Semantic Scholar与现行主流学术搜索引擎Google Scholar、Microsoft Academic、必应学术和百度学术进行比较研究。[结果/结论]Semantic Scholar通过机器学习可以使系统理解不同引用之间的影响力差异,提出了基于引用内容分析的学术影响力评价指标,但在信息来源、学科范围、检索功能和个性化服务功能方面还有待进一步完善。最后提出今后学术搜索引擎的发展展望。

    关键词:

    作者简介:

      0 引言   

        众所周知,单纯以被引次数来衡量和评价学术影响力的SCI模式,近年来已经遭遇学术界越来越大的质疑和挑战。一篇文章是在综述阶段被引用,还是在方法论阶段被引用,其学术影响力的差距是不言而喻的。传统的学术搜索引擎无法甄别论文被引的原因,但是人工智能的最新进展已经使得这一工作成为可能。   人工智能几经沉浮,随着图形处理器(Graphics Processing Unit,GPU)的广泛应用,使得并行计算变得更快、更便宜、更有效,也使得人工智能近几年在图像分类、语音识别、人脸识别等方面有了长足的进步。2016年Google子公司Deepmind开发的围棋程序AlphaGo战胜李世石之后,人工智能的研究与发展更是备受关注。   另一方面,随着计算机和信息技术的高速发展,各种传统的学术文献信息资源已经基本实现数字化,并且以惊人的速度增长着,每年全球发表的论文达100多万篇。面对海量的数字化学术文献信息,免费的学术搜索引擎如Google Scholar、PubMed、百度学术等为广大科研工作者搜索学术文献提供了方便,但这些基于数据库技术的传统学术搜索引擎无法像人类一样理解文献的内容,随着文献数量的增加,若想快速而准确地定位需要的学术文献信息仍然变得越来越困难。   在这样的大背景下,美国艾伦人工智能研究所(Allen Institute for Artificial Intelligence,简称AI2)推出了基于深度学习的Semantic Scholar学术搜索引擎。Semantic Scholar的问世受到了科研工作者们的高度重视,Nature[1]和Science[2]相继发布了Semantic Scholar问世的新闻。Semantic Scholar免费学术搜索引擎的面世,将会给科研人员的学术文献信息检索工作提供更多帮助,并大大提升工作效率。Semantic Scholar不再仅仅限于为用户提供文章检索的简单功能,而是将深度学习技术用在信息筛选上,基于深度学习的检索系统能同时理解查询者的需求和文献的意思,这将为科研工作者省去更多筛选的工作。   

        1 人工智能发展概况   

        人工智能的概念诞生已有60年历史,对人工智能、机器学习与深度学习之间的关系最形象化的描述是同心圆模型[3]。由图1可以看出,人工智能是最早出现的,即最大、最外侧的圆;其次是机器学习,位于人工智能的内侧;最内侧就是深度学习,当今人工智能大爆炸的核心驱动。   

        1.1 人工智能 人工智能(Artificial Intelligence,AI)是1956年在达特茅斯会议(Dartmouth Conferences)上最先提出的概念,到目前为止,并没有确切的、统一的定义。通常认为人工智能是研究如何使机器模拟人类的思维过程、学习、思考、推理和规划等行为,并利用其解决问题的一门综合性学科[4]。人类最理想的人工智能,是令机器拥有与人类同样本质特性的智慧,即所谓“强人工智能”,而当前实现的人工智能只能称为“弱人工智能”,实现当前人工智能的方法,即为同心圆的下一层——机器学习。   

        1.2机器学习 机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能[5]?;餮白罨镜淖龇?,是使用算法来解析数据、从中学习,然后对真实世界中的事件做出决策和预测?;餮笆怯么罅康氖堇础把盗贰?,通过各种算法从数据中学习如何完成任务[3]?;餮暗慕徊绞迪衷蛐枰吧疃妊啊?。   

        1.3 深度学习 深度学习是同心圆的最内侧,是实现机器学习的核心技术。深度学习是想通过模仿人脑的思考方式,建立类似于人脑的神经网络,来实现对数据的分析,按照人的思维做出相关解释,形成人们易于理解的图像、文字或者声音[5]。人工神经网络(Artificial Neural Networks)是早期机器学习中的一个重要的算法,神经网络的原理是受人类大脑的生理结构——互相交叉相连的神经元启发的,人工神经网络具有离散的层、连接和数据传播的方向。深度学习是在GPU得到广泛应用后,基于人工神经网络算法进行的,通过海量的数据训练神经网络,以达到机器学习的目的。最典型机器深度学习的例子是“放猫”(Herding Cat),从YouTube视频中寻找猫的图片[3]。   

        Semantic Scholar是一款利用机器学习技术,通过深度学习可以使机器理解论文的意思,以辅助科研学者更有效地检索学术信息的人工智能搜索引擎。

      2 人工智能学术搜索引擎——Semantic Scholar

     2015年11月2日,美国艾伦人工智能研究所推出的一款基于人工智能的新的学术搜索引擎,目的是“Cut through the clutter”,使重要文献“脱颖而出”。

      Semantic Scholar利用“机器阅读”技术从文本中挑选出最重要的关键词和短语,而且不需要依赖作者或出版商键入这些关键词,该引擎还可以判断文章所论述的主题,也可以从论文中提取图表,将它们呈现在检索结果中,帮助用户快速理解论文内容;Semantic Scholar可以辨别一篇文章引用的参考文献是否具有重要的参考价值[6],基于此评价论文的学术影响力,可快速获得重要文献。登录网址为https://www.semanticscholar.org。

      以往应用于搜索引擎的“人工智能”更多地表现在基于网络蜘蛛的智能化信息抓取、基于语义技术的用户意图自动识别,及个性化搜索、信息推送等方面,Semantic Scholar的人工智能则在于基于深度学习而实现系统对论文内容的理解,更接近目前所实现的人机大战模式的人工智能,将更有利于帮助用户筛选有用信息,提高学术信息搜索和过滤的效率。

      2.1 检索功能

      2.1.1 信息源 Semantic Scholar语料库来源于可开放获取的学术文献数字资源,包括ArXiv,Digital Bibliography & Library Project(DBLP),CiteSeer,OdySci Academic,AMiner。

      2.1.2 检索范围 Semantic Scholar 2015年刚刚推出时,只能获取计算机科学领域的300万篇论文,现已将其语料库的覆盖范围扩展到计算机科学和神经科学领域的约1 000万篇研究论文。检索语言仅限于英语。

      2.1.3 检索方式和检索界面 Semantic Scholar提供的检索方式为基本检索,支持关键词检索、人名检索,系统不区分大小写,人名不支持缩写。该引擎不支持任何逻辑算符,也不支持字段限定语句的使用。

      Semantic Scholar的检索界面简单明了。最上面为检索区,检索框位于页面中央,如图2所示。检索区下方为Semantic Scholar个性化功能和创办宗旨。

    作者简介

    姓名:谢智敏 郭倩玲 工作单位:

    转载请注明来源:中国社会科学网 (责编:闫琪)
    W020180116412817190956.jpg
    用户昵称:  (您填写的昵称将出现在评论列表中)  匿名
     验证码 
    所有评论仅代表网友意见
    最新发表的评论0条,总共0 查看全部评论

    QQ图片20180105134100.jpg
    jrtt.jpg
    wxgzh.jpg
    777.jpg
    内文页广告3(手机版).jpg
    中国社会科学院概况|中国社会科学杂志社简介|关于我们|法律顾问|广告服务|网站声明|湖南快乐十分计划app
  • 我和党报党网有个约会在线征集活动 2019-05-21
  • 长治一网民因散布交通事故谣言被行政拘留10日罚款500元 2019-05-21
  • 6月热身赛第三周获奖公告 1人获300奖金 2019-05-16
  • 回复@学童2015:你的智商达不到搞懂这个问题的基本需求! 2019-04-27
  • 技能人才 有待遇更有机遇 2019-04-20
  • 《读药》148期:《男人之间》:为何有人恐惧同性恋? 2019-04-17
  • 洪虎回忆“我的父亲洪学智”——纪念洪学智诞辰100周年 2019-04-08
  • 紫光阁中共中央国家机关工作委员会 2019-04-08
  • 南宁地铁2号线今日正式开通试运营 2019-03-31
  • 新四军用“梅花桩”战术布阵阻敌 打出1:10战损比 2019-03-29
  • 可再生能源电价附加资金补助目录公布 2019-03-27
  • 上海频繁"出镜"好莱坞 大片里重要的"未来"城市 2019-03-27
  • “一带一路”建设与网络媒体责任论坛 2019-03-24
  • 人社部副部长汤涛巡视中央机关及其直属机构2018年度考试录用公务员四川考区笔试考务工作 2019-03-24
  • 习近平要求把这项工作作为重大政治任务 2019-03-19