专家简介
顾立平,中国台湾,博士,中科院文献情报中心副研究员,中国科学院大学图书情报与档案管理系岗位教授,日本国立情报研究所访问学者。中国科学院文献情报出版领域择优支持人才、中国科学院文献情报中心引进人才、中国科学院文献情报中心科技信息政策研究与服务中心执行副主任、开放科学政策与法律咨询服务中心负责人,已发表学术论文97篇,专著5部,编译著作12部,已开放共享250份研究报告(累计浏览下载25万余次)和200份讲座视频(4 500点击率)。
会议介绍
2019年6月14日-17日,首届“数据智能与知识服务”学术研讨会暨“知识服务智能化平台建设”讲习班在北京理工大学召开。本次会议由中国科学院文献情报中心主办、北京理工大学计算机学院协办,邀请国内外从事相关研究的知名学者、具有前瞻洞见的业界领袖和精通实战经验的技术大咖,讲授“数据智能和知识服务”的前沿与“知识服务智能化平台建设”的构建。
数据科学R与Python为企业导入人工智能技术的探索
01
世界各国人工智能发展战略
02
人工智能简介
03
数据科学R与Python实践
04
企业应用案例
报告内容
为了听众需求,这次报告分为4个部分,第一个部分是提供给管理人员和政策研究者,主要内容是世界各国人工智能发展战略,在有限时间内,提供重点和重要线索;第二部分是提供给对此感兴趣但是没有接触过这个议题的参会者,主要内容是人工智能的原理简介,核心是模式识别的进步,强调为什么以及如何,这样便于大家能够快速理解以及对于最新消息或者研究成果作出判断;第三部分是提供给想要研究和从事有关工作的初学者,主要内容是我们在国科大研究生课程里的部分内容,提供可操作的试验方案;第四部分是提供给图书情报档案出版领域的各位老师的国外案例参考,期待引起讨论,或者之后的交流合作。
01
世界各国人工智能发展战略
1.1 人工智能发展概况
人工智能的发展概况是从4个部分来考虑的,分别是人工智能的技术研究、人工智能的新兴产业、人工智能的工业应用、人工智能的教育,从中我们可以看出目前研究和投入的热点以及人工智能发展的趋势,并且在人工智能的发展过程中会渐渐围绕着开放战略以及开源软件例如R与Python等,衍生出的一些新兴产业,同时人工智能现在已经和一些工业系统之间进行了应用跟合作,最后很重要的一个核心观念是指在整个能力素质提升的时代和生产力不断增加的时代,人工智能的教育方面也一定会有相关的人才计划的培养内容。
1.2 美国人工智能发展战略
2019年2月12日,美国国防部宣布的AI发展战略中提出计划成立联合人工智能中心,主要包括4个步骤:(1)努力促进国防部AI功能的交付和采用;(2)建立扩大人工智能范围的共同基础;(3)AI与DOD步调一致;(4)努力吸引和发展世界级的AI团队。这4个步骤是希望在联邦政府建立起行之有效的AI体系,并基于此体系来要求现有的一些项目研究计划跟DOD战略目标发展保持一致,这一信息至关重要(见图 1)。
图1 美国国防部发布人工智能战略
2月26号,国防部又提出几个重要的新内容:一是关于速度和灵活性,与国防部前期的几个研究方向有关,是一个核心观念;二是产业合作伙伴以及领导相关的军事安全(见图 2)。一周前的最新信息表示,现在有可能的担心是未来大选时是否会存在用AI来制造一个不存在的社会网络人物的威胁,这些内容都被涵盖在广义的AI内容当中。
图2 国防部领导人在IT、网络安全、信息保障方面召开会议
从美国国防高级研究计划局(DARPA)的两个报告中可以推测出未来可能的研究内容。
报告一:美国国防部高级研究计划局(DARPA)秘书Steven Walker在2019年3月14日的私人赞助会议上介绍了DARPA核心计划的最新举措,目前共有超过250个DARPA计划正在进行中,其中一个代表性例子是网络威慑,旨在保护网络物理系统。其中提到计划将AI(在低地球轨道的网络操作中)和通过从一个卫星传输到下一个卫星的数据,使得该数据组可用于各种任务。除此之外,用于反恐和反攻击行动的人工智能能力,包括以前从未见过的冲突,例如具有模糊目的的冒犯行为、模糊的侵略行为以及模糊的违反规范行为。
报告二:ARPA在其61年的历史中已经投入人工智能56年,并开发了基于规则的人工智能、自动驾驶汽车、第二代机器学习以及其他现有翻译技术,例如自动翻译。在较早阶段就已投入了目前正在做的事情。因为2018年9月宣布的“AI Next”行动年,使得DARPA进入第三波AI:使机器更能够进行上下文推理并充当人类合作伙伴的角色。
以上两个报告显示,在当时DARPA就提出了一个很重要的内容,即智能化机器人的服务或者技能化机器人的工作。目前来说,我们现在所考虑到的制定规则导入数据得出它的参数和结果,或者是我们用数据的方式去测试参数的准确性,然后形成一些我们认为可行的规则。但这些智能机器的工作在遇到不可预知和未可判断的情况时,会产生怎样的判断结果呢?比如汽车行驶或者是坦克行使时,如果遇到不可预知的情况判断时,没有任何数据和规则要如何判断呢?或者是要去研究什么东西呢?这些内容是DARPA关注的核心问题。所以,DARPA此后还发布了一系列的报告,以上两个报告的核心内容是目前有待发展的课题。
大家知道,早期DARPA的网际网路研究,对后来的网络高速公路的政策,乃至全球互联网发展产生很大影响,那么,现在的人工智能计划,在将来也会产生广泛而深远的影响,这些内容值得我们关注。
AI仍有很多内容值得研究,许多人工学院专注于算法研究的核心是他们创造了一个很好的经验设计来迎合它的未来需求。我们所关注的更多是在最后应用和了解拿来做什么的阶段,但底层的核心跟真正工业核心的内容应该是相通的。除此之外,关于AI社交技能计划的原因和背景是一致的,还有很多的计划涵盖了更好的内容。
1.3 法国人工智能发展战略
2018年4月,法国就已经签署了一项关于能源和AI合作计划的声明(见图 3)。法国高等教育研究与创新部表明它希望能够实现一个几亿的投资,并且在这一投资之后还有3个战略和步骤,法国希望自己能够做这些工作的先行者。它的核心观念报告包括了6个内容,其中提到一个核心的牵头组织是国家信息自动化研究所。
图3 CEA和DOE签署意向声明
法国国家研究组织(ANR)启动了第九次DID项(见图 4),这一项目是军民两用项目,总计支持了16种类型的项目,其中还有两种是跨学科领域的,这两种跨学科领域项目之一就是关于大数据、数据挖掘和数据学习的,相关很多的计划都在朝这一方向发展。在规定范围之内这些信息都是可供检索的,也有一些相应的线索。
图4 第九次DID项目
1.4 德国人工智能发展战略
德国联邦政府宣布人工智能战略是在荷兰(2016年)之后,于2018年5月正式宣布。其实德国很早之前就已经做好相应的内容,目前提出的一个口号就是所谓的“AI Made in Germany”,这是这一任政府和下一任政府要强推的计划(见图 5)。
德国联邦政府通过AI战略追求的3个目标:(1)使德国和欧洲成为人工智能技术开发和应用的主要基地,确保德国未来的竞争力;(2)确保AI的开发和利用是在负责任的、针对公共利益的前提上;(3)在广泛的社会对话框架内,在社会的道德、法律、文化和制度中建立人工智能(见图 6)。
图 6 德国联邦政府AI战略的3个目标
德国联邦政府人工智能战略包含了3项重要内容:(1)使德国和欧洲成为人工智能技术开发和应用的主要基地;(2)以负责人的科研与创新以及功能利益为前提,这也影响了欧洲相关立法措施和政策法规等所有一系列内容,其核心问题在于可控,在此基础上的道德、法律、文化和制度均会有一些新情况。AI看似只是一个技术性的问题,但实际上它对社会的改变,已经深入到其他相关的哲学、法学等领域。这涉及到后续的一系列推广方式,包括组建国际专家小组继续推行品牌、使科学的主题尽量能够以AI为主,并希望提供机会和舞台吸引各研究所以及大学进行内容上的创新;(3)举办高校AI创新大赛,其根本目的就是让AI变得更为大家所用,这一部分也是目前研究的关键性问题和核心问题。
1.5 韩国人工智能发展战略
韩国发布的人工智能战略源于韩国总统和第四次产业革命委员会所公布的报告之中,其中有3个重要的核心内容:(1)技术的推进;(2)5000人才的预测;(3)关于400家中小企业能够可利用的计算能力。也就是说,韩国国家级计算能力公开以供他们的创新企业来使用。
1.6 英国人工智能发展战略
值得注意的是,英国是第一个较早建立数据伦理与创新中心的国家。英国所考虑的重点在于如果要进行AI如何持续产生优质的数据并且为大家所用。在这一过程当中涉及很多内容,而这一领域英国早有研究,至少在2012年,皇家学会提出开放科学是开放实验的报告前后就已经对此说明。目前是英国商业能源和工业战略部来提出并率先研究这一内容。英国商业能源和工业战略部(BEIS)于2018年11月20日宣布成立数据伦理与创新中心,强调为巩固英国作为人工智能研发领域世界领导者地位,政府已任命专家顾问作为董事会成员,该中心的成立是为了引领如何利用数据驱动技术为社会做出贡献的讨论,分析预测治理环境中的缺陷,同意并指导道德和创新数据使用的最佳实践,并就特定政策和监管措施的必要性向政府提出建议(见图 7)。
图7 Stellar新董事会被任命领导世界首个数据伦理与创新中心
英国在支持人才方面投入力度较大。英国商业能源和工业战略部(BEIS)于2018年10月31日承诺进一步投资英国快速增长的人工智能(AI)领域,宣布在预算之外,额外支持高达5千万英镑(见图 8),用来吸引世界人才和保留现有人才,日本也提出了相应的政策来保障人力资源。
图8 英国的人才支持政策
02
人工智能简介
现在绝大部分所处理的内容已经具有结构化文本的一些表现,或者是已经可以使用一些现有的技术更为方便的解决问题,而不需要利用很复杂的内容去处理。其实最早人工智能大致来说是这样一个流程:向量空间、特征表示、特征提取以及结构化的特征,就是将非结构化的东西与结构化的部分去做处理,但这一过程中会遇到一系列的问题,这也是为什么要花时间去处理后面代码问题的原因。
2.1 应用场景
在第一个识别的应用场景中输入部分图片或内容(见图 9),经过对于特征的分析,在线形成一些相应规则或是在不同的规则中找到相应的参数,从而做出判断,这是我们的目的。在此过程中,最终目标是希望做到分类和预测,因为这并不只是单纯AI的问题,这也涉及分类和预测的问题。在处理浅层问题时,需要对浅层数据进行表示,并对信号和数据进行抽取和处理。基于此就可以通过纬度上的处理把相应的数据量变成一个举证或者是数字方式计算而不是需要每一次在系统读取或是单独计算(见图 10)。
图9 模式识别的应用场景
图10 特征向量空间
2.2 解决方案
现有的一些方法是可以直接解决数据处理过程的,比如逻辑回归或是向量级的相关研究报告等,在2006年之前这两个方向在自动化的应用较多。但是,其局限在于,假如把它投射到一个向量特征空间里,且并不能用一个线性方式来处理时,这个情况就很难建立一个回归,这时只能用神经元的神经节点,在节点里选择一些线性或是修改的标准去逐层寻找进行分类或者分割的原则,这时的解决方案至少是可以用神经网络的解决方案来处理的(见图 11、图 12)。需要注意的是,这一解决过程中使用的公式或者相关内容是不同的,是有选择的,要用线性分类器进行一个点的分布。
图11 解决方案之采取“神经网络”的可能
图12 解决方案之从逻辑回归到神经元感知器的应用
在这一过程中主要解决准确性和复杂性的两难问题,因此早期主要经过两次高峰,经过了第一次的高峰后,到2007年有了第二次高峰。现在的解决方案是利用浅层神经网络到深度神经网络增加的方式来处理,即从左边到右边,左边是传统的解决方案,右边是目前所考虑的通过深度学习的方式去解决问题(见图 13、图 14、图 15)。前提条件一是数据,二是其他方面的内容(见图 16)。
图13 深度学习的解决方案之从浅层走向深度学习(1)
图14 深度学习的解决方案之从浅层走向深度学习(2)
图15 深度学习的解决方案之从浅层走向深度学习(3)
图16 深度学习的前提条件:计算能力的提供与普及
03
数据科学R与Python实践
第三部分与课堂和实际工作中所运用到的一些内容有关,手机上即可下载的集成系统,当用户的需求仅仅是做情报分析或者是分析可视化图片时,就不需要太考虑系统本身的问题。如果只是应用,可以考虑安装商用软件或是套装集成软件;如果比较想深入研究的话,可以考虑在直接安装和处理相应软件的过程中进一步了解和体会;如果已经到实践阶段或者是项目开发阶段,这是相对比较容易的,只要进一步了解代码是怎么写的,或者什么东西为我所用就好,这就需要选择合适的开发环境。
3.1 TensorFlow的安装与运行
TensorFlow使用计算图来表示计算任务。图中的节点代表数学运算,也可以表示数据的输入、输出和读写等操作。图中的边表示张量(Tensors),多维数组节点之间的某种联系。在安装TensorFlow时,可查看属性,在软件环境里不需要调试,只要选择相应版本即可,之后可用Anaconda加载安装TensorFlow的方式完成,或者可用Ipython选择TensorFlow,并列举一排关于TF相应程序的内容,然后即可自动安装(见图 17、图 18)。
如果仅做分析,了解尝试或接触,那么借此方式即可完成。然而,如果以充分学习的角度而言,不止通过集成环境下的安装,也可采用直接安装的方式,在不断试错跟解决问题中积累经验,在这个过程中了解其核心思想。从错误中总结经验,过程漫长但是收获会比较多,也不失为一种可靠的学习方式。
图17 利用Anaconda安装TensorFlow
图18 利用Ipython安装TensorFlow
整个环境准备中,字符部分自行的变化,可变成NP的一个文件,再通过调用文件来进行相关实验。在这个过程中有几个步骤:
首先是能够导入TF、NP和随机种子等内容,这是较为容易的一个程序(见图 19);
图19 环境准备之导入TP、NP、Regression logic 和随机种子
其次,在准备环境里导入数据和察看数据,因为数据分析的第一步就是知道数据长什么样子和自身需求是什么、考虑还有哪个分析方案,以及可能的替代方案,这是用第一个步骤必须考虑的。如果在查看的过程当中没有太大问题的话就可以直接应用。
最后,如果完全不了解情况,可以考虑在此环境打开之后去查询路径,两个路径的查询方法不一样,因为两个版本不一样,会稍微有点出入。总而言之,知道路径后要知道数据的摆放位置,直接使用这一工具把数据从U盘、从存储的位置移植,或修改该部分路径都可以做到,从而减少对结果的影响。
在环境准备中,需要确定工具路径和数据位置(图 20),通过查看数据,看数据是什么样的情况,数据本身应该是怎样的,就可以在接下来的操作过程中记得把原有序列关掉重新开启一个新对话,再进行接下来的设计和安排。
图20 环境准备之确认工作路径和数据位置
因为卷积神经网络是网络的一个层级结构(见图 21、图 22),虽然是一个卷积神经网络,但是功能和形式会有一些变化(见图 23)。它主要包括数据输入层、卷积计算层、Relu激励层、池化层、输出层这等,实际上的工作流程需要思考的路径应该是数据长什么样子?要解决的问题是什么?是否有更容易解决的方法?
图21 卷积神经网络的层级结构(1)
图22 卷积神经网络的层级结构(2)
图23 进行深层卷积神经网络的步骤
3.2 导入数据的程序和方法
导入数据的程序和方法,如果有机会的话可以直接从程序考虑,分块去观察和了解。其中有一个很重要的部分是拆分测试级和训练级,除了要去鉴定一个层级之外还要有一个卷积层的池化作用(见图 24),规定好最后希望能够在什么样的内容中实现扁平化卷积的输出;另一个很重要的内容就是要建立一个度量标准(图 25),在什么样的情况之下是可以输出的,怎么样的结果是可以被接受的,要先建立一个未来的标准再开始进行训练,这是科学研究以及工程检验的一个基础常识。如果我们只是通过几个字符去做判断是远远不够的,字符和图是转为数据的方式,然而分析的过程还需要实践经验的积累。实际上如果真正投入工作场景,在时间上还要考虑多次循环,最重要的就是需要一个运算体系。
此外,如果人们,例如企业或者研发团队,出于种种原因难以投入错误常识的经验积累的资源,那么他们就不知道这个业务会出现什么意外情况,从而,如果没有投入或者不做,就不会知道在未来创新方面等的问题,所以实践中才会发现很多以前在试验阶段或者模仿阶段没有遇到的问题,即使是老生常谈,但是这个观念在此一定需要传播给大家知道。
图24 池化
图25 建立度量标准
3.3 数据的储存和总结
我们可以把最终结果通过可视化的方式来呈现和评估,这就需要测试和查看输出的权重(见图 26),了解一下当时做的具体情况是什么;再来就是存储权重的相关信息,早期不管用什么样的模型,最后的部分其实都有一个很重要的权重,正如前文所言公示算法数据本身来说不是太大的问题,如果能够有很好的理论模型能够解决的话即可及时解决,难点是在于有些问题不知道权重。所以,在做完这一次的工作后要把权重的问题总结起来,这也是工作的核心内容之一,可以使用两种方式来进行存储,一个是系统上的,一个是Numpy的方式,还有就是直接存储数据(见图 27)。
图26 检查输出权重
图27 存储权重信息
04
企业应用案例
最后部分的内容源于一些网络案例,从中可了解其发展战略,包括上下文脉络的技术、趋势,AI诞生的原因,它要解决什么问题,它解决问题的步骤是什么等内容,在已有基础上再解读这一问题的时候就不会有太多的误解。
4.1 CuratedAI
在图景领域的第一个网站CuratedAI用AI的方法来提供创作诗歌和小说的服务(见图 28)。Digital Science Inc公司宣布“Paper Digest”服务会自动生成一些论文摘要,且可以免费进行测试。
图28 CuratedAI
4.2 Elsevier
Elsevier于2018年11月14日发布生命科学领域的“Entellect”数据科学平台,该平台基于云服务,允许用户使用Elsevier的数据和本体来组合和分析他们自己的数据。它主要是为生命科学领域而开发(见图 29)。Springer Nature出版了第一本机器生成的书,使用算法生成内容的方式,该算法被称为“Beta Writer”,由该公司与德国法兰克福大学的Johann Wolfgang Goethe应用计算语言学实验室合作开发。
图29 Entellect数据科学平台
4.3 CC Search
CC Search提供了一个社群,知识共享(CC)将能够在CC Search里一次搜索各种知识库中的知识共享许可下发布的图片内容,增加了来自英国科学博物馆等13家内容提供商的1000万张图片。该系统添加了新的人工智能(AI)生成标签,匿名身份验证可以在没有帐户的情况下共享内容和创建图像列表。
4.4 日本启动“翻译银行”机制
2017年9月8日,日本内政及通信部和国家信息通信技术研究所(NICT)正式启动“翻译银行”机制,通过收集100家机构的100万数据来做专业的翻译。为了使用模拟脑神经回路的神经网络进一步提高自动翻译技术的准确性,通过该系统积累和利用来自各个领域的翻译数据。该系统的目标是来自100个组织的总共100万个句子的数据积累,对于数据提供商,使用NICT自动翻译技术的许可费用负担将根据提供的数据量减少(见图 30)。
图30 日本启动翻译银行机制
4.5 韩国国会图书馆(NAL)提供AI决策支持服务
AI图书馆是在韩国提出来的,且于2015年就已经开始在用AI的方式为书店进行选书。2018年,韩国推出在没有图书馆员的情况下回答用户的提问,这不是基于原先的规则回答,而是基于AI的回答。当学生输入“没有学生证”时,它在3-4秒内提供一个学生证,这远比一般的图书馆反应速度要快,且它事先并没有一个规则或者程序来去处理这个事情。韩国国会图书馆(NAL)于2019年2月20日开始为图书馆用户提供“Argos”服务,它是一个智能的汇编信息融合分析系统,提供国会议员和工作人员“请问我任何事情”的对话机器人。该系统基于数据整合和分析议会支持所需的社交媒体数据,以及图书馆所持有的立法、政策和学术文献,并提供决策支持服务,包括分析国会内外的材料、确定问题和立法问题、可视化分析数据,并将其提供给国会议员和国会议员(见图 31)。
图31 韩国国会图书馆(NAL)提供AI决策支持服务
当前,人工智能以及成为各国经济社会的发展战略,对此开展的各种计划、研究以及管理机制的讨论越来越多。然而,我们应当保持谨慎的角度。今天的粗浅介绍,是我们团队的几个基础工作的简单介绍。
我们团队虽然是政策研究,但也从事人工智能的操作和试验,主要原因是对业务和技术需要掌握,才能充分开展政策研究,反之亦然。在政策研究团队里,需要具备一定程度的外语能力、法学以及专业领域知识,而不是依靠翻译器和几本教科书就能解读、吸收和思考问题,同时我们也要求自己能够深入一线业务去观察、分析和总结问题与经验,请教一线业务人员,提炼为政策研究的方案;更多时候,我们要求自己能够从事有关的工作一段时间之后,再去谨慎地摸索、请教和挖掘表面现象之后的规律性内容。经过各类专家论证后,提出可靠详实的内容。
以上就是本次分享的内容,欢迎讨论交流,谢谢!
本文经报告专家本人确认授权后发表
转载请联系编辑部并注明来源
未经报告专家许可,谢绝引用
编辑整理:孔晔晗、刘茜、郭世鑫
往期精彩报告推荐
会议报告|许哲平:面向学科领域的科学数据服务实践
学术报告|刘玉琴:文本挖掘与可视化软件Insight研发及其相关资源获取
会议报告|伍军红:世界学术期刊学术影响力指数与中国世界一流期刊建设布局建议
会议报告|王东波:BERT应用之学术全文本中被引作者识别
会议报告|邱均平:中国大学评价的理念、方法与结果分析
会议报告|裴雷:中国大数据政策的“数据画像”——一种基于政策承继网络的分析视角
会议报告|舒非:仅仅使用Web of Science能反映中国的科研产出吗?
会议报告|闫慧:数字公平:精准测量信息与技术的温度
学术报告|科研人员论文成果的计量评价: 困惑、问题与启示
论坛报告|顾立平:数据流动与转移的授权许可管理
论坛报告|寇远涛,张洁:支撑精准服务的农业科研用户画像研究与构建
论坛报告|刘敏娟:面向学科领域分析的数据集构建方法研究
论坛报告|王巍:数据多元化的存储使用及展示
论坛报告|屈宝强研究员:基于使用/重用的科学数据发现与评价
论坛报告|刘桂锋:国内外图书馆科研数据资源平台建设实践与探索
论坛报告|唐杰、王绍兰:知识驱动的科技情报挖掘
论坛报告|陈云伟研究员:科学计量与科技评价指标的科学应用
论坛报告|刘玉琴:国内外科技文本挖掘与可视化系统比较——ITGInsight定位与研发进展
论坛报告|杨思洛教授:Altmetrics背景下科研成果影响力评价
论坛报告|徐硕教授:新兴研究主题识别及预测研究
论坛报告|陈海青:智变|连接智能与商业—阿里小蜜智能人机交互实践
论坛报告|杜建:数据关联驱动的生物医学知识服务
论坛报告|王志春:基于表示学习的知识图谱实体对齐
论坛报告|崔运鹏研究员:认知搜索与知识发现关键技术研究
论坛报告|肖仰华教授:大数据时代的知识工程与知识管理
论坛报告|汪雪锋教授:大数据背景下技术预测研究进展探析
评论留言