1 将深度学习、强化学习和迁移学习有机结合的研究 - 电子电路图,电子技术资料网站 - 德赢Vwin官网

您好,欢迎来德赢Vwin官网 网! ,新用户?[免费注册]

您的位置:德赢Vwin官网 网>源码下载>数值算法/人工智能>

将深度学习、强化学习和迁移学习有机结合的研究

大小:0.6 MB 人气: 2017-10-09 需要积分:1
作为首位美国人工智能协会(AAAI)华人Fellow,唯一AAAI华人Councilor,国际顶级学术会议KDD、IJCAI等大会主席,香港科技大学计算机与工程系主任杨强教授在国内外机器学习界声誉卓著。在此前接受CSDN采访时,杨强介绍了他目前的主要工作——致力于一个将深度学习、强化学习和迁移学习有机结合的Reinforcement Transfer Learning(RTL)体系的研究。那么,这个技术框架对工业界的实际应用有什么用的实际意义?在本文中,CSDN结合杨强的另外一个身份——国内人工智能创业公司第四范式首席科学家进行解读。
  第四范式是原百度T10专家、杨强的弟子、迁移学习大牛戴文渊创立的公司,最初的定位是数据量丰富并且业务极为依赖数字化的金融领域,杨强在学术之余希望推广人工智能技术在国内的发展,参与了第四范式的创业。该公司最近发布了一个先知平台,自动化、智能化的机器学习全流程为一大卖点,核心技术就是RTL。
  参与创业的初衷
  CSDN:您之所以参加第四范式的创业,除了师生关系,还有其他的驱动因素?
  杨强:其实我们一直热衷于一件事:让我们的技术走向社会,我们一直在研究人工智能和迁移学习,另外我们也看到了很多大公司的局限,很多大公司有自己的想法和目标,一个研究者并不能百分之百地发挥自己的想象力,所以我们就想自己做一个有情怀的公司,来支持我们自己做一些想做的事情。一个很好的例子就是Google的Deepmind,就是做他们想做的事情,这对我们来说是一个更重要的启发。
  我的工作涉及设计算法,包括强化学习、迁移学习的算法,在工程方面团队有很多优秀的工程师已经在大公司受过很多的磨炼,所以我们是互补的。
  CSDN:第四范式公开介绍的核心技术,包括您说到的深度学习、迁移学习、强化学习,还有一个记忆网络,第四范式的技术体系和您研究的RTL体系是完全一致的吗?
  杨强:是一致的,当然是不是完全使用还看具体场景。我们比较认可的是强化学习、迁移学习,当用不同的结构把它们给组合起来,就是一种很新的好的学习方式。这种方式在现在还不是很流行,我们预计在今后几年都会用起来,也会通过我们的平台推动起来。
  深度学习的局限
  CSDN:您如何看待深度学习的优势和局限?
  杨强:深度学习的局限来自于几个方面:
  表达能力的限制。因为一个模型毕竟是一种现实的反映,等于是现实的镜像,它能够描述现实的能力越强就越准确,而机器学习都是用变量来描述世界的,它的变量数是有限的,深度学习的深度也是有限的。另外它对数据的需求量随着模型的增大而增大,但现实中有那么多高质量数据的情况还不多。所以一方面是数据量,一方面是数据里面的变量、数据的复杂度,深度学习来描述数据的复杂度还不够复杂。
  缺乏反馈机制。目前深度学习对图像识别、语音识别等问题来说是最好的,但是对其他的问题并不是最好的,特别是有延迟反馈的问题,例如机器人的行动,AlphaGo下围棋也不是深度学习包打所有的,它还有强化学习的一部分,反馈是直到最后那一步才知道你的输赢。还有很多其他的学习任务都不一定是深度学习才能来完成的。
  CSDN:微软的深度残差网络是不是能解决表达能力的问题?
  杨强:那是一个很好的跃进,它的层数也很多,表达能力很显然往前推进了很多。但即使如此,它也没有解决所有的表达的问题。因为它增加的是层数、层和层之间的连接数,而不是变量数,所以在变量数上还是有局限的。我们认为深度稀疏网络在变量数的容纳能力方面更强。
  CSDN:迁移学习能解决哪些问题?
  杨强:它主要解决两个问题。
  小数据的问题。比方说我们新开一个网店,卖一种新的糕点,我们没有任何的数据,就无法建立模型对用户进行推荐。但用户买一个东西会反应到用户可能还会买另外一个东西,所以如果知道用户在另外一个领域,比方说买饮料,已经有了很多很多的数据,利用这些数据建了一个模型,就知道用户饮料的习惯和糕点的习惯可能是有关联的,我们就可以把饮料的推荐模型给成功地迁移到糕点的领域,使得对于糕点随着数据不多,但是可以成功的推荐一些用户可能喜欢的糕点。这个例子就说明了我们有两个领域,一个领域已经有很多的数据,能成功地建一个模型,有一个领域数据不多,但是和前面那个领域是关联的,我们就可以把那个模型给迁移过来。
  个性化的问题,我们每个人都希望自己的手机能够记住我们的一些习惯,这样不用我们每次都去设定它,我们怎么才能让手机记住这一点呢?其实可以通过迁移学习把一个通用用户的使用手机的模型迁移到个性化的数据上面,我想这种以后会越来越多。其实在硅谷的关键词就是个性化。
  RTL的实践
  CSDN:第四范式的官方介绍是有100多个案例,不知道您参与了多少,强化学习和迁移学习遇到的实际的问题是什么?
  杨强:我不能一一地说,但有几个关键的我参与了,这里面用了很多不同的机器学习的算法,深度学习和强化学习只是其中的一部分。我要说的一点是,我们在公司建立的初期用得比较多的就是大规模逻辑回归和深度学习。即使加上深度学习,这个学习模式也有它的缺陷——在很多情况下我们得到的反馈是延迟的,这种延迟反馈是深度学习所不能解决的。我们就引入了强化学习来解决它,是有一种自我学习的过程,类似AlphaGo自我对弈,不断地提高。迁移学习,比方说我们在一个金融领域已经建立了一个很好的模型,但我们遇到了一个新的领域怎么办呢?解决所谓的冷启动问题就是利用迁移学习,当数据收集得足够多了以后,我们再改用深度学习。
  强化学习
  CSDN:强化学习的应用应该关注哪些方面呢?
  杨强:强化学习的应用其实很广,最开始应用是在机器人上的应用,比方说你告诉Google AlphaGo到冰箱里给我拿一瓶牛奶过来,AlphaGo就不会,那个路径的编程和怎么样打开冰箱都需要人写到程序里。怎么才能学会呢?这就需要强化学习来做,你让他试很多次,有时候拿到有时候没有拿到,有时候通过例子,让强化学习的方法学习优化的路径,所以一开始强化学习是在机器人的路径规划和任务完成上来进行的,但最近就发现,原来强化学习的应用面特别广,可以用在很多反馈上,但这个反馈不是马上可以得到的,比如说金融就是一个例子,医疗也是一个例子,对药品和医疗方案的反馈,然后包括教育都是很好的例子。
  CSDN:我们用到的Q Learning?
  杨强:用到了。但现在比较流行的做法是Deep Q Learning。
  CSDN:关于扩张和探索平衡您有什么样的见解?
  杨强:扩张和探索这个平衡一直是强化学习里面的一个大难题,现在没有特别好的通用做法,应该在不同的领域有不同的思路,在围棋领域尤其明显,比方说树搜索的宽度和深度之间就是一个平衡,但这个平衡AlphaGo做得很好。所以可能在机器人的领域,也需要引入这样的一个平衡点,这个平衡点也是需要去学习的。
  迁移学习
  CSDN:目前迁移能做到从金融领域迁移到其他领域么?
  杨强:跨领域是比较难的,一般是比领域里不同的业务之间做迁移,跨领域在学术界有做的,比方说网络搜索可以迁移到推荐,图象识别可以迁移到文本识别,这些在学术界都有不错的工作,但是真的把它应用到工业界,还是拭目以待。
  CSDN:难点在哪里?
  杨强:跨领域的时候我们需要另外的一种数据来帮助我们,那种数据就是在两个领域之间的桥梁数据,把它们衔接起来,这种数据往往在工业界中是隐式的,往往是在人的脑袋里,没有被记录下来的。所以我说人工智能的发展还在很初级的阶段,我们没有连成片而是一个一个申请在打,到了我们能连成片的阶段那时候有新的成果出来,会是一加一大于二的结果。
  CSDN:在每个行业都有一定的成熟的应用之后才能真正用起来是么?
  杨强:对,这个是要有耐心和足够的积累才可以发现不同领域之间的关联。以医疗企业举例,在基因检测领域已经有了很多的数据,体验有了很多的数据,但毕竟基因检测和体检是两个不同的领域,所以他们之间的关联很少,但当我们有了用户的行为数据,对用户有长期的跟踪,这样就可以把这两个数据关联起来了,有了这个我们就可以把两个领域都关联起来。
  CSDN:除此之外迁移学习还需要关注哪些问题?
  杨强:实际中是有做的,举一个例子,比方说我们知道在室外有GPS,室内没有,怎么办呢?我们要定位一个很大的商场,现在有一个办法是用Wifi来定位,一个做法是拿一个手机、APP收集很多的信号数据,再拿这个来训练,但这个数据很容易偏,这个数据收集的时候和下一个分布是不一样的,我们是不是要重新地收集一遍?那样太麻烦了,不可能每个小时收集一遍室内的数据,所以我们的做法是收集一遍,过后用迁移学习把偏差给做掉,利用点到点的距离,利用校正的方法,在迁移学习里有一个算法也是我们发明的,就叫做加权法,就是对过去的数据加权,使得过去数据和现在数据比较相近的那些数据的权重比较大,比较远的数据的权重逐渐变小,在迭代多次以后,剩下的数据就是跟现在的数据类似的数据了,所以这种做法我们觉得行之有效。现在我们在室内定位的领域做了很多的实践,同时我要说明这也是一种学术的做法,因为室内定位还不是到工业的水平,我们也在做各种尝试,用机器学习。
  先知平台
  CSDN:今天谈到了先知的平台型的产品,我不了解我们用的技术和其他的产品不一样的话,我们跟IBM、谷歌、微软他们的一些服务或者是一些API有什么本质的区别呢?
  杨强:首先这是在一个金融领域诞生的,所以应该是对金融领域是特别适用的,金融领域的几个特点是其他的几个通用的云平台所不提供的。首先是变量特别多、问题特别复杂,然后是以流的形式输入的,流的量也特别多,transection(音)的数量也特别多,另外有很多噪音,有很多的mission data(音),并不是所有的数据都跟它有反馈在一起,这说明在金融领域我们这个是最有效的。当然,通用型的也很有必要,像Amazon、像微软他们更趋向于通用型的云平台。
  CSDN:金融人工智能的两个常见场景,是风控和精准营销,能不能介绍其他的场景?
  杨强:风控和营销是现在第四范式比较成功的场景,已经有很重要的客户来买单了,这个本身就不容易,因为在金融领域对这些IT公司的要求是比较高的,我觉得再往下应该还有一些机会点,比方说一个机会点就是投资顾问,理财产品,怎么样能够让公司在第一线而不是在后台能够为投资人或者是理财人提供建议、提供顾问,这可能是一个比较重要的点。第二个点可能是文本的挖掘,公司的财报,社会网络的舆情都会对整个市场有影响,那么投资市场是怎样受到这些报道和新闻的影响的?这个规律是可以通过自然语言学习来得到的,这一点也是以后的一个机会点。
  CSDN:先知平台关注应用开发和算法开发,能介绍一下您能解决算法开发的哪些问题么?
  杨强:我们有几个重要的工作。
  第一是如何能够建立一个算法库和算法图书馆来帮助数据底层的清洗问题,因为到了实际中会发现,数据和数据之间有很多的孤岛,孤岛和孤岛之间的连接很难,因为有很多数据是缺失的。另外还会有很多错误数据,如何能够把数据改进和连接,这些都是数据清洗的一个范畴,所以对应这些问题就需要建立很多的算法库,这是第一个问题。
  第二个问题是建立了算法库以后要把它归一到机器学习算法所需要的输入格式,这种叫做数据转换,这也是一个脏活、累活,很多算法公司不屑去做的,在实际应用中我们发现这些活其实占了整个流程的80%,所以某种程度上重要如何能让算法更快更有效更及时,并且能够在线地对到来的数据进行分析,建立模型,所以建模这个是第三个层次。第四个层次就是刚才说的强化学习的层次,能够让系统自学习而不是通过人来驱动,能通过它的错误和做对的地方,能够对它整个的流程进行补充、修正,所以是从下到上的四个阶段。
  CSDN:数据免清洗是怎么做到的?
  杨强:是因为数据里面有很多清洗的模块,然后很多清洗的动作一开始是由人来做的,人操纵这些模块,拿这些工具,但当这种例子多了以后我们就可以把这些例子作为机器学习的一个输入,学会一个模型又那个模型来模仿人来做。
  CSDN:这是一个通用的还是需要跟具体的业务做结合?
  杨强:这个要跟具体的业务做结合,因为不同的业务对质量的定义是不一样的,有些认为这些数据里面确实有很多,有些应用就觉得不多。
  CSDN:具体业务的数据上数据能支持输入需求么?
  杨强:在成功的案例上,从量的上面从质的上面都可以,但我们要发现里面有很多人的聪明才智是在里面的,也就是说数据科学家的作用,也是不可或缺的,怎么能让领域科学家把自己的经验转化成数据科学家的编程的动作。举一个例子,你要用深度学习模型会产生很多的特征,但原始的特征提供的特征得包含那些,才能够产生次生的特征,那么我们包括了哪些特征来到原始数据里?就需要人的直觉和聪明才智,需要数据科学家和领域科学家的沟通。
  解决人才的难题
  CSDN:您强调了数据科学家的作用。机器学习领域目前有很多公开的论文,和开源的算法、开源的库/框架,我们的人才为什么还是稀缺的?
  杨强:这就是刚才说的脏活、累活大家都不愿意去做,因为发表文章和看法是很光荣的事,所以大家都集中在那边了。我对业界的呼吁也是希望大家能够把身段放下来,做一些基本数据的处理,把重点放在底层。这也是为什么第四范式真的是在做一些最基本的工作,而不是从第一天开始就急着做一些很上镜的一些事情。
  小结
  杨强认为,迁移学习应用的成熟是一个循序渐进的过程,预计RTL在今后几年的应用将会更加成熟。
  事实上,强化学习和迁移学习已经越来越受欢迎。中国工程院院士、中国人工智能学会理事长李德毅对“驾驶脑”的研究,就强调了反馈机制,除了将CNN用于形式化,采用强化学习的理念使驾驶脑越来越聪明也是一个特色。,以提升学习效率。而在微软研究院首席研究员俞栋与邓力合著的《解析深度学习:语音识别实践》一书中,多任务和迁移学习也占据了很大的篇幅。这表明,在深度学习最擅长的领域,强化学习和迁移学习依然有重要意义,深度学习也需要与这些算法结合使用。不过,杨强表示,之所以是RTL而不是DRTL,是因为并不是深度学习。
 

非常好我支持^.^

(0) 0%

不好我反对

(0) 0%

      发表评论

      用户评论
      评价:好评中评差评

      发表评论,获取积分! 请遵守相关规定!