IT时报 -V2 特别报道-
2特别报道
  • ·定义“AI未来”的灵魂

定义“AI未来”的灵魂

  

算法前
  沿 编者按
  人工智能下一站是哪里?深度学习还能红多久?机器动物何时能成为家庭宠物?
  2019世界人工智能大会上,聚齐全球最顶尖的科学家,共商AI的未来。
  他们的眼光,越过当下,落在那个AI与人类共存的未来。1 NELL:自我学习永不停止
  人工智能技术正以一日千里的速度向前发展。2016年,阿尔法狗战胜李世石时,人们还在讨论这种有监督的学习,到底能不能算真正智能,如今,无监督的人工智能NELL自动学习的数据已经超过2500万个。
  机器学习之父、卡耐基梅隆大学计算机学院院长汤姆·米切尔和他的团队,2010年便开始做一个项目——NELL(永恒语言学习)。
  NELL每天只做两件事:第一,24小时不停搜集网络上的公开内容,丰富结构化的事实和知识的知识库;第二,根据已有的文本和知识具备的知识抽取能力,优化自己的阅读能力,从而通过自我学习、自我标注,不断提升自我理解能力。汤姆认为,计算机是可以做到无监督学习的。
  所谓有监督学习,是指机器对标注过的数据进行训练,并将结果与预测结果进行比较后进行修正,而无监督学习,则更有点像人类,数据没有任何标注,也没有人告诉计算机,这个数据用来做什么,你的目的是什么,计算机只能自我学习。
  回溯NELL的“出生”,可能更利于人们了解它的模式。2010年,NELL刚开始时,汤姆放入了少量标注过的样本,比如饮料、人、植物、城市等,并加入了一定的关系说明,比如说人创建了公司,饮料是食物产生的等等,然后在此基础上,利用少量标注样本集合训练学习模型,再以此模型去标注更多样本。
  这些初始样本类似“种子”,NELL从它这里学到不同信息之间的关联,然后将已知的关系和本体进一步扩展,对没有事先标注的数据进行指导、分类,并纳入知识库。比如“枫叶的故乡是加拿大,多伦多是属于加拿大的一座城市”等等三元关系,都是在对海量、无意识的网络信息进行筛选,并不断和知识库里的知识进行叠加后,NELL自己得出的结论。
  “事实上计算机是可以做到无监督学习的,它们每天都在提升水平,”汤姆·米切尔表示。“我们从传统的单一函数学习框架扩展到了多函数,今天,我们已经拥有4000余种分类方法,1.2亿三元的数据知识库,实现了前所未有的准确性。”
2 深度森林:“非神经”的深度学习
“现在我们每天都在谈论深度学习,这种方法取得了巨大成功。但它到底是什么?为什么深比浅好?”南京大学计算机系主任、人工智能学院院长、欧洲科学院外籍院士周志华一直在思考一个问题,如果能搞懂深度学习到底做了什么,是不是能实现那些目的的算法,就是好算法。
满足三要素不一定非要神经网络
  “有一个错误的观点认为,现在AI成功是因为有强大的算力,只要把老算法放在新机器上就可以了,”周志华说道,“事实上,训练深层神经网络的算力在20世纪90年代就已经具备。但我们使用反向传播方法(bp算法)训练神经网络需要做梯度优化,否则就会出现梯度消失问题。直到2006年,Geoffrey Hinton才通过逐层训练的方法解决了这个问题。”
  周志华认为,目前主流的深度神经网络关键是,第一要有逐层的处理;第二要有特征的内部变化;第三,要有足够的模型复杂度。简单来说,就是当一张图片被计算机看到后,识别它的神经网络有很多层,最底层识别到的可能只是像素,慢慢有边缘,再往上有轮廓等等,模型不断往上寻找这张图片的特征,而这个辨识特征的模型是不断可以向上分层的,最终一张图可能被分成无数个特征点,每一层的函数计算可能很简单,但如果层级够深,一层嵌套一层,模型足够复杂,对图片的识别能力就越强。
  2012年ImageNet竞赛时,冠军只用了8层,到2016年已经可以做到1207层,现在更是超过了2000层,这是一个非常庞大的系统,深度神经网络对算力的需求可想而知。
  但反过来想,“只要做到这三点,我们就能做到一个好的深度神经网络。而更重要的结论是:这三点猜测没有说非要神经网络不可,我们可以研究神经网络之外的模型。”这是周志华和他的团队提出“深度森林”的根本理论基础。
“深度森林”首战:找出非法套现者
  “深度森林”也是深度学习的一种,但它并不是神经网络,是不使用BP算法训练的深度模型,而是基于决策树的深度模型。
  研究非神经网络的意义在于,“机器学习早就知道,没有任何一个模型可以包打天下。”周志华表示。
  而且从应用价值的角度讲,在图像、视频、语音之外的很多任务上,深度神经网络往往并非最佳选择,不少方面,比如符号建模、混合建模、离散建模等问题上,甚至表现不佳。“深度森林”模型得到的结果和深度神经网络高度相似,但和神经网络不同的是,它不需要手动调整模型参数,可以自适应模型复杂度,可以用同样一套参数,用在不同的任务中也不需要逐任务慢慢调参数,还可以根据数据的大小自动来判定该模型长到什么程度。
  这大大解决了神经网络的黑盒子问题,并提升了混合数据建模后的计算效果。周志华曾与国内某金融公司合作对判断“非法套现者”做了测试,需要做的是检测出欺诈行为的潜在风险,以避免不必要的经济损失。
  从此前相关论文中可以看到,在训练初期,测试组收集了四个方面的原始信息,包括描述身份信息的卖家特征和买家特征,描述交易信息的交易特征和历史交易特征。如此,每当一次交易发生时,就能收集到超过5000维的数据特征,其中包含了数值和分类特征,而且有大量符号化的数据。
  可想而知,原始数据的维度高达5000维,其中很可能包含一些不相关的特征属性,如果直接使用的话,整个训练过程将非常耗时,同时也将降低模型部署的效率。
  事实上,与之前最好的MART模型相比(由600个树结构构成的MART模型),深度森林模型(以MART模型为基础模块,每个ART模块只需200个树结构)能够以更简单的结构带来更显著的经济效益,大大降低了经济损失。
  不过,“深度森林在实验中做到21层就做不下去了,其中很大一部分原因在于没有找到适合加速的硬件,”周志华表示,“现代的智能应用需要框架和特殊硬件,从另一个角度来看,打破神经网络、GPU、TensorFlow等硬件和技术的垄断也可以降低智能化时代‘缺芯少魂’的风险。”