定义“AI未来”的灵魂

2特别报道

·定义“AI未来”的灵魂

定义“AI未来”的灵魂

算法前
　　沿编者按
　　人工智能下一站是哪里？深度学习还能红多久？机器动物何时能成为家庭宠物？
　　2019世界人工智能大会上，聚齐全球最顶尖的科学家，共商AI的未来。
　　他们的眼光，越过当下，落在那个AI与人类共存的未来。1 NELL：自我学习永不停止
　　人工智能技术正以一日千里的速度向前发展。2016年，阿尔法狗战胜李世石时，人们还在讨论这种有监督的学习，到底能不能算真正智能，如今，无监督的人工智能NELL自动学习的数据已经超过2500万个。
　　机器学习之父、卡耐基梅隆大学计算机学院院长汤姆·米切尔和他的团队，2010年便开始做一个项目——NELL（永恒语言学习）。
　　NELL每天只做两件事：第一，24小时不停搜集网络上的公开内容，丰富结构化的事实和知识的知识库；第二,根据已有的文本和知识具备的知识抽取能力，优化自己的阅读能力，从而通过自我学习、自我标注，不断提升自我理解能力。汤姆认为，计算机是可以做到无监督学习的。
　　所谓有监督学习，是指机器对标注过的数据进行训练，并将结果与预测结果进行比较后进行修正，而无监督学习，则更有点像人类，数据没有任何标注，也没有人告诉计算机，这个数据用来做什么，你的目的是什么，计算机只能自我学习。
　　回溯NELL的“出生”，可能更利于人们了解它的模式。2010年，NELL刚开始时，汤姆放入了少量标注过的样本，比如饮料、人、植物、城市等，并加入了一定的关系说明，比如说人创建了公司，饮料是食物产生的等等，然后在此基础上，利用少量标注样本集合训练学习模型，再以此模型去标注更多样本。
　　这些初始样本类似“种子”，NELL从它这里学到不同信息之间的关联，然后将已知的关系和本体进一步扩展，对没有事先标注的数据进行指导、分类，并纳入知识库。比如“枫叶的故乡是加拿大，多伦多是属于加拿大的一座城市”等等三元关系，都是在对海量、无意识的网络信息进行筛选,并不断和知识库里的知识进行叠加后，NELL自己得出的结论。
　　“事实上计算机是可以做到无监督学习的，它们每天都在提升水平，”汤姆·米切尔表示。“我们从传统的单一函数学习框架扩展到了多函数，今天，我们已经拥有4000余种分类方法，1.2亿三元的数据知识库，实现了前所未有的准确性。”2 深度森林：“非神经”的深度学习
“现在我们每天都在谈论深度学习，这种方法取得了巨大成功。但它到底是什么？为什么深比浅好？”南京大学计算机系主任、人工智能学院院长、欧洲科学院外籍院士周志华一直在思考一个问题，如果能搞懂深度学习到底做了什么，是不是能实现那些目的的算法，就是好算法。
满足三要素不一定非要神经网络
　　“有一个错误的观点认为，现在AI成功是因为有强大的算力，只要把老算法放在新机器上就可以了，”周志华说道，“事实上，训练深层神经网络的算力在20世纪90年代就已经具备。但我们使用反向传播方法（bp算法）训练神经网络需要做梯度优化，否则就会出现梯度消失问题。直到2006年，Geoffrey Hinton才通过逐层训练的方法解决了这个问题。”
　　周志华认为，目前主流的深度神经网络关键是，第一要有逐层的处理；第二要有特征的内部变化；第三，要有足够的模型复杂度。简单来说，就是当一张图片被计算机看到后，识别它的神经网络有很多层，最底层识别到的可能只是像素，慢慢有边缘，再往上有轮廓等等，模型不断往上寻找这张图片的特征，而这个辨识特征的模型是不断可以向上分层的，最终一张图可能被分成无数个特征点，每一层的函数计算可能很简单，但如果层级够深，一层嵌套一层，模型足够复杂，对图片的识别能力就越强。
　　2012年ImageNet竞赛时，冠军只用了8层，到2016年已经可以做到1207层，现在更是超过了2000层，这是一个非常庞大的系统，深度神经网络对算力的需求可想而知。
　　但反过来想，“只要做到这三点，我们就能做到一个好的深度神经网络。而更重要的结论是：这三点猜测没有说非要神经网络不可，我们可以研究神经网络之外的模型。”这是周志华和他的团队提出“深度森林”的根本理论基础。
“深度森林”首战：找出非法套现者
　　“深度森林”也是深度学习的一种，但它并不是神经网络，是不使用BP算法训练的深度模型，而是基于决策树的深度模型。
　　研究非神经网络的意义在于，“机器学习早就知道，没有任何一个模型可以包打天下。”周志华表示。
　　而且从应用价值的角度讲，在图像、视频、语音之外的很多任务上，深度神经网络往往并非最佳选择，不少方面，比如符号建模、混合建模、离散建模等问题上，甚至表现不佳。“深度森林”模型得到的结果和深度神经网络高度相似，但和神经网络不同的是，它不需要手动调整模型参数，可以自适应模型复杂度，可以用同样一套参数，用在不同的任务中也不需要逐任务慢慢调参数，还可以根据数据的大小自动来判定该模型长到什么程度。
　　这大大解决了神经网络的黑盒子问题，并提升了混合数据建模后的计算效果。周志华曾与国内某金融公司合作对判断“非法套现者”做了测试，需要做的是检测出欺诈行为的潜在风险，以避免不必要的经济损失。
　　从此前相关论文中可以看到，在训练初期，测试组收集了四个方面的原始信息，包括描述身份信息的卖家特征和买家特征，描述交易信息的交易特征和历史交易特征。如此，每当一次交易发生时，就能收集到超过5000维的数据特征，其中包含了数值和分类特征，而且有大量符号化的数据。
　　可想而知，原始数据的维度高达5000维，其中很可能包含一些不相关的特征属性，如果直接使用的话，整个训练过程将非常耗时，同时也将降低模型部署的效率。
　　事实上，与之前最好的MART模型相比(由600个树结构构成的MART模型)，深度森林模型(以MART模型为基础模块，每个ART模块只需200个树结构)能够以更简单的结构带来更显著的经济效益，大大降低了经济损失。
　　不过，“深度森林在实验中做到21层就做不下去了，其中很大一部分原因在于没有找到适合加速的硬件，”周志华表示，“现代的智能应用需要框架和特殊硬件，从另一个角度来看，打破神经网络、GPU、TensorFlow等硬件和技术的垄断也可以降低智能化时代‘缺芯少魂’的风险。”