IT时报 -V3 特别报道-
3特别报道
  • ·秀的“小学毕业生”
  • ·AI开源框架:百度、旷视想对抗谷歌、脸书

秀的“小学毕业生”

深度学习“不是炼金术”AI还能学什么?

  

AI正在日常生活中渗透。无论是刷脸进门、机器人扫地还是和智能音箱对话,这些应用均可归类于人工智能的语音和图像识别。的确,这一代人工智能的发展建立于AI对人类感知的模仿。这得益于人工智能背后的深度学习,通过神经网络层层分类信息。“只是现在AI还在弱智能阶段,要让机器解决问题,首先需要人工定义问题和机制,转化为数学模型,并通过数据训练模型。”在一位阿里系技术人员看来,如今的AI只能映射,还无法产生联想,机器具备真实推理能力仍是人工智能的发展局限。深度学习需要依赖海量的数据,与此同时,这一代人工智能的应用带来了对隐私、数据安全的担忧。还有没有针对这两个困局的更好解决方法?今年WAIC 2020上,联邦学习、迁移学习是两大热词,AI算法的演进版,在很多领域已经落地,他们为什么能解决深度学习的困境?《IT时报》记者一路探寻。
IT时报记者 孙鹏飞钱奕昀
联邦学习:隐秘的数据公开的模型
  你的人脸信息,5毛一份。这是日前新华社记者在网络黑市上发现的非法买卖。一时刷遍朋友圈。
  当人们越来越依赖于刷脸支付,但如果这些生物信息被泄露给不法分子,加之你的身份证、银行卡信息也被暴露,大众难免担心信息泄露的后果。
  A方收集数据,B方清洗数据,转移到C方建模训练,最终卖给D方使用,每个环节都有着数据泄露隐患。
  颇有预见性的,这一届世界人工智能大会上,联邦学习被屡次提及,它最大的特征是数据信息不离开本地设备,所谓“数据不出域”,但可以加密上传训练模型,服务器端综合各自模型之后,再反馈给用户模型改进方案。
  AI技术人员杨建国认为,如果将传统的AI深度学习看作是一场开卷考,那么联邦学习是AI的一场闭卷考,以利用“隐秘”数据为前提。
  万向区块链研究院院长肖风曾在世界人工智能大会上分享,区块链技术的溯源特性能有效监控数据的使用权,一旦数据被泄露,信息将被记录。这暗示区块链技术在联邦学习中的可能。
  那么,区块链技术是否已在AI领域使用?
  一位温州某区块链企业CEO胡松(化名)告诉《IT时报》记者,目前区块链还没有在实际应用上与AI结合,仍在理论和概念阶段,“近期区块链行业比较沉默,老的故事还没有应用,新的突破性概念还未诞生。”
  遗憾的是,在和多位采访对象沟通中,《IT时报》记者发现,受限于“看不到的数据”,多家AI企业并不愿应用联邦学习。“联邦学习可以使用一般机器学习能使用的所有算法,但需要额外加一些技术来满足‘闭卷’的需求。”因此,杨建国认为,除了数据隐私安全,目前一般机器学习存在的缺陷,联邦学习无能为力。
  沪上一位AI算法研究人员认为,联邦学习在训练模型时可能出现不收敛的问题,构建的模型或许并不是最优解。在实际运用中,联邦学习对AI企业在终端数据之间的通信和计算开销有一定要求。此外,联邦学习在面对隐私的攻击时可能存在安全漏洞,也无法较好控制学习时所使用的数据质量。这些均是联邦学习的缺陷。
  不过,杨建国对此仍有期许,他看到联邦学习的研究和技术在不断扩展,这是积极的一面。
迁移学习:用小样本快速得出答案
  “你认为哪种机器学习方式可能会成为未来的主流?”当《IT时报》记者向多位AI行业的技术人士抛出这一问题时,多位采访对象均将目光瞄向迁移学习。
  韩林(化名)是一位医学影像视觉深度学习的AI技术人员,疫情期间他利用百度飞桨开发了能快速识别新冠病症的AI模型。“飞桨上有100万分类的图像预训练模型,利用这个模型,调整不同的初始化权重,通过迁移学习,能够改善最终准确率。”在韩林看来,对开发者而言,迁移学习省去了从头开始训练的时间。
  新冠疫情下,各大医院紧急投入“AI阅片”,在上海计算机软件技术开发中心人工智能技术研究应用与测评团队负责人陈敏刚看来,正是通过将新冠肺炎病人的CT加入到经过大量训练的病毒性肺炎CT影像模型,经过模型精调得出的成果。这个过程,便是迁移学习。“当前针对小样本的深度学习,主要依靠迁移学习的方法。”陈敏说。
  微众银行首席人工智能官杨强曾在一次公开演讲中表示,在云端用户群中,每台手机其实是一个用户,用户和特征没有重叠性,可以在保证隐私安全的条件下进行迁移学习。
  但迁移学习并不是万能的。韩林告诉《IT时报》记者,如果没有一个和开发者所需相近的模型,开发者依然要面临从零开始做模型训练的困境。“能有一套针对小数据样本的准确算法一直是行业中的大难题。”一位某互联网巨头公司的AI技术人员直言。“围绕数据量不足的情况”,是杨建国认为人工智能未来发展主攻方向。
对抗学习:为AI设置“陷阱”以假乱真
  以子之矛,攻子之盾。
  当大众惊叹于AI功能强大的同时,也常常被AI的误识别而震惊。一副带有色块的眼镜能骗过人工智能,一张带有色块的阿尔卑斯山图片能让AI误认为是一条大黄狗。
  由于深度学习是黑箱算法,技术人员无法分析出为何AI技术走偏的原因。但韩林认为,这些问题很有价值。这便是对抗学习(GAN)。
  所谓GAN,是指在训练过程中,生成网络G的目标是尽量生成真实的图片去欺骗判别网络D。而D的目标就是尽量把G生成的图片和真实的图片分别开来。这样,G和D动态博弈,彼此在对抗中训练能力。如果G骗过了D,那么就可以生成一张足以以假乱真的图片。“如果知道有色块眼镜可以欺骗机器算法,技术人员可以通过调整解决问题。如今人脸识别对用户的姿势和光照有比较严格要求,为的是防止人脸面具欺骗系统的事件再次产生。”韩林说。
  在韩林看来,将深度学习中的一些非关键应用转向关键应用,对抗问题将会越来越受到重视。“如果把视觉识别运用到无人驾驶汽车上,行人只要戴上一副眼镜便无法被系统识别,你认为厂商会不重视吗?”他反问道。
  但这是否意味着一轮轮的技术鸿沟。AI是否能够解决道高一尺魔高一丈的困境?“当前人工智能还是依赖于大数据和高算力,从弱智能时代到进一步发展,仍是一条漫长的路。”前述沪上AI算法技术人员总结道。