“AI新基建”破土挑战谷歌、Facebook

4新闻产业

·“AI新基建”破土挑战谷歌、Facebook

清华、旷视、华为先后宣布开源，国产深度学习框架涌入“新玩家”

“AI新基建”破土挑战谷歌、Facebook

IT时报见习记者钱奕昀
　　人工智能的创新是一场无限冒险的游戏。在这场冒险游戏里，玩家越多，过程也注定越精彩。
　　2020年一季度的收尾，人工智能界掀起了一波小浪潮。十天之内，三个国内深度学习框架接连宣布开源：3月21日，清华团队宣布开源计图Jittor；3月25日，旷视宣布开源天元MegEngine；3月28日，华为宣布开源MindSpore。
　　旷视联合创始人兼CTO唐文斌曾形容：“如果把人工智能比作炒菜，那么数据就像原材料，算法里的框架就像炒菜的那口锅，来承载这些原材料，而算力就像炒菜时的猛火。”可见深度学习框架在人工智能中的“基建”地位。
　　近年来，深度学习框架开源市场几乎被谷歌的TensorFlow和Facebook的PyTorch所垄断。放眼国内，除百度、阿里、腾讯、华为、旷视、商汤、云从、合合等公司拥有其自研框架外，大部分AI公司都采用开源框架进行开发。相比国外开源市场的“两家独大，百花齐放”，国内的通用开源框架只有百度的PaddlePaddle飞桨。
　　而此次开源框架市场一下子涌入3个“新玩家”，不得不说为这场冒险游戏增添了新的可能。尽管结果未知，但它们无疑为中国人工智能市场注入了一剂强心剂。
三大国产AI框架有何优势？
　　计图Jittor来自清华大学计算机系，是国内首个来自高校的开源深度学习框架。“这不免让人联想到，当年清华毕业生贾扬清在加州大学伯克利分校攻读博士期间创立的知名深度学习框架Caffe。”一位业内人士感叹。
　　“Jittor对标的是学术型框架Py⁃Torch。从前端看，Jittor支持的计算机语言与PyTorch相同，从后端看，二者都是动态图框架。PyTorch和Python的语法非常相似，使用Python开发的学习成本很低；而动态图能使开发者在构建模型的同时运行，及时看到结果。这两点使得PyTorch在学术界更为流行。而从Jittor的计算性能看，有些性能指标甚至超过了PyTorch。”上海计算机软件技术开发中心人工智能技术研究应用与测评团队负责人陈敏刚说。
　　CPU和GPU内存统一管理也是Jit⁃tor的优势之一。“非统一管理下，GPU显存不够时，就可能出现程序崩溃，或者需要调用多台计算单元来解决。统一管理下，GPU显存不够时，会自动实现GPU和CPU内存的数据迁移，相当于手机没电后，还能依靠备用电池运行。”陈敏刚解释，Jittor打开了我国学术界深度学习框架开源的先河，“作为高校，推出这样的开源框架是非常值得尊敬的。这种科研的重工业模式，为高校科研的多元化提供了思考。”
　　相比清华Jittor，旷视MegEngine则对标于工业级的TensorFlow。在上海聪链信息科技有限公司创始人丁强看来，旷视在视觉识别领域的优势，使得MegEngine更适用于此类应用场景的开发。“MegEngine大概率会围绕该框架开源其一系列前沿的科研成果，比如detec⁃tion方向的各种预训练模型，这样自然会吸引研究detection的科研人员去使用它，发展它。”同为“计算机视觉四小龙”之一的云从科技技术相关负责人张先（化名）表示。
　　华为MindSpore定位为“全场景AI计算框架”。丁强认为，和手机操作系统一样，AI框架也是生态与技术融合的产物，未来的全场景深度学习框架可能发展成寡头竞争的市场。华为的软硬件系统和生态优势，使其有望成为云管端全场景深度学习框架的有力竞争者。
　　相比TensorFlow主要支持GPU、TPU处理器加速深度学习训练与推断，Mind⁃Spore不仅支持GPU，还能够与华为生态中的昇腾910 AI处理器适配，更高效地利用算力。
　　张先认为，MindSpore给人最大的惊喜是算子粒度的“自动并行化”，“华为宣称框架能根据算子的特点和可见的资源，来自动选择并行方式：数据并行、模型并行、流水线并行甚至混合并行。这是当下独一无二的创新，并且具备巨大的实际价值。”
生态之路还需星火燎原
　　任何一个开源产品，用户的使用与反馈是助其迭代完善的最重要因素。尽管三大框架拥有各自优势，但是如何在现有框架中突出重围，吸引用户，仍是它们面临的主要难题。“作为拥有自研框架研发能力的大型企业，一般不会使用友商推出的开源框架，但不排除会参与到框架的测试中。”张先表示，云从科技会测试，但不会使用新的开源框架，因为一般自有框架性能比开源更适合和更高效。目前，云从自研的深度学习框架集成在人机协同平台中，通过平台可以快速进行算法到具体行业应用的生产和处理，尤其擅长应对特大规模的分布式任务。
　　推出“名片全能王”App的合合信息同样正在使用自研AI框架。合合信息表示，他们也会拥抱新技术，如果将来有合适的机会，会将外部开源的框架和自研的框架相结合。在评估开源框架时，社区生态、框架的可扩展性、并行化执行效率是他们重点考虑的因素。
　　对于大部分使用开源框架的企业，新框架面临的机遇与壁垒是一把双刃剑。部分企业表示，服务用户是他们的首要目标，一旦掌握算法原理，采用哪种框架没有本质的差别，考虑到稳定性和成本不会更换框架。但也有企业表示，框架的易用、生态、性能是他们考量的重要因素。尤其是MindSpore，更是以华为的软硬件及生态优势吸引了一批用户的目光。
　　讯飞人工智能研究院副院长刘俊华表示，目前科大讯飞在技术研究方面主要有两种形式，一是采用PyTorch底层计算框架，快速开展核心算法研究和实验；二是针对大规模训练数据的效率瓶颈，基于C++独立编写训练工具。在推理方面，考虑效率影响，主要采用C++开发核心引擎，用底层语言将引擎效率、稳定性做到极致，以应对大规模并发的要求，以及不同嵌入式智能终端的离线的需要，“目前讯飞已经习惯了这种工作方式，暂时还没有切换到其他开源框架的计划。”
　　丁强所在的AI芯片公司采用Tensor⁃Flow框架已有多年，他说，暂时不会考虑使用新的框架，因为TensorFlow的生态成熟，能满足他们现有开发需要。
　　在一家中小型智能硬件类企业工作的王婷（化名）告诉《IT时报》记者，目前，公司正在使用Caffe框架。不过，未来可能会考虑使用MindSpore框架，因为公司项目正在使用海思芯片做研发。
　　一位知情人士透露，在MindSpore 开发前，海思AI芯片会用PyTorch和Ten⁃sorFlow训练，用Caffe框架推理。“需要先将PyTorch和TensorFlow模型转换成Caffe模型，再从Caffe模型转换成海思支持的格式。”
　　陈敏刚所在的上海计算机软件技术开发中心，同时采用PyTorch和TensorFlow框架进行测试研发。他说：“采用PyTorch和TensowFlow是因为基于这两种架构的学术成果众多，可以直接根据论文代码复现结果。”因此，新框架的学术研究也是它能否良好发展的重要原因，但这都要基于用户的参与与完善。
　　另一片开源框架的市场沃土是开源社区。
　　在百度PaddlePaddle飞桨的QQ交流群，记者看到，每天有众多使用者提问和交流，其中不乏高校学生、AI企业用户、AI爱好者。每天志愿者都会在群里推送Pad⁃dlePaddle飞桨的课程直播链接。
开源框架是“AI新基建”
　　“中短期来看，开源深度学习框架百花齐放，中国和国外的算法能力会逐渐迁移，框架可以看作一个标志点。长期来看，开源深度学习框架最终会形成全球2-3家的主流格局，中国可能会占其中1席，但最优秀的框架部分还是被各大企业机构所自用。”这是张先对未来深度学习框架市场的预测。
　　张先认为，从用户流向看，决定深度学习框架成败主要有四个因素：一是易用，二是生态，三是终端，第四是核心应用点。
　　陈敏刚认为，开源框架的社区活跃度非常重要。
　　一流科技创始人袁进辉提出了“灵魂”的概念。深度学习框架作为一种复杂软件系统，和任何一件产品、软件一样，都是有灵魂的。对技术细节的关注，框架背后的人和组织，都决定了框架的灵魂。
　　王婷是百度PaddlePaddle飞桨QQ交流群的忠实粉丝。她告诉记者，接触飞桨是因为从一位清华教授的公众号上关注到其近期的免费课程，于是就加入学习。
　　记者在QQ群里看到，最近一段时间，飞桨每天都在哔哩哔哩网站直播课程，4月1日的直播主题为“一行代码就能带给你不错的抠图体验”。飞桨还为每位开发者承担了1699元/人的学费，供大家100%免费学习，并配备了100小时的GPU资源。“可能因为我是初学者，飞桨的API文档对我来说不是很友好，不过就使用情况来看，飞桨还是挺易用的。”目前，王婷正在跟着疫情特辑学习。
　　“深度学习框架发展至今，还未出现一个‘工业标准式’的产物。想要异军突起，需要极大的思路创新和突破，而非简单的模仿。在这一点上，开源深度学习框架可以启动框架标准化的发展工作。”张先建议。
　　无论是面向“新基建”战略还是“国家核心技术自主可控”的目标，国内深度学习框架接连开源，对于人工智能产业发展都有着非常积极的意义。深度学习框架作为AI研发的基础设施之一，它的发展、创新和融合，直接受益的是整个AI行业的开发人员。而中国企业和研究机构，通过开源项目加入到推动AI产业发展的行列中，对于国家自主创新、人工智能基础设施自主化的进程都是非常有利的。
　　“我们希望国内的AI从业人员多尝试使用国内的深度学习框架，为推动国内的人工智能自主核心技术出一份力。”陈敏刚呼吁。