兴奋与恐慌交织 ChatGPT“搅乱”全世界

8时报独家

·兴奋与恐慌交织 ChatGPT“搅乱”全世界

马斯克们喊停，多国讨论“封杀”

兴奋与恐慌交织 ChatGPT“搅乱”全世界

IT时报记者孙妍图东方IC
　　有人认为，如果ChatGPT不犯大错，两年之内，整个科技行业甚至人类社会都会被颠覆，倒计时已经开始。
　　就像移动互联网的开端一般，大公司恐慌，怕被OpenAI一般的创业公司取代；普通人焦虑，怕被AI取代工作岗位；尝鲜者兴奋，急于最先跑出商业模式；监管者无奈，深知立法跟不上技术变革的速度。
　　ChatGPT改变一切的恐慌和兴奋在全球蔓延，几乎每天都会出现ChatGPT的新动态，由马斯克、图灵奖得主Bengio等千人联名的《暂停大型人工智能研究》公开信发布后，目前签名数量已上升至9000多人。
　　4月1日，OpenAI在意大利下线ChatGPT，就在前一天，意大利数据保护局暂时禁止了该聊天机器人，并对其涉嫌违反隐私展开调查。4月3日，德国一位联邦数据保护专员表示，德国可能会效仿意大利暂时屏蔽ChatGPT。
　　在被马斯克们喊停，被多国讨论“封杀”的同时，ChatGPT被曝大面积封号，恐因算力不足导致。
　　于是，普通民众、企业、监管就分立出三方，普通民众最关注的是自己能否不被AI取代，以及如何让AI为自己赚钱；国内互联网大厂几乎都在加入这场战斗，最终将演变成一场算力生态之战；监管就版权、数据隐私等问题讨论ChatGPT的去向，国内或重点监管C端ChatGPT产品。
大面积封号之时高级玩家用套壳ChatGPT赚钱
　　ChatGPT近期大面积封号，主要集中在亚洲地区。4月5日传出消息，ChatGPT停售Plus付费会员。《IT时报》记者调查发现，封号对高级玩家的影响较小，高级个人玩家主要使用Pro版本，更高阶的是在开源模型上微调或是用公开模型数据微调自己的模型。
　　而且，国内有大批高级玩家已用套壳ChatGPT赚钱盈利。“周围的朋友都在做几十亿参数的‘中小模型’和指令微调，在细分场景里已经赚到钱，单把整套流程搞懂卖给科研机构都能赚到钱，最早赚到钱的是用GPT-3 API接口的人。”人工智能科研界人士陈柏（化名）向《IT时报》记者透露，“很多人用的是ChatGPT API套壳工具，他们不会告诉客户，甚至不会告诉自己的员工，是ChatGPT在做这部分工作。”
　　小玩家都清楚，做连接层、中间层、应用层是短暂且风险极大的事。但他们没有实力从头做基础研发，像百度等互联网大厂有丰富的数据语料积累，其大模型研发可以追溯至2019年。
　　高质量的数据是GPT大模型制胜的第一环，所以人工智能仍旧离不开人工数据标注。OpenAI也通过外包公司Sama雇用了肯尼亚、乌干达和印度等国的廉价外包员工，时薪只有1.32美元~2美元（约合人民币8.99元~13.62元）。“我们已经接到了ChatGPT人工数据标注的单子，主要是互联网大厂在跟，我们团队也扩充到近百人规模。”一家AI数据标注公司负责人告诉《IT时报》记者。
　　对于数据标注公司来说，ChatGPT的出现，完全改变了他们此前以自动驾驶、语音助手等数据标注订单为主的格局，但他们仍旧位于食物链的底端，赚着低廉的收入。
互联网大厂重新排位阿里、字节紧随百度之后
　　百度、阿里、字节跳动、腾讯、360、华为、京东、网易，互联网大厂几乎都参与了中国版ChatGPT这场重新开始的排位赛，虽然百度的产品与OpenAI仍有较大差距，但业内普遍认为它处于GPT-2.5水平，但毋庸置疑，百度在ChatGPT国内追赶赛中排名第一。
　　百度之后，哪家互联网大厂最有能力追赶ChatGPT？《IT时报》记者采访的多位AI、AI芯片、云计算等上下游从业者认为，阿里巴巴和字节跳动最有可能。
　　数天后即将召开的2023阿里云峰会声势浩大，有传闻称阿里将于4月11日推出ChatGPT大模型，于18日推出行业应用类模型。近日，多位博主测试了天猫精灵，发现已上线ChatGPT语音助手版。
　　据阿里内部人士透露，阿里ChatGPT大模型的研发主要由达摩院牵头，C端可能会应用在淘宝、天猫、高德地图等搜索与推荐上，B端可能会向企业输出API能力，主要围绕阿里老本行电商、搜索和推荐。
　　字节跳动则被曝在语言和图像两种模态上发力，语言大模型由搜索部门牵头，图像大模型由产品研发与工程架构部下属的智能创作团队牵头，探索方向主要与搜索、广告等下游业务结合。语言大模型团队预期在今年中推出大模型，但字节相关技术负责人曾回应：“技术中台在这些领域有探索，但还很初期，不成熟。”
　　这场互联网大厂的重新排位赛，核心竞争力主要是算力、算法和数据。
　　至于中国互联网企业与OpenAI的差距在哪？
　　“主要是算法，其次是高质量的数据。”研发国产版GPT模型“曹植”系统的达观数据CEO陈运文向《IT时报》记者表示。
　　到最后，这终将是一场算力之战。
算力之战英伟达成唯一选择
　　外界猜测，ChatGPT大面积封号或与算力不够有关。据外媒报道，微软曾专门为ChatGPT砸下数亿美元，打造一台由上万片英伟达A100组成的专用超算数据中心，还在Azure多个数据中心部署几十万片GPU，都是为ChatGPT和新必应提供算力。
　　但现在看来，怒砸数亿美元的微软也烧不起算力了。ChatGPT的GPT-3模型参数为1750亿，总算力消耗为3640PF-days，需要7~8个投资规模30亿元、算力500P的数据中心才能运转。
　　在衡量大模型与ChatGPT之间的距离时，两个参数是最重要的，一是该大模型调用了多少参数（数据量），二是这家公司囤了多少片英伟达GPU，英伟达的显卡似乎成了算力的衡量标准。
　　近日一份阿里AI专家交流纪要流出，一位阿里AI专家提到，阿里是国内AI算力储备最多的，然后依次为字节、百度、腾讯。阿里云云上至少有上万片英伟达A100，阿里云整体能达到10万片，阿里集团会是阿里云的5倍。百度年初紧急下单3000台8卡的A800服务器，2.4万片卡，预计全年百度会有5万片需求。
　　上述交流纪要还提到，除了英伟达外，阿里还有自研的“平头哥”，还会采购一家国产芯片寒武纪。
　　10多年前，百度智能芯片及架构部就孵化出了AI芯片项目昆仑芯，昆仑芯1代早在2020年量产，2代在2021年量产，主要部署在百度搜索、小度等百度自有生态中。“文心一言用的还是英伟达，没有用昆仑芯。”一位昆仑芯内部员工表示。
　　而对于市场流传的消息，文心一言将用寒武纪替代英伟达的消息，上述昆仑芯员工表示可信度较低，“还不如等一年，昆仑芯3代要在2024年量产。”
　　而绝大多数互联网公司或AI公司没有阿里、百度这般的自研能力和试错成本。“短期之内，英伟达是唯一的选择。”陈运文认为。
　　对资金实力更弱一些的研发机构而言，英伟达同样是唯一选择。“中小模型不需要使用英伟达顶级的卡，用V100、A40就够了，科研侧对推理速度和并行要求不高。”陈柏说道。“听说英伟达下半年可能会涨价。”据一位云计算从业者所说，一种抢购英伟达的情绪早就在业界传递。“卖水人”英伟达用硬件和生态筑起了近乎垄断的“水井”，扼住了这场ChatGPT之战的咽喉。
多国讨论“封杀”国内或重点管控C端ChatGPT
　　ChatGPT改变了一切，互联网大厂可能因此重新排位，无人缺席，对于商界来说，这可能会升级为一场算力之争。这也引出法律和科技实力之间的拉扯战。
　　据韩媒报道，三星半导体业务部门引入ChatGPT20天内，已爆出三起机密资料外泄事故，于是考虑在公司网络内禁用Chat⁃GPT。
　　现在连美国白宫都在讨论人工智能的风险，当地时间4月4日，美国总统拜登会见了白宫科技顾问委员会人员，讨论了人工智能发展的快速进步对个人用户和国家安全构成的风险和机遇。拜登还重申其立场，即国会需要以立法的方式限制科技公司对数据的收集，在人工智能领域保护儿童等。
　　据《IT时报》记者了解，国内多家互联网公司已经明确要求员工不能用公司数据“喂”ChatGPT。国内一家大型AI公司更向《IT时报》记者透露，目前，国内监管方面已与他们沟通，只能面向B端推出企业级产品，暂时不能面向C端推出公众产品。下转09版上接08版
　　无独有偶，原定于3月27日举办的文心一言云服务及应用产品发布会，却临时从公开发布会改为客户闭门沟通会议。目前百度文心一言聊天机器人仍处在限量内测阶段，并没有具体向公众开放的时间表。
　　不过，多家规模较小的AIGC公司向《IT时报》记者表示，并没有收到监管层面的明确指示。
　　所以，国内互联网大厂和人工智能大厂的思路都是先推出面向B端推出企业版ChatGPT，再由企业面向C端推出产品。
　　AI生成内容的版权问题或是最先爆发的风险。近期，欧盟正在研究对AI生成的一切内容，无论是文本还是图像，都要进行强制性规定，即标注内容来源是AI。近期，AI生成图片被滥用引发了混乱，马斯克接连在推特上评论多张AI合成的他本人的照片，其中有一张是马斯克与通用汽车女掌门人Mary Barra的牵手照，对此马斯克评论：“我肯定不会穿这身衣服。”
　　可见的是，国内立法层面已经在行动，知识产权界专家多汇聚讨论AI版权方面的风险。