书生·浦语2.0发布：让大模型回归语言建模本质

4新闻产业

·这届年轻人爱上了线上抢茅台
·书生·浦语2.0发布：让大模型回归语言建模本质

书生·浦语2.0发布：让大模型回归语言建模本质

IT时报记者沈毅斌
　　《流浪地球》第一部和第二部电影中，全方位展现出数字生命、太空电梯等幻想中的科技，吊足了观众的胃口，迫不及待希望第三部赶快到来。
　　在1月17日举办的书生·浦语2.0（InternLM2）发布会暨书生·浦源大模型挑战赛启动仪式上，书生·浦语2.0展开AI想象力，现场仅用几秒钟就编写出《流浪地球3：星际生存》的剧本，包括七个章节内容，时间、地点、事件等细节也叙述得十分详细。
　　相比1.0，书生·浦语2.0所展现出来的对话内容和创造能力都得到进一步提升。究其原因是研究人员在微调书生·浦语2.0的过程中，使用了经过第三代数据清洗过滤技术处理的指令微调语料，对奖励模型和对话模型进行了三轮迭代更新，每一轮更新均针对前一轮模型的表现更新偏好数据与提示词。
　　上海人工智能实验室领军科学家林达华介绍，书生·浦语2.0是在2.6万亿token的高质量语料上训练得到的，支持20万to⁃ken的上下文，能够一次性接收并处理约30万汉字。同时，沿袭第一代书生·浦语的设定，书生·浦语2.0包含70亿及200亿两种参数规格及基座、对话等版本，满足不同复杂应用场景需求。上海AI实验室将继续提供书生·浦语2.0免费商用授权。
　　打造书生·浦语2.0的核心理念是让大模型的研究回归语言建模。上海AI实验室联合团队研究认为，大模型应用生态的发展和繁荣是建立在模型基座强大的通用基础能力之上。大模型各项性能提升的基础在于语言建模能力的增强，对于大模型的研究应回归语言建模本质，通过更高质量的语料以及更高的信息密度，筑牢大模型能力基础。
　　为此，上海AI实验室联合团队提出新一代的数据清洗过滤技术，即多维度数据价值评估、高质量语料驱动的数据富集、针对性的数据补齐三个主要技术。据介绍，目前，书生·浦语背后的数据清洗过滤技术已经历三轮迭代升级，仅使用约60%的训练数据即可达到使用第二代数据训练1T token的性能表现，模型训练效率大幅提升。