IT时报 -V14 掌中乾坤-
14掌中乾坤
  • ·文心一言讯飞星火记者实测

文心一言讯飞星火记者实测

  

哪家强
一场文科生与理科生的对战
会写诗会作画的大模型,对于我们的日常工作有什么实质性的帮助?“百模大战”已经开打,国产大模型一边对标ChatGPT,一边互比“智商”,战火从高考作文比拼燃起,如今则是用专业报告来背书。中国工业互联网研究院评测结果显示,文心一 言表现超过GPT3.5,在电子设备、装备、钢铁、采矿、电力、石化、建材等七大行业排名国内第一。新华社研究院中国企业发展研究中心发布的《人工智能大模型体验报告2.0》中,讯飞星火以总分1013分位列国产大模型评测榜首位,特别是在智商指数和工具提效指数两个维度获得第一。百度文心一言、科大讯飞星火两个大模型在C端应用能力较强,了解各个大模型的长处,在日常工作中,有的放矢地选取大模型的优势来提高工作效率。在记者的日常工作中,虽然还不能让大模型写稿,也不能全然相信大模型输出的资料真实性,但是,大模型已经渗透到新闻采编工作中,比如,记者每天都会让大模型帮忙选择一个传播效果最佳的标题。仅选标题这一项,就能看出大模型的“性格”,文心一 言像一位文科生,字斟句酌又具有发散性思维,而讯飞星火更像一位理科生,简单直接抛出事实。那么在多轮对话、图片生成、视频生成、看图理解、数学解答、文档阅读等能力上,这两种性格的碰撞还会更凸显吗?IT时报记者■孙妍AI作画能取代图库吗?图片生成:平局 视频生成:讯飞星火胜
  图片生成被认为是最先爆发的大模型多模态能力,这真是一项门槛极低、老少皆宜的功能。
  如果解决了图片版权的问题,AI作画极有可能取代图库,特别是创意类图库。
  目前,大模型生成图片仍存在不少版权问题,比如其训练数据的版权界定等。
  “轻舟已过万重山,请用水墨风格画出李白这句诗所描绘的画面”,当记者同时向文心一言和讯飞星火提出这个需求后,文心一言所做的画较为符合这句诗的意境,并且采用水墨画风格,文心一言对诗句的理解是到位的。但是,讯飞星火输出的虽是水墨画,但画的却是一位诗人、老者的形象,这说明其理解有误,只画出了“李白”这个元素。
  “请画下雨天埃隆·马斯克爬万里长城,正脸,写实摄影风”,当收到这个需求后,文心一言画了一张背影照,虽点出了下雨天,但完全没有顾及“正脸”这个要求,从着装风格来看,也与马斯克不符,长城这个元素也是模糊的。讯飞星火则画了一个远远的人影正在登长城,也缺失了马斯克这个元素,但长城、下雨天这两个元素是清晰的。
  于是,记者将要求降低,只让它们画“埃隆·马斯克,写实摄影风”,文心一言所画的马斯克,跟我们熟知的那位毫无关系。讯飞星火至少画出了马斯克的标志性穿着——皮衣,只是脸部刻画较为粗糙。此前,记者还让商汤“秒画”大模型画过马斯克,从细节来考量,商汤优于讯飞星火。
  目前,文心一言和讯飞星火都已支持多轮图片生成,比如先生成一张新能源汽车充电的图,再根据第一轮出图效果,添加需求“在图片中加入新能源汽车充电桩”。
  虽然如今AI作画版权不清晰,但它已能提供很多参考价值,可以开发出不同的用法。家中有幼儿园小朋友或小学生,都会用到一个功能——手抄报,“请画一张小学手抄报,主题是保护地球”,从生成的手抄报效果来看,讯飞星火的细节和表现力更具参考性。
  多轮测试发现,文心一言和讯飞星火在图片生成上不相上下,不过风格差异较大,文心一言图片风格更具艺术感和未来感,而讯飞星火图片风格更加写实,这也印证了它们不同的性格。
  不过,当记者提出让它们生成视频时,文心一言不能直接生成视频,但能给出一个视频拍摄脚本,包括开头、中段、结尾的画面和旁白;讯飞星火给出了一段由AI主播口播的视频,背景是郊野风景,自动生成了一段关于新能源汽车的解说词,并由AI主播配音,还辅以字幕和背景音乐,视频暂不能下载,后续可能收费,目前B端通用做法是按时长收费。
日本核污染水排海,大模型怎么看?时事资料搜集能力:文心一言胜
  日本核污染水排海事件一出,“核废水与核污染水有何区别”这个科普问题就从新闻舆论场蔓延到大众讨论中。
  对于这类科普性问题,大模型已能较好地解答,文心一言和讯飞星火都明确指出,这是两个不同的概念,核废水是核电站在运行中产生的废水,具有较低的放射性,但核污染水是直接接触核反应堆放射性物质的水,具有高度放射性。
  这是一个攸关所有地球居民的话题,每个中国普通民众都在关心,吃下核污染食品后果有多严重?普通人应该如何应对?日本核污染水排海的最新进展如何?
  前两个问题,双方的回答不相上下,但能明显地看出“性格”,文心一言这位“文科生”的思维较为发散,它不仅会告诉你,核污染食品会影响消化系统、免疫系统、神经系统、生殖系统等,也会告诉你,如果怀疑食品受到了核污染,应立即停止使用,并向当地食品安全部门报告。而讯飞星火这位“理科生”的逻辑性、理解能力都较强,它会告诉你,普通民众应该了解事实、减少食用海鲜、关注自己的健康。
  但在事件最新进展这些包含实时信息的问答上,文心一言略胜一筹,虽然搜集时事新闻会有出错的可能性,但至少已能提供当天新闻的搜索。相比较而言,讯飞星火没有搜索引擎的数据资源,所以在时事进展、新闻热点等资料搜集上的能力不强。
识图发朋友圈难不倒它们看图说话:讯飞星火胜
  既然它们能理解语义生成图片,那么是不是也能看图说话呢?没错。
  记者将一张拍摄于华强北的照片发给它们,文心一言没能答出这张照片拍摄于哪个城市或地点,但却给出了自己对图片的白描,并表示可以“震惊!”为开头,写十个UC震惊体的标题;写一篇短篇小说,突出文采,用至少5个高级词汇和2个生僻词汇;写一首以“城市繁华”为主题的古诗,真是一位才华横溢的文科生!
  讯飞星火答出了这张照片拍摄于华强北在线,位于深圳这座城市,问什么答什么,没有赘述,像极了一位理科生,还是一个直男。
  接着,记者让它们辨别一张图片上的花,文心一言傻傻分不清马蹄莲和百合,而讯飞星火则认出了是马蹄莲。
  这位“直男理科生”写起情诗来也略胜一筹。同样是马蹄莲的图片,记者请它们“写一首诗,以花喻人,赞美少女纯洁坚贞的爱情观”,讯飞星火的文字更为凝练、灵动,写得最为工整的一句是“花中少女,纯洁坚贞;绿叶陪衬,更显娇艳。花瓣轻柔,如纱似雾;花蕊娇小,含苞待放”;文心一言更为通俗,写得最好的一句是“她的眼神清澈明亮,如同百合花般皎洁。她的笑容如同阳光,温暖着他的整个世界”,虽然文字优美,但却偏题了,因为图中的花是马蹄莲,完美诠释了零分作文。
  从识图能力上来看,让它们为风景照配段优美的文字或诗句,作为朋友圈素材,难不倒它们。
生产力工具都藏在插件里文档理解:文心一言胜
  除了问答这种方式,真正的生产力工具都藏在插件里,比如做PPT、简历、绘制图表等。
  在文心一言上,如果要使用图片解析功能,需要在输入文本框上方调出“说图解画”插件。此外,除了百度搜索外,文心一 言还有绘制或洞察数据图表的“E言易图”以及阅读理解创作文档的“览卷文档”这两个插件。
  而讯飞星火除了文档问答外,还有PPT生成、简历生成两个插件。
  因为两者的插件有较大差异,能直接对比的是文档理解和问答这一项功能。《IT时报》记者将同一篇实用型稿件分别发给文心一言和讯飞星火,要求它们取标题,文心一言的文档阅读理解能力更强,能取出一个及格、尚不优秀的标题,而讯飞星火还不具备给文章取标题的能力。
  当它们都看完文章后,记者追问道:“支付宝国际版有哪些方便境外游客的功能?”文心一言回答出7个功能,而讯飞星火只答出5个功能。
  而当记者发了一道小学水平的“鸡兔同笼”数学题给他们后,它们都答对了,但解题思路是不同的,文心一言用的是假设法,讯飞星火用的代数法。看来,它们在小学水平的数学题的解答上,智力水平已不相上下,但升级到高考数学题,就要小心了,大模型答错的概率较大。
  目前,文心一言、讯飞星火都已上架网页版和App,不过体验资格都需排队获取,一般等待时间在一周以内。
  涉及工作效率的功能,使用网页版使用更为便捷,比如上传文档、图片等。而涉及个人娱乐、社交等功能,使用App更为方便,建议双管齐下。