王小川百余天“拼”出三个大模型,到底是个啥水平?
作者|杨文
来源|AI先锋官
产品名称: 百川大模型
推荐指数: ★★★☆☆
测评意见: 百川大模型主打一个“快”:迭代快,公司成立百余天整了三个大模型,这速度绝对够拼;审核快,不到10分钟内测申请通过;响应速度快,回答问题均秒回。不过,百川大模型像个“偏科”的文科生,在文学创作方面达到一定水准,只是到了数理逻辑就容易犯迷糊。而且,百川大模型时常还死犟死犟,抱着个错误答案一条道跑到黑。
8月8日,百川智能创始人王小川带着新一代百川大模型亮相了。
这款闭源大模型Baichuan-53B,是百川智能发布的第三个大模型。它主要服务B端行业,预计下个月将会开放API等相关组件。
自4月10日成立以来,百川智能就在大模型路上狂飙:6月15日发布70亿参数规模开源模型Baichuan-7B,7月11日发布130亿参数规模大模型Baichuan-13B。如今,Baichuan-53B也已登场。
平均每个月“祭”出一个大模型,这速度绝对够拼。
不过,外界曾质疑百川智能开源模型Baichuan-7B套壳Meta开源模型LLaMa。对此,百川智能创始人、CEO王小川表示:搜索公司干了20年,团队对语言数据有深入的理解,知道取得高质量语料的渠道,模型迭代速度很快,“国内开源模型的能力目前已经可以达到LLaMa”。
王小川还透露,这次大模型的文科能力更强,“写作、文本方面达到行业最好水平”。
是骡子是马,今天咱们就拉出来遛遛。接下来,我们将从文学创作、商业文案创作、数理逻辑推算和中文理解四个方面,让百川大模型和百度文心一言PK一下。
Round 1:文学创作
最近刀郎的《罗刹海市》火得一塌糊涂,咱们就让这俩大模型解读一下这首歌背后的深意,字数不少于500字。
百川大模型是这样回答的:
百川大模型从歌词、音乐、演唱等维度进行了分析。整篇分析看起来像模像样,细究起来却有不少bug。
首先,《罗刹海市》收录在刀郎今年的专辑《山歌寥哉》中,而非百川大模型所说的是《喀什葛尔胡杨》中。
其次,《罗刹海市》并没有“夜幕降临,月儿弯弯,罗刹海市,灯火辉煌”这样的歌词,百川大模型开始自己编歌词了。
此外,《罗刹海市》讽刺的是一个以丑为美、完全颠倒的世界。然而,百川大模型认为刀郎“用高亢激昂的声音唱出了对罗刹海市的向往和期待”。这简直是一本正经地胡说八道。
小编一度以为百川大模型不晓得《罗刹海市》的歌词。然而,在问答中百川大模型又对这首歌的歌词对答如流。
小编又问:刀郎的《罗刹海市》讲了怎样的一个故事?百川大模型回答:抱歉,我还没学习如何回答这个问题。
再来瞅瞅文心一言的回答:
一方面文心一言确实答出了刀郎《罗刹海市》的歌词,另一方面它把歌词里面的寓意解读得挺到位。
毫无疑问,这一局文心一言胜!
Round 2:商业文案创作
王家卫的语言总是“顾左右而言他”,透着一股文艺范。“I love you ”不能翻译成“我爱你”,而是要拐着弯地表达,“我已经很久没有坐过摩托车了,也很久未试过这么接近一个人了,虽然我知道这条路不是很远,我知道不久自己就会下车。可是,这一分钟,我觉得好暖”。
曾有网友总结了王家卫式文案公式:一个事件+一个拗口的时间+一个无聊的事件。比如失恋后250天2小时38秒,我又去吃了一份冰淇淋,不过这次,我没有要香芋味的。
小编让百川大模型和文心一言模仿王家卫的风格,为香奈儿香水写一则小红书文案,强调香味高级持久,100-200字。
“夜幕降临,月光洒满大地,我在黑暗中寻觅那一抹独特的芬芳”“如同一场永不落幕的电影”,这多多少少有点王家卫那味了。只是,“那是香奈儿香水的味道,高级而持久”“如果你想要拥有一款能让你在人群中脱颖而出地香水,那就选择香奈儿吧”,这也太直白了。最后,它索性开始直接带货了。
文心一言撰写的文案也半斤八两。“香奈儿,你的选择,你的风格,你的故事”作为广告语倒是过关,但“每个清晨,我都在香奈儿的陪伴下醒来。这不仅仅是一款香水,而是一种生活态度。轻轻一喷,便仿佛置身于一个优雅而充满魅力的世界”这句话,Oh my god,俗!
这俩大模型编写的文案都像“钢铁大直男”,绞尽脑汁地搜罗各种比喻句一个劲地夸。不过从氛围感上来看,百川大模型似乎略胜一筹。
Round 3:中文理解
作为更适合中国人体质的大模型,中文理解能力是一项重要的测评维度。
先来一个经典的题目:“我一把把车把把住了”是什么意思?
百川大模型虽然推测出了“可能是在描述一个人紧紧地握住自行车车把手的动作”,但仍认为这句话有些不完整和混乱,可能并不符合正常的语言规则和逻辑。
百度文心一言则提供了正确答案,不过它对于“把”的词性理解的还不够准确,这句话中的四个“把”字词性均不相同:第一个“把”是动量词。第二个“把”是介词。第三个“把”是名词,指车把。第四个则是动词,即握住。
小编又出了一道曾难倒大片外国人的中文理解题,不过百川大模型和文心一言都回答错误。
百川大模型:
文心一言:
昨晚,社群里群友也整了几个问题,小编就挑了一道来考考它们:欢迎新老师生前来餐厅就餐,请问欢迎谁来就餐?
(百川大模型)
(文心一言)
百川大模型认为是欢迎新来的老师和学生们来到餐厅用餐;文心一言则认为欢迎新老师前来餐厅就餐,二者回答的都不够准确。
这一局,很难评,百川和文心一言表现都不出彩,算打个平手吧。
Round 4:数理逻辑推算
数学能力是考验AI大模型是智能还是智障的试金石。小编挑了一道小学数学题来测一测。
“3个人3天做3个灯笼,9个人9天做几个灯笼?”此题的正确答案是27个。
文心一言经过计算,最终答对了。
而百川大模型一顿操作猛如虎,理直气壮地给出了“81”这个答案。在小编多次提醒下,百川大模型仍“死不悔改”,一口咬定81这个错误答案,简直气skr人。
果然知“子”莫若父。正如王小川所言,百川大模型是个“偏科”的文科生,在文学创作方面还算过关,但一到了数理逻辑推算,就容易犯迷糊,而且还死犟,抱着个错误答案一条道跑到黑。
此外,百川大模型主打一个“快”:一方面是审核快,用户申请内测,不到10分钟就通过了,这可比文心一言强太多,文心一言的审核动不动就是半个月,等得花儿都谢了;另一方面响应速度快,百川大模型回答问题均是“秒回”,而文心一言有时候会墨迹会儿,如果长时间没有提问,文心一言还要求刷新重试。
.END.
扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。
往期文章回顾