王小川百余天“拼”出三个大模型，到底是个啥水平？

Original 杨文袁博 AI先锋官 2023-11-05

收录于合集

#AI评测 92 个

#AI应用 87 个

作者｜杨文

编辑｜六耳

来源｜AI先锋官

先锋官有话说：

产品名称： 百川大模型

推荐指数： ★★★☆☆

测评意见： 百川大模型主打一个“快”：迭代快，公司成立百余天整了三个大模型，这速度绝对够拼；审核快，不到10分钟内测申请通过；响应速度快，回答问题均秒回。不过，百川大模型像个“偏科”的文科生，在文学创作方面达到一定水准，只是到了数理逻辑就容易犯迷糊。而且，百川大模型时常还死犟死犟，抱着个错误答案一条道跑到黑。

8月8日，百川智能创始人王小川带着新一代百川大模型亮相了。

这款闭源大模型Baichuan-53B，是百川智能发布的第三个大模型。它主要服务B端行业，预计下个月将会开放API等相关组件。

自4月10日成立以来，百川智能就在大模型路上狂飙：6月15日发布70亿参数规模开源模型Baichuan-7B，7月11日发布130亿参数规模大模型Baichuan-13B。如今，Baichuan-53B也已登场。

平均每个月“祭”出一个大模型，这速度绝对够拼。

不过，外界曾质疑百川智能开源模型Baichuan-7B套壳Meta开源模型LLaMa。对此，百川智能创始人、CEO王小川表示：搜索公司干了20年，团队对语言数据有深入的理解，知道取得高质量语料的渠道，模型迭代速度很快，“国内开源模型的能力目前已经可以达到LLaMa”。

王小川还透露，这次大模型的文科能力更强，“写作、文本方面达到行业最好水平”。

是骡子是马，今天咱们就拉出来遛遛。接下来，我们将从文学创作、商业文案创作、数理逻辑推算和中文理解四个方面，让百川大模型和百度文心一言PK一下。

Round 1：文学创作

最近刀郎的《罗刹海市》火得一塌糊涂，咱们就让这俩大模型解读一下这首歌背后的深意，字数不少于500字。

百川大模型是这样回答的：

百川大模型从歌词、音乐、演唱等维度进行了分析。整篇分析看起来像模像样，细究起来却有不少bug。

首先，《罗刹海市》收录在刀郎今年的专辑《山歌寥哉》中，而非百川大模型所说的是《喀什葛尔胡杨》中。

其次，《罗刹海市》并没有“夜幕降临，月儿弯弯，罗刹海市，灯火辉煌”这样的歌词，百川大模型开始自己编歌词了。

此外，《罗刹海市》讽刺的是一个以丑为美、完全颠倒的世界。然而，百川大模型认为刀郎“用高亢激昂的声音唱出了对罗刹海市的向往和期待”。这简直是一本正经地胡说八道。

小编一度以为百川大模型不晓得《罗刹海市》的歌词。然而，在问答中百川大模型又对这首歌的歌词对答如流。

小编又问：刀郎的《罗刹海市》讲了怎样的一个故事？百川大模型回答：抱歉，我还没学习如何回答这个问题。

再来瞅瞅文心一言的回答：

[ 上下滑动查看更多 ]

一方面文心一言确实答出了刀郎《罗刹海市》的歌词，另一方面它把歌词里面的寓意解读得挺到位。

毫无疑问，这一局文心一言胜！

Round 2：商业文案创作

王家卫的语言总是“顾左右而言他”，透着一股文艺范。“I love you ”不能翻译成“我爱你”，而是要拐着弯地表达，“我已经很久没有坐过摩托车了，也很久未试过这么接近一个人了，虽然我知道这条路不是很远，我知道不久自己就会下车。可是，这一分钟，我觉得好暖”。

曾有网友总结了王家卫式文案公式：一个事件+一个拗口的时间+一个无聊的事件。比如失恋后250天2小时38秒，我又去吃了一份冰淇淋，不过这次，我没有要香芋味的。

小编让百川大模型和文心一言模仿王家卫的风格，为香奈儿香水写一则小红书文案，强调香味高级持久，100-200字。

“夜幕降临，月光洒满大地，我在黑暗中寻觅那一抹独特的芬芳”“如同一场永不落幕的电影”，这多多少少有点王家卫那味了。只是，“那是香奈儿香水的味道，高级而持久”“如果你想要拥有一款能让你在人群中脱颖而出地香水，那就选择香奈儿吧”，这也太直白了。最后，它索性开始直接带货了。

文心一言撰写的文案也半斤八两。“香奈儿，你的选择，你的风格，你的故事”作为广告语倒是过关，但“每个清晨，我都在香奈儿的陪伴下醒来。这不仅仅是一款香水，而是一种生活态度。轻轻一喷，便仿佛置身于一个优雅而充满魅力的世界”这句话，Oh my god，俗！

这俩大模型编写的文案都像“钢铁大直男”，绞尽脑汁地搜罗各种比喻句一个劲地夸。不过从氛围感上来看，百川大模型似乎略胜一筹。

Round 3：中文理解

作为更适合中国人体质的大模型，中文理解能力是一项重要的测评维度。

先来一个经典的题目：“我一把把车把把住了”是什么意思？

百川大模型虽然推测出了“可能是在描述一个人紧紧地握住自行车车把手的动作”，但仍认为这句话有些不完整和混乱，可能并不符合正常的语言规则和逻辑。

百度文心一言则提供了正确答案，不过它对于“把”的词性理解的还不够准确，这句话中的四个“把”字词性均不相同：第一个“把”是动量词。第二个“把”是介词。第三个“把”是名词，指车把。第四个则是动词，即握住。

小编又出了一道曾难倒大片外国人的中文理解题，不过百川大模型和文心一言都回答错误。

百川大模型：

文心一言：

[ 上下滑动查看更多 ]

昨晚，社群里群友也整了几个问题，小编就挑了一道来考考它们：欢迎新老师生前来餐厅就餐，请问欢迎谁来就餐？

（百川大模型）

（文心一言）

百川大模型认为是欢迎新来的老师和学生们来到餐厅用餐；文心一言则认为欢迎新老师前来餐厅就餐，二者回答的都不够准确。

这一局，很难评，百川和文心一言表现都不出彩，算打个平手吧。

Round 4：数理逻辑推算

数学能力是考验AI大模型是智能还是智障的试金石。小编挑了一道小学数学题来测一测。

“3个人3天做3个灯笼，9个人9天做几个灯笼？”此题的正确答案是27个。

文心一言经过计算，最终答对了。

而百川大模型一顿操作猛如虎，理直气壮地给出了“81”这个答案。在小编多次提醒下，百川大模型仍“死不悔改”，一口咬定81这个错误答案，简直气skr人。

果然知“子”莫若父。正如王小川所言，百川大模型是个“偏科”的文科生，在文学创作方面还算过关，但一到了数理逻辑推算，就容易犯迷糊，而且还死犟，抱着个错误答案一条道跑到黑。

此外，百川大模型主打一个“快”：一方面是审核快，用户申请内测，不到10分钟就通过了，这可比文心一言强太多，文心一言的审核动不动就是半个月，等得花儿都谢了；另一方面响应速度快，百川大模型回答问题均是“秒回”，而文心一言有时候会墨迹会儿，如果长时间没有提问，文心一言还要求刷新重试。

.END.

扫码邀请进群，我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型，顺便学一些AI搞钱技能。

往期文章回顾

继续滑动看下一个

李光耀：过早翘起尾巴与美国对抗是中国厄运的开始！

谁会想到，裁员会裁到总编辑头上

太讽刺：搞宣传的，倒台了！

@所有人，今日起全部免费领取

现在有什么副业可以让人快速上岸? 可以试试这个行业，上岸其实不难!!

王小川百余天“拼”出三个大模型，到底是个啥水平？

您可能也对以下帖子感兴趣

李光耀：过早翘起尾巴与美国对抗 是中国厄运的开始！

谁会想到，裁员会裁到总编辑头上

太讽刺：搞宣传的，倒台了！

@所有人，今日起全部免费领取

现在有什么副业可以让人快速上岸? 可以试试这个行业，上岸其实不难!!

生成图片，分享到微信朋友圈

王小川百余天“拼”出三个大模型，到底是个啥水平？

您可能也对以下帖子感兴趣

李光耀：过早翘起尾巴与美国对抗是中国厄运的开始！