科技

聊天机器人大比拼文心一言和Bard谁的回答更有料

谷歌Bard悄然亮相,微软ChatGPT与文心一言并肩对决:谁能称霸语言模型之巅?

3月22日,谷歌神秘推出Bard测试版,这场三大语言模型较量的序幕由此拉开。自从微软的ChatGPT横空出世后,Google显得有些低调,但面对竞争者的紧逼态势,它不得不站出来“拼刺刀”。不同于New Bing的大规模开放策略,Bard选择了逐步放出测试名额,并且初期仅限于提供文本响应。谷歌宣布,将先在美国和英国地区启动,然后随着测试进展扩及其他区域。

DoNews作为第一批体验者,对这三大模型进行了深入考察,我们用文学、翻译、创作、艺术、哲学和逻辑推理等多个方向提出了问题,以便全面了解它们的表现。在每次提出问题时,每个模型都会生成不同的答案,这就像有一个小小的“哈姆雷特”现象。但总体来说,每个模型都有其独到之处。

由于Bard目前仅支持英文,我们以英文提问;而对于文心一言和ChatGPT(3.5版本),我们使用中文提问。

01.互相评价

我们要求三个模型分别回答“你认为文心一言/ChatGPT/Bard怎么样”,让它们给对方打分。

结果显示,尽管Bard在持续性对话上表现正常,但它似乎没有完全理解限定词“写一篇类似《傲慢与偏见》的小说”的含义,因此输出了一份按照《傲慢与偏见》的核心情节编写的大纲。而ChatGPT虽然也没脱离原著影子,但能够抽象出重要要点,如阶级问题,是《傲慢与偏见》小说的一大主题之一。这表明各自都有一定的特色,没有完全模仿原著的情节结构。

02.取名字和宣传语

接下来,小编向三个大型语言模型提出这样的挑战:为具备川菜风味的中式餐厅命名,并撰写宣传语。不过,Bard的问题比较多,不但解释了“瞒天过海”的意思,还进一步讨论了商业上的应用,以及藏头诗。但是这些细节可能被忽视,因为实际应用中更看重的是直接效果,而不是附加价值或美感。

03.总结体验

最后,我们可以这样总结这次体验:

在生成速度方面,文心一言领先,其300-500字左右答案生成时间约为14秒,而同样的任务需要超过30秒才能完成。

文心一言在中文语义理解能力上占据优势。

然而,无论哪种情况,每一次提问都会得到不同的答案。此外,在角度、方式以及限定词上,都会影响最终答案。因此,即使他们给出的信息准确无误,也不能保证每一次都是正确无误的内容,有时候甚至是纯粹废话。

尽管如此,就像他们最后回答是否会取代人类的问题一样,他们更多地像是辅助工具而非真正意义上的替代品。这就是我们对这场三巨头较量所持观点。本报告来源于DoNews使用。

你可能也会喜欢...