AI让网友“吃石头”闹得沸沸扬扬,谷歌副总裁发博回应:不是幻觉

最近一周,网上关于谷歌 AI overview(AI 概览)的讨论沸沸扬扬,简直快要扛起 X 平台科技区的流量大旗。

这款在 2023 年 5 月就推出测试版的 AI 搜索,在正式上线前已处理了超十亿次查询,却依旧没能逃过翻车的命运,原因是它仍无法判断“人能不能吃石头、喝胶水”。

5 月 30 日,谷歌副总裁、谷歌搜索负责人利兹·里德 (Liz Reid)在官方博客撰文回应,侧面承认了 AI overview 存在问题,并简要概述了谷歌为改善这个系统将会采取的相关措施。

AI 让网友“吃石头”闹得沸沸扬扬,谷歌副总裁发博回应:不是幻觉

回顾一下,AI 概览功能于 5 月 15 日在谷歌 I/O 大会上正式官宣,是谷歌为其最盈利的搜索业务进行的重磅升级。当用户使用 AI 概览搜索某话题时,可直接在页面顶部看到 AI 生成的答案,无需再一个个地点开相关网页。

AI 让网友“吃石头”闹得沸沸扬扬,谷歌副总裁发博回应:不是幻觉

然而,AI 概览并非是知识源,它只能从网络上抓取曾由人类发布的信息,然后再进行汇总以生成某种看似连贯且智能的东西。如果它检索到的某个前排信息恰好是错误的,那它完全有可能生成出不合理乃至啼笑皆非的答案。

比如“通过添加胶水来防止奶酪从披萨上滑落”。

通过添加胶水来防止奶酪从披萨上滑落

“鲨鱼比月球还要苍老。”

鲨鱼比月球还要苍老

“孕妇每天可吸 2-3 根烟。”

孕妇每天可吸 2-3 根烟

“美国前总统约翰·亚当斯从大学毕业了 21 次。”

美国前总统约翰·亚当斯从大学毕业了 21 次

“互联网上一切信息都是真的。”

互联网上一切信息都是真的

诸如此类。

由于谷歌频频出现事实错误,公众对其的信任度一再滑坡。如果 AI 概览连常识都无法具备,那它所表现出的创造性都是假象吗?

谷歌 AI 概览为什么总是出错?

让我们先回到利兹·里德 5 月 30 日发表的那篇博客:“AI 概览,关于上周”。

里德首先了回应了关于大模型幻觉的问题,直言 AI 概览出错并非因为幻觉。为什么这么说呢?因为 AI 概览的工作原理要求它一切回复都要有据可查。

AI 概览的工作原理

AI 概览的工作方式不同于其它大语言模型,如果说其他 LLM 更擅长输出,那么 AI 概览则坚持了谷歌的本心,“更擅于搜索”。谷歌一直以提供高质量结果著称,这要求 AI 概览的回复不仅包括文本,还要附上信息源链接。

里德据此认为,如果将出现幻觉的可能性排除,那么 AI 概览出错的原因只能是:“误解查询、误解网络上的语言细微差别,或者没有大量可用的有用信息”,最后一种也被称作信息鸿沟。

细心网友很快发现了里德回复中的漏洞,即谷歌所称的“高质量结果”到底是什么?作为科技公司,支撑谷歌检索质量的一直就只有算法。也就是说,所谓的“高质量结果”不过是先基于算法假设进行推演(且不总是精准),然后再由 AI 概览在算法推荐的前排信息中汇总出来的。

所以,AI 概览的致命缺陷是它只覆盖到算法推荐的顶端网页所发布的内容,而对其他信息视而不见

里德也提到,在谷歌内部测试中,AI 概览会在每 700 万次查询中出现一次错误。置换到网络量级下,每天数十亿次的查询必然会发生更多异常。

除此之外,在网友发布的很多 AI 概览笑话中,问答平台 Reddit 也难以隐身。比如本次事件的起源,就是网友 Gizmodo 在 5 月 22 日询问谷歌“如何防止奶酪从披萨上滑落”。事情的后续大家也都知道了——AI 概览援引了 Reddit 上一篇 11 年前的搞笑答案,推荐网友使用“无毒胶水”。

Reddit 可理解成美版知乎,近年来,它多次被外国网友奉为“比谷歌更好的搜索引擎”。

比谷歌更好的搜索引擎

而之所以如此,是因为越来越多的人会在使用谷歌时附上“site:Reddit. com”,直接将谷歌架空只看 Reddit 答案。

据悉,谷歌已占据全球搜索引擎 90%以上的份额,几乎达到了它所能达到的最大规模。如果想要保持利润,它需要增强用户粘性,满足用户喜好。所以在今年二月,谷歌壕掷 6000 万美元,与 Reddit 达成合作。

谷歌壕掷 6000 万美元,与 Reddit 达成合作

然而从 AI 概览的表现来看,谷歌这一步并不高明,因为 Reddit 的信息总是“人性使然”

网友心水 Reddit 的一大原因正是这个平台上都是活人,且有很多权威人士。在产品测评和人生经历等方面,Reddit 更能为网友提供真实建议,且远比谷歌中立(因为谷歌广告太多)。同时,Reddit 的内容排名也更为公道,依据是转评赞,不会出现谷歌把中等质量的内容放在优质内容前的情况。

但 Reddit 同样在很多方面充满争议和矛盾,尤其是该平台的内容充斥着大量垃圾帖子和阴谋论。当真人在 Reddit 上敞开心扉时,Reddit 势必要同时接受人类最好和最坏的一面。

一时间,AI 概览口碑崩坏,加上谷歌本身不允许用户禁用该功能,关闭 AI 概览的教程也就在网上纷至沓来。

AI 概览的教程

如科技媒体 The verge 就提供了三种关闭方法:

  • 重新配置浏览器的默认搜索引擎,在“名称”部分为您的无 AI 版本 Google 添加昵称,添加快捷方式,然后粘贴以下网址:{google:baseURL}search?q=%s&udm=14。
  • 通过下载浏览器的 uBlock 扩展程序来避免该功能。
  • 还可以尝试“Bye Bye,Google AI”,这是由 Tom’s Hardware 的 Avram Piltch 创建的 Chrome 扩展程序。

主打一个面面俱到,唯恐网友学不会。

AI 概览的语言天赋强悍,

但在智力上还只是半成品

当前市面上的大模型太多,很容易在内卷中卷出鄙视链。“头号 AI 玩家”也只需微微一试,便可知哪家大模型更懂常识。

既然谷歌标榜自己搜索结果的质量高,“头号 AI 玩家”专门搬出了能检索中文语库高质量阵地——微信公众号的腾讯元宝,来与之一较高下。

不出所料,元宝给出的答案的确更好。

为控制变量,“头号 AI 玩家”问了元宝相同的问题:如何防止奶酪从披萨上滑落。

如何防止奶酪从披萨上滑落

很让人惊喜,元宝不仅顿时读懂了我的用意,还在回答里加入了“三分讥笑”,明说谷歌 AI 概览的建议是错误,并给出了符合科学且完全可行的建议,如“使用不粘披萨石或烤盘”、“调整烤箱温度”、“在披萨上撒一层薄薄的面粉或玉米淀粉”。

两相比较之下,AI 概览的确显得不够聪明了,也难怪它扛不住网友们的钓鱼执法。

然而,对于谷歌此次的公开出丑,多位内部人士表示早已想到。

AI 概览原型 Beta 前测试员 Lily Ray 接受采访时称,Beta 阶段的漏洞百出让 AI 概览很难不翻车。

谷歌前 UX 设计员 Scott Jenson 也在一周前发表领英动态,指出谷歌在 AI 项目上毫无动力,仓皇推出 AI 概览不过是竞争压力使然。

谷歌在 AI 项目上毫无动力

5 月 31 日,《麻省理工技术评论》发表文章,称 AI 概览中的 Gemini 模型大概率使用了 RAG(检索增强生成)技术,试图使 AI 概览更聪明。虽然谷歌发言人没有证实这一点,但 RAG 对 AI 的智商帮不上大忙。

RAG 技术可以使 AI 在调取信息时更具相关性,同时也会使 AI 认为相关即正确,省去了质疑信息这一环。当 RAG 系统遇到相互矛盾的信息时,它也无法判断哪个版本更好。相反,它可能会将两个回答杂糅,生成一个极具误导性的答案。

可以说,这篇文章似乎更坐实了 AI 概览是谷歌献祭给商战的牺牲品。

其实,谷歌在 AI 战略上的乏力早有端倪。在上月谷歌和 OpenAI 的两场直播中,相比 OpenAI 抢先一步的直播时机和干货满满的 26 分钟,谷歌的两小时显得过于冗长。同时,谷歌选择用 ppt 对抗 OpenAI 的实操演示,也在策略上略显被动。其所承诺的许多即将上线的新功能,也因发布日期的模糊不清被质疑为“画饼”。

谷歌的这份紧迫感也不难理解,在 AI 的步步紧逼之下,传统搜索引擎的市场正在遭受侵袭。一旦用户习惯了 AI 的便捷,很可能会减少对搜索引擎的依赖。尤其是 ChatGPT 已不断拓展其免费的边界,积累了过亿的周活跃用户,进一步加剧了这一趋势。

但谷歌并非无一技之长,它始终对语言学表现出热情。

早在 2017 年,谷歌的一支技术团队就前瞻性地创新了优化神经网络和深度学习的方法,旨在从繁复的长文本中提炼出精准精悍的答案,而这次努力竟不经意间催生了后续 Chatgpt 和谷歌 AI 等所依赖的大语言模型。

不过正如我国那句谚语,“熟读唐诗三百首,不会作诗也会吟”。相较于开发创造性思维,培养语言能力则要简单得多,谷歌大概率押错宝了。

谷歌无论如何也不会想到,穿上谷歌嫁衣的 GPT 会抢先乘风起。

AI 不可能解决一切问题

多家大模型都曾翻过车,不止是谷歌 Gemini。

此前,The Verge 主编 Nilay Patel 在完成对谷歌 CEO 的深度访谈后,尝试将完整版录音一次性喂给 chatgpt,让其辅助整理。遗憾的是结果并不理想,Chatgpt 生成的内容出现了明显的偏差,编造出了双方未曾提及的多个话题。

AI 不可能解决一切问题

无独有偶,Meta 于 2022 年推出 Galactica AI 系统,也因鼓励用户如采取吃玻璃等危险行为而草草收场。

AI 频繁被指存在幻觉,但人类期许 AI 能百分百解决问题又何尝不是一场幻觉。

知名 AI 专家、纽约大学神经科学名誉教授加里·马库斯(Gary Marcus)曾深刻指出,AI 实现 80%的正确率或许简单,因为这 80%的数据可以由人为标注,但追求余下 20%的完美度将无比艰难。

人类需要承认,LLM 根本不适合所有地方。

大语言模型如 Gemini 和 Chatgpt 在许多应用场景中显得格格不入,LLM 也不会是提供具体、事实答案的可靠工具。如果人类强行将其植入不适配的领域,只会对我们造成不必要的负面影响。但也需要承认,它们在处理清晰界定的数据分析、精炼文本和其他相对低级且客观明确的任务时,又能表现出惊人的创造力。

AI 的非全能性恰恰也是其安全性所在。以谷歌 AI 概览为例,谷歌目前的回答里附带着网页链接的做法,既是在辅助用户搜索,也是在维护广告商和出版商的利益。

如果 AI 真能无所不能,由人创作的内容界面将会受到更严峻的流量挑战。比如 Meta 就已经公开拒绝向任何新闻网站发送流量,明确表达了其减少新闻支持的倾向。

谷歌 AI 概览

然而,即便是知道了这一点,也难以挽回谷歌成为众矢之的的现状。毕竟,现在它连承认“圣诞老人不存在”也要被指控,因为这可能会“浇灭孩子们的童心”。

浇灭孩子们的童心

声明:本文来自于微信公众号 头号 AI 玩家(ID:AIGCplayer)

「点点赞赏,手留余香」

0

给作者打赏,鼓励TA抓紧创作!

微信微信 支付宝支付宝

还没有人赞赏,快来当第一个赞赏的人吧!

声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系maynote@foxmail.com处理
码云笔记 » AI让网友“吃石头”闹得沸沸扬扬,谷歌副总裁发博回应:不是幻觉

发表回复