自2022年11月ChatGPT发布以来,AI经历了几十年来最大的一场热潮。一年半以后,越来越多的迹象表明这场狂欢似乎已经越过了期望之峰,即将滑向失望之谷。
比起AI的短期发展路径,人们对其终局的争论更加激烈。一派认为碳基生命只是硅基生命的启动器,AI发展到最终的AGI(人工通用智能),甚至ASI(人工超智能),就是造神。另一派认为,正如几年前说“数据是新石油”一样,AI是新电!它会在各个领域增强人类社会的能力,成为人类历史上最强大的工具,但依旧是工具,和百万年前打制的石器并无本质不同。
AI 发展的技术里程
讨论概念很容易走上形而上的路,但AI的基础仍然是技术。接下来,我们从技术角度探讨这个问题。AI的历史和计算机的历史一样长:
从符号AI到深度学习
AI的发展历史几乎与计算机一样悠久。在思考设计计算机的架构时,先贤们就期待有一天计算机能和人类一样聪明。前几十年,AI的路线基本是符号处理和专家系统,尽管在某些领域取得了一些进展,例如IBM的Deep Blue在1997年击败了国际象棋世界冠军卡斯帕罗夫,十几年后其Watson超级计算机在2011年击败了《Jeopardy!》的两位冠军。但整体而言进展始终不及预期,直到机器学习领域出现重大进展。
机器学习的理论提出很早,但随着计算能力的提升和新算法的出现,21世纪尤其是深度学习的兴起,使其成为AI技术的主流。
老派 AI(GOFAI)
计算机代码是决定性的,代码逻辑写好后,程序运行1万次,每次都会给出同样的结果,计算机非常擅长推理,“男人都有喉结”,因为“关羽是男人”,所以“关羽有喉结”。当用这种Symbol-manipulation符号操作的方式来实现AI时,由于边界情况corner case太多,用再多的if-else也难以穷举,最终进入死胡同。
机器学习是一门开发算法和统计模型的科学,计算机系统利用这些算法和统计模型来执行任务,无需明确指令,而是依靠模式识别和推理。计算机系统通过处理大量历史数据并识别数据模式,从而能够根据给定的输入数据集更准确地预测结果。
机器学习背后的核心思想是任何输入和输出数据组合之间存在数学关系。机器学习模型事先并不知道这种关系,但如果给定足够的数据集,它可以推测。这意味着每个机器学习算法都是围绕可修改的数学函数构建的。基本原理可以这样理解:我们通过提供以下输入/输出组合来“训练”算法 - (2,10)、(5,19) 和 (9,31)。该算法计算输入和输出之间的关系为:o = 3 * i + 4。然后我们给它输入7,并让它预测输出。它可以自动确定输出为25。
虽然这是基本理解,但机器学习的原则是,只要计算机系统拥有足够的数据和处理能力,所有复杂的数据点都可以在数学上联系起来。因此,输出的准确性与输入数据的数量直接相关。
如果系统的输出是可预测的,则称其为确定性的。大多数软件应用程序对用户的操作做出可预测的响应,因此可以说:“如果用户这样做,他就会得到那个。”但是,机器学习算法通过观察和经验进行学习,因此本质上是概率性的。因此,现在可以说:“如果用户这样做,则发生这种情况的概率为X%。”
对比GOFAI,机器学习从推理变成了归纳,寻找输入和输出间的关系,然后再泛化以处理新问题。
上一个AI热潮有两个明星领域——人脸识别和推荐算法,都是深度学习的产物。
过去十年间,深度学习理论和实践持续进步,最终推动了ChatGPT的诞生:
**无监督学习(Unsupervised Learning):**训练数据不再需要人工打标,大大减少了数据准备工作。
**Transformer 架构:**2017年出现,通过并行处理大大降低了神经网络的训练难度。
**人类反馈强化学习(Reinforcement Learning from Human Feedback):**保持输出与预期一致,这点对LLM的应用成熟至关重要。
上述技术在2018年组合到一起,开启了本轮AI热潮的扩展法则(Scaling Law),从2018年1.1亿参数的GPT,到2021年1750亿参数的GPT-3,再到1.8万亿参数的GPT-4。
大语言模型的局限性
**大模型就像个压缩算法,**参数的不断增加,可以让大模型存储更多的知识,能回答更宽泛的问题。但和其他机器学习算法一样,它仍然是在通过归纳的方式寻找输入和输出间的逻辑关系,也就是说,它不是在回答正确的答案,而是在回答最像正确答案的答案,这就是其幻觉(hallucination)产生的原因。
对LLM的使用有几个层次:
**最简单的是直接使用基础模型,**例如直接在www.chatgpt.com网页上和GPT-4对话,或者直接调用Llama的API。
指令工程(Prompt Engineer):类似ChatGPT提供的GPTs功能,通过指令条件,让LLM扮演某个角色,或向其提供上下文,提高其在特定场景下的表现能力。
检索增强生成(Retrieval Augmented Generation):总有模型训练时未采用的数据,特别是组织内部或者个人数据。数据的缺失是模型回答幻觉的重要原因,使用RAG可以将私有信息存入向量数据库,根据问题查询相关信息,将搜索结果一并加入prompt提交给模型作为输入,可以大大提高模型对特定问题的准确度。
微调模型(Fine-Tuning):RAG可以给模型新知识,但有些场景需要的不只是新知识,而是新能力,例如编写代码、总结文章、撰写邮件等。这时就可以用Low-Rank Adaptation(LoRA)等方法对基础模型进行微调,提高其在特定场景的能力。
综上所述,至少大语言模型(LLM)不会成为神。即使扩展法则(Scaling Law)依旧有效,LLM未来可能拥有更多参数和知识,在更多领域表现优于人类,但也不会发展成AGI。相反,与传统的指令性代码不同,深度学习和神经网络提供了一种全新的计算方式,在某些领域能够提供传统计算机无法实现的价值,例如特斯拉FSD V12版本相较于之前版本的显著进步。
在最新的这波AI 热潮中,几家科技巨头冲在了前列。
在历史上,很少有基础硬件厂商的利润率能超过 50%,尤其是在 Nvidia 的营收规模接近 1000 亿美元的情况下。市场的激增吸引了大量投资者,AMD 的 Ryzen 和 Intel 的 Gaudi 正在奋力追赶,主要客户 Alphabet 和微软也在自研 TPU 和 Maia 来阻挡其势头。虽然 AI 仍在热潮高峰期,并且 AI 发展的瓶颈仍受制于算力,但以 IT 行业的过往历史来看,一个技术栈的利润很难长期由底层硬件厂商攫取。
公有云三巨头 AWS、Azure 和 GCP 借着 AI 的东风,从客户优化成本导致的收入下滑中恢复了过来。然而,在 AI 战略上,三家走出了不同的道路:
**微软的 AI 技术栈:**底层芯片使用 Nvidia,云服务为自家的 Azure,模型依赖合作伙伴 OpenAI,LLM 平台是 Azure MaaS,应用有自家的 Copilot,同时依赖于第三方应用厂商。
AWS 的 AI 技术栈:芯片也是 Nvidia,云服务为自家的 AWS,模型依赖第三方,LLM 平台是 Bedrock,应用依赖于第三方。
**Google 的 AI 技术栈:**芯片为自家 TPUs,云服务为自家的 GCP,模型是自家的 Gemini,LLM 平台是 Vertex AI,应用是自己的全家桶。
可以看出,Google 走的是标准的垂直集成路线,整个 AI 技术栈都是自家的,好处是容易控制最终质量。如果未来 LLM 没有商品化,性能和效果长期达不到期望,强集成的技术路线能提供最优的质量。
AWS 则延续了公有云的业务模型,走坚定的 IaaS 和 PaaS 托管路线,不生产内容,赚的就是托管钱。
微软的AI战略最为复杂,这源于其多元化的业务模式。一方面,微软拥有 Azure 的公有云业务,另一方面还包括 Microsoft 365 的 SaaS 业务和 PC 业务。因此,在云端,微软可以被视为 AWS 和 Google 的结合体,不仅通过 Azure 与 Azure MaaS 提供 IaaS 和 AI API 服务,还通过 Copilot AI 功能赋能所有的 SaaS 业务。
在 AI 被视为科技大厂生死线的情况下,微软、Google 和 AWS 能选择不同的 AI 战略是非常值得尊敬的。反观国内大厂,都是一个套路……
在 Copilot+PC 发布会上,微软主要发布了 Recall、Copilot 画图和实时翻译三项 AI 功能,并且提供了 Copilot+Runtime 技术栈,来协助开发者在 PC 上开发 AI 应用,以期继续强化 Windows 的平台地位。
微软计划用在 AIPC 上的模型 Phi-3 的起步版 Phi-3-mini是 38亿参数,Phi-3-small 和 Phi-3-medium 分别是70 亿 和 140 亿参数。
作为 AIPC 旗舰功能的 Recall,虽然预览即拉跨,被锤爆了安全问题,截图和数据库都是明文存放也没有额外的访问控制 https://github.com/xaitax/TotalRecall
Windows Recall将数据存储在本地一个未加密的 SQLite 数据库中,屏幕截图也是简单的存放在本地一个文件夹中,你可以在这儿找到它们:
_C:\\Users\\$USER\\AppData\\Local\\CoreAIPlatform.00\\UKP\\{GUID}_
图片都存储在下面这个子文件夹中
_.\\ImageStore\\_
下面是 SQLite 数据库 ukg.db 。
但从战略上看,AIPC 无疑是一着妙棋。与传统软件不同,LLM 每一次推理的边际成本并非趋近于零。通过云端处理,无论是对软件厂商的成本,还是对三大公有云厂商的资本开支,都是巨大的压力。充分利用终端算力,将成本转嫁给最终用户,是一招高明之举。微软对 AIPC 设置标准算力要求,也是为了商品化 AI 边缘算力平台,使软件厂商更容易利用终端算力。
与聊天形式的 ChatGPT 相反,Apple Intelligence 没有原始的 prompt 输入和结果输出,所有功能都被隐藏在原来的 UI 之下,严格限定了使用场景。体现了苹果用户体验第一的理念,在 LLM 的进展尚不能另人满意的情况下,通过限定场景来提高质量稳定性。
在架构上,终端设备上有两个 LLM,一个处理语言,一个处理图片。文字模型有 30 亿个参数,经过优化,在 iPhone 15 Pro 上 time-to-first-token 时延可以做到 0.6 毫秒,每秒钟能生成 30 个 tokens。本地算力不够时使用云端的 Private Cloud Compute,云端使用与设备上一致的 Apple silicon 硬件,既保证隐私,又提高能源效率。
AI的未来发展充满了不确定性,但其在增强人类能力方面的潜力无疑是巨大的。正如乔布斯曾比喻计算机是人脑的自行车,而如今,AI 将成为人脑的自动驾驶汽车。