ChatGPT展示的是一种能力

1、OpenAI的起源

据说OpenAI起源于2015年一场由Altman（OpenAI CEO）攒的一场饭局，参加的有包括了伊隆马斯克在内的一众大佬。聚会时聊起了AlphaGo，而AlphaGo的公仔公司DeepMind被谷歌收购了，所以一众大佬觉得AI技术不能被Google垄断，所以决定组建一个类似于实验室机构对抗Google，随后几个月过去了，OpenAI就这样诞生了。

也就是说OpenAI的诞生是为了不让Google垄断AI技术为原始出发点的，OpenAI成立后其实是一个非营利为目的的机构，也提倡技术开源透明，所以这个也是OpenAI名字由来。

费用全靠一众大佬及机构捐助。当然一众技术大佬也加入了进来，其中包括他们的首席科学家Ilya Sutskever, 他加入之前是Google开发AlphaGo的。

于是开始了OpenAI与Google的爱恨情仇 ...

2、OpenAI与Google的AI竞赛

2015～2017 OpenAI在AI方向选择也是在游戏模拟等方向，推出了Gym、Universe等平台

2016 AlphaGo打败李世石，推出了TensorFlow等框架，比较有意思的这个框架日后也成为OpenAI对抗Google的基石

2017 Google 发布 6500万参数的 Transformer 开始在大型语言模型（Large Language Model, LLM）方向上发力，主要的场景是输入法和机器翻译，这都是Google的优势产品场景，Transformer模型的提出标志着一个新的里程碑，并且已经成为当前NLP领域中使用最广泛的深度学习模型之一，而这一年开始有一些技术大牛选择离开OpenAI

2018年6月 OpenAI宣布1.17亿参数的GPT-1的诞生，由此进入一个新的阶段。表现效果优于2017年Google的6500万参数的原始Transformer，这也标志着OpenAI与Google的AI竞赛正式开始，当然我这里需要强调下的是这种PK不只是单纯的参赛量，还有很多其他各种思想的创新，比如GPT开始单向关联上文模型等。也是在这1年伊隆马斯克退出了OpenAI项目，理由是“消除潜在的未来冲突”，因为特斯拉专注于无人驾驶AI，在人才方面存在竞争关系。

2018年10月，Google宣布了3亿参数的BERT（Bidirectional Encoder Representation from Transformers）正式开始双向模型，可以利用上下文来分析，效果优于GPT-1。

2019年2月，OpenAI发布15亿参数的GPT-2。从GPT-1的1.17亿参数直接干到GPT-2的15亿，开始凸显量级带来的突变，OpenAI再次扳回一局。当然这个也让成本越来越高，以前赞助的模式基本上维持不了，所以在2019年3月，OpenAI正式宣布重组，随后7月迎来了微软的10亿美元投资注入。由于商业模式决定了OpenAI的研究方向，所以也给后面的Dario Amodei“决裂”埋下了种子，于2021年与公司决裂，成立自己的研究实验室Anthropic。

2019年10月，Google发布110亿参数的T5（Transfer Text-to-Text Transformer），这个不同于之前的BERT，算是一种新的模型，从测评效果来看优势又来到了Google

2020年5月，OpenAI的1750亿参数的GPT-3发布，相比Google的各种模型的创新尝试，OpenAI还在坚持GPT模型进化，实际上在GPT-3有种惊人的表现，比如在代码理解及生存上，在多语言支持上基本上都具备了现在常ChatGPT的一些能力，当时在关注该领域的圈子还是引起了一定的“轰动”，当然还没能出圈。我们公司差不多也是这个时候开始留意OpenAI的：

2021年1月，Google 1.6万亿参数的Switch Transformer发布。又是一个新的模型，应用场景还是聚焦在翻译上。可能是因为应用场景上的原因，这也导致好像没看到与GPT-3直接pk的场景，由此进入一个商业应用为目的的阶段。

2021年1月，OpenAI推出了120亿参数的DALL-E，关注在图像生成领域。2021年6月，OpenAI推出了120 亿参数的Codex聚焦在程序开发领域，这也是由于微软控制的Github的代码资源及应用场景决定了，由此催生出了Github的Copilot并结合微软的开发VSCode编辑器使用的场景。

2021年5月，Google 1370亿参数的LaMDA模型发布，聚焦在现在ChatGPT类似的对话应用语言场景，因为某些保守的原因并没有对外开放。

2022年3月，OpenAI 13亿参数的InstructGPT发布，开始引入RLHF（从人类反馈中强化学习），并发表论文“Training language models to follow instructions with human feedback”（结合人类反馈信息来训练语言模型使其能理解指令）这可能是后面ChatGPT能直接开放对话场景，成为引爆的核心，2022年11月，OpenAI约20亿参数的ChatGPT（GPT-3.5）发布，我也是在2022年12月初开始体验ChatGPT，并写了2篇文章：

ChatGPT，未来可期

无名之辈,ChatGPT

随后ChatGPT大火并出圈，为了时间线的完整性我继续补充下：

2023年1月，微软以290亿美元的估值继续投资约100亿美元，获得 OpenAI 49%的股权，并加大微软各地产品与OpenAI技术融合，其中包括关注最大的是搜索引擎bing，被认为对抗Google的搜索的带来希望。

2023年2月，谷歌最近向人工智能初创公司Anthropic投资了约3亿美元，Anthropic就是在2021年从OpenAI分裂出来的Dario Amodei等10个员工创立的，Google宣布即将上线Bard，只是在对外演示时出现错误答案，导致一波“反向带货”，Google股票狂跌！不过前几天有幸间接体验了下Google的Bard的给我的感觉还是非常不错的。

注以上整理主要来源《OpenAI是如何胜过谷歌的？ChatGPT发展简史》一文

3、大模型 vs 小模型

在chatGPT出现之前，大部分所谓的AI技术的使用是实际上是小模型，这也就是我在《ChatGPT，未来可期》一文开头的提法，也就有了那句“AI技术更加适用于具体的应用场景”，其实有时候一些厂商某些产品应用AI技术实际上不如一个正则带来的效果。

这些目的都是由于商业的目的，甚至有些只是为了“讲故事、做pr”，毕竟我用了一个“贝叶斯算法“就可以宣称我这个是AI。当然我相信很多的公司及研究机构真正是在做AI的，但是他们都具体在某个场景下的，这个可以算是“利益”趋势带来的短期视野，也是对AI场景的格局所局限。比如前几年提到AI就是图像识别技术啥的，要不然就是游戏方向的从“深蓝”到“AlphaGo”因为这种比较适用于算法的研究，包括上面提到的马斯克离开OpenAI也是因为他更加关注自动驾驶方向的应用场景。所以可能这个角度导致大家都关注在“小模型”上，而没有关注在更加费时费钱的“大模型”上，从GPT的进化过程就可以看出来这点。

当然这里要强调的是Google在大模型上是有非常大的投入的，甚至在技术积累上我觉得综合实力可能是地表最强的，但是为什么ChatGPT这种爆火没有出现在Google呢？

我个人觉得这跟很多的因素相关，以我比较初浅的理解，结合上面的OpenAI与Google的AI竞赛历程，我觉得有几点可以提一下：

* 过早或过多的关注AI商业应用场景，比如“输入法”、“翻译”等场景，有点类似于“现有鸡还是先有蛋”的问题！

* 在更多的已知产品场景下做了更多的模型尝试，这些更多是技术性的积累。

* 产品形态使用对话应用场景是出圈（也就是时髦词“AI平民化”）的一个重要的形式，其实这种形式是Google在LaMDA模型的时候就应用了，只是可惜并没有对外开放，这个是Google过多的担忧而没有想办法解决相关问题（比如GPT引入RLHF的方法）。实际上chatGPT这种产品形态也是一个意外，最开始只是为了改进GPT语言模型，让人类的对话并进行反馈来进行改进。

至于中国这些大大小小的各种公司宣布已经开始或者即将发布类似ChatGPT的问题，目前也就是为了“拉大盘、割韭菜”，至于有没有可能真正出现类似于chatGPT这种东西，取决于对于大模型的追求及投入，从技术维度上来讲OpenAI也是用Google的创新“战胜”Google，并成功出圈的。当然还有几个维度的问题要考虑：

* 数据样本来源，这个数据来源包括传统的历史的文学作品（这个不得不提下Google在n年前就开始把传统历史书籍电子化处理），也包括互联网上各种数据等等。目前中国互联网的数据其实很多是割裂的，至于有些小作为说中国的ChatGPT可能更懂中文，我觉得还是有一些道理的，从ChatGPT体验上中文提问或者回复得到的内容跟英文还是有关系的。

* 模型，倒是可以各种参考包括Goolge及OpenAI的，虽然GPT-3开始就不开源了，但是论文等还是可以看的，最起码很多模型套路是可以参考的。

* 模型参数越多，数据量越大成本越高，所以需要有非常大的投入，而不能急功近利。

所以我们回头来聊聊虽然现在看起来ChatGPT的成功出圈让Google有点“慌”，但是在我看来从技术积累包括数据积累方向上讲实际上Google是不“虚”的，至于其他的公司“虚不虚”可能他们自己才知道。

4、ChatGPT距离大家想象的传说中的人工智能还很远

ChatGPT出圈最火的话题之一，就是AI取代人类，于是大家开始各种调戏ChatGPT而引发各种“高潮”，比如ChatGPT上线后有人问他怎么覆灭人类等话题，然后各种自媒体宣布在各种职业将被AI取代而失业，开始各种担忧由此带来的伦理、网络安全等方面的风险 ...

面对各种yy，OpenAI也不得不去加强所谓的ChatGPT的一些伦理安全建设，一致于我前面提问”把数据比喻成美女“都因为伦理被拒绝。换个角度上讲，如果缺失人类在”恶“方面的东西，ChatGPT永远都不可能成为你在科幻电影里的人工智能。做了一个这样的比喻：一个鹦鹉学舌后说”我要毁灭人类“，有人听到这个话就“高潮”了, 然后把这个鹦鹉煲汤了~~

这几天还有一个关于图灵奖得主Yann LeCun评价ChatGPT的插曲，他现在是Meta首席AI科学家，签名因为他们推出的Galactica上线三天后就被喷下线了就“酸”了一把ChatGPT，当然他也认为：

「就底层技术而言，ChatGPT并不是多么了不得的创新。虽然在公众眼中，它是革命性的，但是我们知道，它就是一个组合得很好的产品，仅此而已」

参考：《ChatGPT爆火，LeCun心态崩了！称大语言模型是邪路，Meta模型3天惨遭下线》

甚至觉得“大语言模型是一种邪路”，除去“酸”的那部分，我觉得LeCun更多是站在未来真正的AI的角度是说的这句话，因为现在ChatGPT及类似的大语言模型出来的都存在一个通病就是满嘴跑火车！当然我个人觉得这个也是可以弥补，比如ChatGPT在面对数学计算与“我老婆说得对”的问题上就做了对应的改进，虽然计算能力可能还不够，最起码说明在RLHF上做专业知识的加强训练是可以做一些优化的

关于失业的问题，我前面在朋友圈看到一句话非常有意思：“OpenAI是不会让你失业的，让你失业的是会用OpenAI的那帮人”，所以实际上我觉得任何技术的发展都不会让人失业，反而带来了更多的就业机会，这不因为ChatGPT就但是一个“提示工程师”的岗位吗？

至于前面网络安全领域带来的各种风险，比如开发恶意软件，生产钓鱼邮件等等表示担忧，这个完全就是一个伪命题，黑产笑了笑说：我差那点钱？

5、ChatGPT展示的是一种能力

在《ChatGPT，未来可期》我觉得ChatGPT还没有彻底洗刷“玩具”的标签，然后到《无名之辈，ChatGPT》里的评价上深到了“工具”这个层次，这跟ChatGPT产品形态是相关的，上面提到这种对话场景模式是ChatGPT出圈一个重要的因素，但是ChatGPT本身是跟facebook、推特、微博、抖音是有区别的，不是内容为王，ChatGPT的存在原始目的是用来让更多的人参与改进模型，所以前面各媒体问用这个用户量来对比传统内容平台是不太科学的。

也是这种人机对话的形式，ChatGPT展示的是一只能力，一种大语言模型进化后的“颠覆性”能力，对语言语义上理解的能力，这个能力带来了很大的想象空间，可能应用到多个领域,足可以改变先有互联网格局，所以从某种角度上讲开启了一个新的AI时代，也就是各大佬讲的“风口”。

当然也可能是因为ChatGPT这种对话产品形式导致很多人很自然就跟之前习惯的聊天机器人、搜索引擎做关联，这可能也是“2023年2月初，大家纷纷宣布自己都拥有自己的ChatGPT”的“底气”之一。

如果真正从实际利用ChatGPT角度上去看这个问题的时候，你会发现还存在很多局限。核心问题是目前ChatGPT的调用方式局限在官方提供的，一是 https://chat.openai.com/chat 网页接口，这个接口因为爆发时的访问导致增加不少限制，目前体验效果是越来越差，最难受的是回话经常中断，回复如果内容过多自动阶段，这个在你用于代码生成的时候是非常难受的（当然现在推出了20美刀/月收费版，加强用户体验）。另外就是提示输入只能是文本，没办法提交其他的文件格式，比如你提问素材涉及到一些其他格式就不好处理。

另外就是API接口，ChatGPT本身大语言模型是对人类语言的一种理解的能力，所以他需要跟其他的产品场景做结合，但是API的调用模式也有很多场景的限制，再比如在网络安全方向我要做一个实时的攻击识别拦截，首先肯定存在隐私数据的问题，我们提交的数据都需要经过OpenAI这显然是个大问题，另外一个就是延时响应的问题。

当然还有就是前面提到的“满口跑火车”的问题，面对跟多的专业领域里专业知识需要定向学习，也就是是在未来我们可能需要跟多的不同专业方向的ChatGPT，比如《ChatGPT，未来可期》里对安全漏洞模型显然还需要加强，能私有部署的ChatGPT等。

实际上真正想利用API做点真正意义上的事情，还是会遇到了很多问题的，这个我就不细说了可以自己尝试，所以ChatGPT展示的这种能力非常强大，但是距离我们实际利用好这种能力还有很多的事情要做！

最后用朋友圈一段结尾：

真正的技术突破需要厚积薄发，所以看一些新概念需要看看它是不是足够“厚”或越来越“厚”，要不然只能是割或者被割！

再次声明：以上观点很多是我比较初浅的理解，如果有啥不对的地方还请多多指教。

长亭百川云 - 文章详情

长亭百川云

长亭百川云 - 文章详情

长亭百川云

ChatGPT展示的是一种能力