今天,最热的事情是:Meta发布了Segment Anything Model (SAM)新模型。
分割作为计算机视觉的核心任务,已经得到广泛应用。但是,为特定任务创建准确的分割模型通常需要技术专家进行高度专业化的工作,此外,该项任务还需要大量的领域标注数据,种种因素限制了图像分割的进一步发展。
Meta 在论文中发布的新模型名叫 Segment Anything Model (SAM) 。他们在博客中介绍说,「SAM 已经学会了关于物体的一般概念,并且它可以为任何图像或视频中的任何物体生成 mask,甚至包括在训练过程中没有遇到过的物体和图像类型。SAM 足够通用,可以涵盖广泛的用例,并且可以在新的图像『领域』上即开即用,无需额外的训练。」在深度学习领域,这种能力通常被称为零样本迁移,这也是 GPT-4 震惊世人的一大原因。
关于AIGC带来的新世代,
我给大家带来的第一个关键字是:分工。
人类经济活动,也就是生产、生活活动,彻头彻尾都是一种分工行为。
比如农业经济中,种粮食是为了果腹,种棉花是为了御寒。种花生和向日葵是为了消遣和更健康,种玫瑰就是满足人的审美情操了。
因此,分别满足人的需求,对应了人类社会的各种分工现象。
这些分工并不一定会存在先后的问题,往往是同时都需要满足,区别在于仅仅满足其中一个人死亡的快,仅仅满足其中另外一个看起来人死亡的很慢,实际上,也是行尸走肉了。
所以说马斯洛关于人需求满足有一个层次,满足下一个才会有上一个需求确实无法解释有的人宁愿绝食也要追求自己认定的正义。也同时无法解释有的人在衣食无忧之后选择了躺平的现象。
因此,
人类经济活动的本身就是满足人类需求的分工行为,并不绝对区分先后,但存在富集。
关于分工,我还有一个观察。
我们都知道,在自然界普遍存在一种现象,分形。这个现象其实也存在于人类经济社会活动中。
除了满足不同需求的分工,这样一种纵向的分工。
我们还存在另外一种分工,就是横向的分工。
纵向的分工解决的是有没有的问题,未必有先后,而横向的分工解决的是快不快的问题,肯定有高下。
都是种粮食,有的人就打出来的粮食多,同等面积多得很多得人,效率就比其他人高。
在更高的视角来看,我们发现:
农业可以比畜牧业养活更多的人。
这是因为,畜牧业的特点是逐水草而居,也就是通过游击战战去找吃的,找穿的。
而农业则不一样,农业通过改变游击战为阵地战,将吃的,穿的固定到特定的位置,大大提高了获取的效率和精确度。
因此,相对畜牧业,农业是一种生产效率的跃迁。
应该来说,这是一种空间上的迁移。
进一步观察,我们还能发现:
工业显然比手工业效率更高。
这是因为工业是将高水准、高效率手工业作业人的技能工艺进行了流水线复制,妥妥的效率放大器。
因此,工业肯定很重要,但能制造工业的工业,比如工业母机就更重要了。
比如数控机床,比如制造芯片的光刻机等等。
我们来继续探究。
工业,或者工业母机,是不是都需要工艺,可是这种工艺,也就是行业秘密,Knowhow,专利等等的产出,往往需要很长时间的迭代、积累,以前我们为什么老是说老师傅、老师傅,上海这边叫老法师,就是这些作业人员经过多年的积累,在大脑中积累了太多的经验,真是“吃的盐都比我们吃的米饭都多”。
尊重老师傅,是我们尊重知识的表达形式。
后来有一个国家的某一个部门,提出了一个“数字孪生”的概念,后来衍生出信息物理系统,CPS, Cyber-Physical Systems。
在这样的系统中,对工业工艺,也就是如何更快更好的生产出更高质量、更低成本工业产品, 对工业工艺的工艺,也就是如何如何更快更好的生产出更高质量、更低成本工业母机,进行数字拟态、并行性迭代,原来需要30年发现的,现在可能仅仅需要1~2年发现也工艺(规律),只要算力足够,只要反应工业制造的模型能最大拟态。
于是,我们发现了,数字产业,就是抽离出工业,工业母机,也包括农业,需要工艺、规律的部分,更快时间更高效率的产出,并驱动工业设备来完成制造。
因此,
因此,相对工业经济,数字经济又是一种生产效率的跃迁。
应该来说,这是一种时间上的迁移。
总结来说,人类的生产活动,
就是一种纵向上的分工,一种满足需求的分工;
就是一种横向上的分工,一种满足效率的分工。
今天给大家带来的第二个关键字是:AI,人工智能,Artificial Intelligence
AI属于数字经济的一个核心部分,自然而然是人类经济活动效率方向的分形行为。
我们今天重点是截取人工智能两个片段来比较一下,也是两种人工智能的开发方法。
第一种是按照这样的步骤进行的:
1. 设定问题:明确人工智能项目的目标,要解决的问题,以及期望获得的结果。
2. 数据准备:收集相关数据和数据格式,完成数据清洗、过滤、预处理等工作。
3. 模型设计:通过搭建合适的神经网络模型,如卷积神经网络(CNN)、循环神经网络(RNN)等,来解决问题。
4. 训练模型:使用机器学习算法训练模型,调节参数,确保模型能够达到良好的准确率和效率。
5. 模型测试:使用测试数据集,对模型进行测试,评估模型的准确率和效果。
6. 模型部署:将训练好的模型部署到产品中,实现实际应用。
大家有没有觉得很熟悉?
搞软件的看过来,是不是我们搞IT,搞信息化的一套?
唯一的区别是,数据准备、模型设计,这套方法已经是不错了,因为这套方法是从问题出发,不是从方案出发,也就是不是提着锤子找钉子,也多少算是进步了。
如果我们将问题这个现象抽离出来,我们发现显然这一套方法论是一个问题一个问题去解决,现实中问题可是千变万化的,千方百计地,搞定它一定是需要走遍千山万水,想尽千方百计,说尽千言万语,吃尽千辛万苦!
从一个一个解决地这个视角来说,我们是不是发现和前面说的什么很像?
对,手工业作坊!
这种方法就是人类社会AI,人工智能行业发展的手工作坊阶段,也是我们国家众多AI企业处于的发展阶段,和在什么地方上市、IPO无关。
我们先认知一个概念:AGI
AGI是Artificial General Intelligence的缩写,即通用人工智能。
AGI的目标是实现人类般的通用智能,这意味着AI可以像人类一样理解任意通用任务, 并以人类的智力水平执行完成。
2017年12月,Googl发表了里程碑式的论文《Attention is all you need》,提出只使用自注意力(Self Attention)机制来训练自然语言模型,颠覆性的Tranformer架构出世!
所谓"自我注意力"机制,
就是只关心输入信息之间的关系,而不再关注输入和对应输出的关系。和之前大模型训练需要匹配的输入输出标注数据相比,这是一个革命性的变化。
Transformer彻底抛弃了传统的CNN和RNN等神经网络结构。之前的主流AI模型都基于CNN卷积神经网络和RNN循环神经网络(recurrent neural network); 而之后,便是Transformer一统天下。
Transformer架构具有两点无敌的优势:
自我注意力机制,让模型训练只需使用未经标注的原始数据,而无需再进行昂贵的的人工标注(标注输入和对应输出)。
基于Transformer架构的大模型训练可以实现高度并行化,这大大提高了模型训练的效率;
2018年6月,基于Tranformer架构,OpenAI发布了第一版的GPT(Generative Pre-training Transformers)系列模型 GPT-1。
是的,您没有看错,Tranformer架构首先说Googel公司提出来的,但第一个晚上商业收割的是OpenAI公司。
GPT-1具有1.17个参数,采用了12层的Transformer 解码器结构,使用5GB的无标注文本数据,在8个GPU上训练了一个月,然后再进行人工监督的微调。
2019年2月
OpenAI发布了GPT-2。
GPT-2有48层Transformer结构,使用40GB文本数据训练,参数量突破到了15亿。GPT2在经过大量无标注数据生成式训练后,展示出来了零样本(zero-shot)多任务能力。
所谓零样本学习就是用很大的通用语料去训练模型,然后不再需要做特定任务的训练,大模型就可以直接完成一些具体任务。
比如:GPT-2并没有使用专用双语匹配数据,翻译效果还超过了很多专职翻译的小模型。
2020年5月,
OpenAI发布了GPT-3。
GPT-3使用45TB文本数据训练,有1750亿参数。GPT3具有小样本(few-shot)学习能力。
"few-shot"代表通过少量的几个例子就能学习一个新的任务。人们发现,GPT-3开始具有类似人类的能力,只要在提示里展示特定任务的几个示例,GPT-3就能完成新示例的输出。而无需进行针对性的额外微调训练。这也被称之为"上下文学习"(in context learning)
2022 年 3 月
OpenAI发布InstructGPT, 同时发表论文《Training language models to follow instructions with human feedback》。
根据论文,InstructGPT基于GPT-3模型做了进一步微调,并且在模型训练中加入了人类的反馈评价数据。
这里出现的RLHF "从人类反馈中强化学习",正是后面ChatGPT所依赖的一个关键技术。
2022年5月
OpenAI发布代号为text-davinci-002的新版大模型,GPT系列正式迈入3.5时代。
业界的推测是:GPT-3.5系列的基础核心模型首先是依赖于代码(Code)大数据训练,而不是普通文本(Text)训练的,代码数据的训练具有更强的逻辑性、推理性是不容置疑的了。
2022年11月
ChatGPT发布。
OpenAI走上了"从人类反馈中强化学习"(RLHF)的路子。为了让AI能持续和人类沟通来不断反馈完善模型,搞出一个聊天机器人这样一个最好的用户测试接口。
2023年3月14日,OpenAI发布GPT-4。
微软直接将GPT4的能力以Copilot的定义整合在OA365中,整合在bing搜索引擎中,直接重构了软件服务用户的新模式:
以人为中心,而不是以搜索为中心,不是以功能为中心,并带来崭新的搜索新模式,对Google原来的广告业务形成迭代之势、生死之争。
OpenAI表示,GPT-5的目标之一是将其性能提高到与人类水平媲美甚至超越。该公司认为,通过训练GPT-5,它将在多个领域提供比人类更高的准确性,并在某些领域中可能提供比人类更高的准确性。此外,GPT-5还可以为某些任务提供足够的计算能力。
总结一句话,
Transformer架构,ChatGPT、GPT4,以人工智能工业化的模式,以批量知识生产、批量认知表达的形式,打开了一扇AGI的窗口、曙光。
人类正在引来通用人工智能的新时代。
这是对人工智能从数据、信息、常识、知识发展范式进入:
知识发现、知识解释、知识增强、知识更新新范式的最强有力注解!
这也是数字经济的新阶段。
对比人类手工业作坊和工业经济,定制式人工智能和基于Transformer的GPT,就如同分形在人工智能中的作用形态。
所以,我的结论是,人工智能也只是一种表达,分工才是社会发展的动力,人工智能是分工之后的结果之一。
今天我给大家带来的第三个关键词是:
柔性制造
这肯定是一个巧合。
因为在理论上无法证实,但在实事上在时间上确实是一个耦合。
在AI画手开始会画手的时候,
AI图片生成工具Midjourney、Stable diffusion 彻底的火出了天际。
但并不是游戏设计师杰森·艾伦(Jason Allen)AI绘图工具Midjourney生成,再经Photoshop润色而来《太空歌剧院》。
2022年8月,在美国科罗拉多州举办艺术博览会上,这幅画获得数字艺术类别冠军。
而是AI绘画软件会画人的手之后,
Midjourney V5版本,在数秒之间,生成出来的中国情侣AI绘画
为什么是手?不是脸,或者是别的什么?
除了脚、腿这些一样可见的部分,手,首先将手解放出来,预示着整个人类的经济活动的自由度、复杂度大大加强,不夸张的来说,手,同时塑造着大脑。
所谓的十指连心,
十指连心的心,在中医里有“心主神明”的说法,也就是我们所说的意识,是大脑的功能。十指连心就是指十只手指的感觉功能,活动功能,都与大脑中枢神经系统紧密相联。
由于没有提别的身体位置,只提十指,就是说手指与大脑中枢神经系统的关系最密切。这个结论得到现代科学研究的证实:十指在大脑皮层中所占区域最大。
我们说的柔性制造,是工业互联网的一部分,体现出来的就是:
在流水线生产线上,可以确保每每生产出来的任何一个产品都是独一无二的。
因此,
工业生产线是对手工业生产中固化部分的流程化,
而柔性制造,是对整个手工业生产的流程化。
手,是手工业生产的核心。
手,人类的手,一双结构完全相同的手,生产出了人类社会中的一切。
手,是天然的柔性制造。
手,是柔性制造的灵魂。
驱动手完成柔性制造的,就是十指连心的心,就是我们的意识,我们的大脑。
实现生产线上的柔性制造,必然也是我们对人类意识、人类大脑的模拟,目前表现出来的是神经网络:
CNN(卷积神经网络),RNN(循环神经网络),DBN(深度神经网络),GAN(对抗生成网络)
以及:
Transformer神经网络架构,又称GPT-3.5架构。
这是数字技术和过往的经济形态的叠加。
这也是今天我说到的第一种叠加,
技术和经济的叠加,数字技术和工业、农业等传统经济形态的叠加。
也就是我们听过很多遍的数字化转型,
是数字中国建设的逻辑起点,
是数字企业涌现的技术形态。
所谓叠加,就是放大。
凡不能放大的,均不能成为叠加。那叫做坍塌。
比如我们今天将近200人的聚会,就是一种认知、情感的叠加,
这种叠加,正因为其不同,而互相渲染,并催生出新的火花。
我今天带来的第四个关键词,就是:叠加
一种经济模式和其他经济模式的叠加
也是要给大家分享的第二种叠加:
ESG,生物经济,绿色低碳,数字经济的叠加,
从根本上来说,是数字经济和其他经济的叠加。
绿色低碳
整个绿色低碳经济,到2060年,据预估,会给我国带来100万亿美元的商业机会;
2022年,我校获批建设钢铁工业碳中和教育部工程研究中心。
生物经济
在芯片、光科机卡脖子之后,美国已经悄悄发起了在生物经济对中国的竞争;
中美的竞争,将是一个长期的竞争格局,在智能制造、数字经济之后,生物经济会接着登场。
ESG
共同富裕,一开始的就引起了富裕群体的严重关注。
这是因为,共同富裕,引起的是对结果的指向,人们以为共同富裕就是对富裕的共同。
其实,过程,也就是共同治理,共同进化,才是共同富裕的路线,因为这是作业分工的指向。
有比共同富裕更严格的规范,这就是ESG,环境、社会、治理,Environment, Social and Governance,从环境、社会和公司治理三个维度评估企业经营的可持续性与对社会价值观念的影响。
CPTPP,前身本来是不带中国玩的TPP,我国现在在寻求积极加入,其中有关ESG的规范,要比我国设想的共同富裕要严格的多,主要表现在对雇员权益、对社会价值的保障方面。
数字经济
如我们前面说的AI,ChatGPT,工业互联网,等等
它处于一种围棋上手筋的位置,一个风暴眼的位置。
所以,站在数字化的风口,站在AIGC的瞭望塔,我们往回看,
以AIGC为代表的新型数字技术,正对过去人类的经济模式进行重构;
以AIGC为代表的新型数字技术,同时也正成为绿色低碳、生物经济、ESG的技术底座;
正是在这样双向奔赴的新模式中,通过个体、群体的涨落,在宏观上不断涌现新的产品,新的产业、新的人类社会新世代。
地质年代的单位是百万年。
变质,是地质世代中,经历了稀松跟平常的数个、数个、数个世代,在不断、不断、不断叠加之后,新的物质诞生,
当我们能肉眼可见清晰观察到的时候,有的变成了岩石、有的变成了化石,有的变成了文物、有的变成了文化。
因此,
所谓变质,
所谓叠加之后的变质,就是远离想躺平的那个平衡态,进入耗散结构,微观的涨落,能量的不断开放交换,宏观的涌现,新物种的诞生,在侏罗纪之后,中生代之前,第一朵花朵在白垩纪的绽放!
终于来到最后了,
我们来一点建议,或者说意义
意义:对企业家们来说,创业,永远值得敬佩,就是开始使用新的工艺,新的思维。
意义:对从业者来说,基于一维、二维、三维信息的兼容关系,新职业正在不断诞生,那里,是绿舟,而创意,永远并不过时,创意,期待新的效率。
意义:对旁观者来说,(永远有人有资格做旁观者的,我们不用定义他们是谁)。我们应该向谁学习,是西方,还是东方,都不是,我们应该向Z世代学习,我们应该学习Z世代的认知。
我们不要过早浪费了旧有模式、旧有经济形态带给我们的红利,就如同我们不要低估了一天的价值;
我们也不要忘记将经济模式的航向调整到新经济的航道上,虽然天空没有轨道,但也有航线,就如同我们重新改变为结果决定原因,不要低估了三年的焕然一新!
曾老说过,共勉给大家:
能拖就拖,当机立断!
谢谢大家!
评论留言