学习笔记:大模型及相关行业分析框架与发展机会

AIGC
后台-插件-广告管理-内容页头部广告(手机)

学习笔记:大模型及相关行业分析框架与发展机会

(本笔记仅供学习用,大部分内容来自新闻报道及研究报告,由于行业发展速度极快,有些事实和观点不排除自相矛盾和错误)

1. 关于大模型能力边界的思考

a) 机器的迭代速度肯定超过人类的进步。而且由于竞争的原因,很难停下来,停下来没有用,可能更糟糕,鼓励了落后乃至不遵守纪律没有节操的追赶者。GPT本质上是一种工具而已。

b) Openai内部员工未来能力的升级非常Aggressive。

c) 现在能观察到的能力只会使你低估它,而不是高估它。未来的GPT5会更强大。传言具有AGI能力的GPT-5有望在2023年底前完成

d) 语言模型可能是第一阶段,后面是多模态的阶段或者更复杂的阶段。国内不好追。可能需要大模型和应用一起做。

e) Reid hoffman去年8约就拿到了GPT4,原始版本的GPT4能力更强大。因为要解决风险,比如避免教人制造炸弹。

f) 可以超过人类最强者,需要考虑如何避免“机器霸权”。人类社会发展的分界线。

g) 超级现象与能力:涌现的能力。通用人工智能的拐点,iphone时刻

2. 大模型能力超强的逻辑:大力出奇迹,知识是力量,快速的迭代升级

a) 大量的原发性的知识的灌入:

引用周鸿祎的话:GPT4的参数就已经是保密了,我们从他的能力上给大家反向做一个推理,大概GPT3.5就大概用了300万到500万本书籍的训练量,那么GPT4的训练量应该是它的10倍,大概你可以估算为4,000万本图书,人类历史上一共出过1亿本图书,我们一个人一生能读多少本书呢?人生不过百年,也就3万来天,你一天读一本书也就读2万来本书,可是GPT能读几千万本书,大家的知识量是非常不一样的。融汇了全人类所有的知识。

b) 更大量的参数代表了你神经网络连接的能力。参数指数级的增速。

c) 超强算力支撑下的训练。计算平台首次面临软件跑赢硬件,硬件(算力)可能长期紧张的局面。算力每3-4个月翻倍。ChatGPT更多的处理文本,文本对算力的要求少。未来要增强音视频、度片类似这方面的处理,会要求更高的算力。

还有一个最重要的是各种能力的训练,光把知识灌到GPT里,真的像一个还不满月的孩子,还有很多缺点,但是只要假以时日,你给他更多的人工训练,这样你的小孩学完了数学,很多奥数题还不会做,这很正常,因为需要老师教他,老师教过他一个题目之后,这一类的题目它就能够举一反三,他就能够会做了。

d) 更有利的知识存储和传承。

以后当每个人都有自己的GPT大脑之后,那可能对人类的知识传承来说,可能意味着一个革命性的进步。所以我就讲GPT今天尽管有很多缺点,但是我们国家一定不容错过

3. 分类:根据源代码的开放与否,分为两派,

a) 一派是以OpenAI、Adobe、谷歌、百度等公司为代表的非开源派;一派是以META、Cerebras Systems、智谱AI等公司为代表的开源派。

b) 在开源派中,技术上和OpenAI差距最小的,是META刚发布不久的LLaMA。LLaMa大致对标GPT-3,但体积不到后者的1/10,模型的参数量从70亿到650亿不等。

c) 与最先进的GPT系列相比,开源模型仅落后6-18个月

4. 大模型的壁垒

a) 领先优势:一旦领先并占领市场,后来者难以与之竞争。因为存在网络效应,用的人越多越好用、成本越低、训练越多、效果越好

b) 强大的训练系统:OpenAI的无缝完成训练很重要。因为使用数据训练很难自动完成,需要人工干预,因为有梯度爆炸,或者loss跑丢了,需要人工roll back。把脏训练数据剔除掉。

c) 需要很强的认知框架。需要分工:不是只有一个模型训练组,需要分工。

d) 巨额资金投入与竞争日趋激励

5. 大模型需要具备哪些条件:

a) 足够多的钱,OpenAI 每个月要给微软 5000 万美金的算力费;这个数字还在不断增长

b) 芯片,现在大面积买比较难;供货紧张

c) 工程能力, OpenAI 今天的突破不是底层学术的突破,而是工程的突破,如何训练和预处理大数据集,是个很复杂的事情,要有经历模型训练和推理的人才,国内还是有这类人才的,没有大家想的那么悲观。AI 四小龙(云从、旷视科技、商汤、依图)也都是经历过中等模型的,只是 NLP 没有坚持太久而已。

d) 流量入口和场景。

在这四个方面,大厂的优势很明显,钱和算力的起跑线差不多。

6. 大模型的要素

a) 算法:底层基于transformer(ChatGPT)或bert(谷歌)

b) 数据:chatgpt采用互联网爬虫,chrome占了一大半数据,维基百科,reddit数据也一直用。数据的稀缺性会提升。大模型如同锅,放入什么样的材料(数据)决定了菜的味道(模型的效果)。那么有场景获取数据的更为受益,比如金融、声音、视频、酒店、医保等。C端数据想象空间最大,B端能往C端做的同样也具备想象空间。

c) 算力:效果的提升是算力带来的。重要的是通过分布式可以使得算力暴涨。中国正在研究国家级算力网络规划。

i. 单卡算力根据摩尔定律每一两年提升两三倍,

ii. 通过分布式使算力暴涨。指数级上涨。用1台服务器和1万台服务器的网络,算力差了1万倍。

iii. 分布式算力需要高速互联的网络。网络传输随着算力规模增大。现在的核心网能到800G.800G到1.6T的路径明确,到3.2T肯定也可以。看性能和成本。未来带宽互联会不断上升。

7. 对行业的影响

a) OpenAI宣布ChatGPT能够支持第三方插件接入,这些插件是专门为“以安全为核心原则的语言模型设计的工具”,可帮助ChatGPT访问最新信息、运行计算或使用第三方服务。 此外,除了其他公司提供的第三方插件,OpenAI也推出了自己的两款插件——网络浏览器(web browser)和代码解释器(code interpreter)。据介绍,前者允许ChatGPT访问互联网,后者允许ChatGPT使用Python在沙盒环境中处理上传和下载任务,帮助它解决数学问题、进行数据分析和可视化、转换文件格式等

b) 更多的投资人眼中,应用层创业面临的最大风险就是美国硅谷推进太快,无论国内外,很多做应用层的创业公司都活不过OpenAI一次迭代。

c) 比如OpenAI对ChatGPT代码解释器的推出,就杀死了一个刚刚获得1000万美元种子轮融资的公司LangChain,它的创业思路是利用语言模型API快速构建应用程序的Python框架。

d) 国内也不例外,量子位获悉,本想在AIGC大展身手的某医疗领域玩家,在GPT-4发布后,再也不提此前“要融7个亿”的豪言壮语;2个月前还拿着PPT和投资人激情对话的团队,已经有好几家的原项目因为OpenAI新动作几近流产,不得不谋求新的故事来讲。

e) 由于openai迭代速度快,应用方向的创业也不太适合长期主义。

f) 但是大模型可能做不了垂直方向的重业务。如嘀嘀打车、携程等。

g) 很多已有的APP会受到影响,不光坏处,有的也可能受益。

8. 关于通用模型或者大模型的竞争格局

a) Meta发布开源大语言模型LLaMA,越来越多的公司有望在开源模型基础上定制自己的大模型。Meta新的大模型系列 ——LLaMA(Large Language Model Meta AI),参数量从 70 亿到 650 亿不等。130 亿参数的 LLaMA 模型「在大多数基准上」可以胜过参数量达 1750 亿的 GPT-3,而且可以在单块 V100 GPU 上运行。

b) 复旦大学MOSS大模型:200亿左右参数,是GPT成本的十分之一,4月中旬开源

c) 斯坦福开源机器人小羊驼Vicuna,130亿参数匹敌90%ChatGPT,且训练成本只需要300美元。 做模型的公司越来越多,但模型初期是壁垒,后期就不再是壁垒。尤其是小羊驼一出,模型的稀缺性就会下降。

d) 谷歌大模型:谷歌首席执行官Sundar Pichai:Bard将从基于轻量级LaMDA模型升级为更大规模的PaLM模型,Bard正运行在一个轻量级和高效版本的LaMDA模型上,这是一个专注于提供对话的人工智能语言模型。PaLM模型规模更大,Bard在处理常识推理和编程问题等任务时能力更强,升级版Bard将于下周会有新进展。

e) Anthropic的claude模型和GPT4相差不远,只是没有宣传。谷歌投资了3亿美元持有约10%的股份,并且,Anthropic会使用谷歌公司的云计算服务和计算资源。2021年,Anthropic成立,创始人Dario Amodei来自于OpenAI,据FT报道,当时Dario Amodei领导的研究小组,在和公司的方向产生分歧后离开了OpenAI,Anthropic更关注高级人工智能安全。而Anthropic开发了一款名为Claude的智能聊天机器人,据说能够与OpenAI的ChatGPT相媲美。在谷歌投资之前,这家初创公司已经筹集了超过7亿美元的资金

f) 阿里:三个团队,一个做大语言模型,一个是做文生图模型,还有个是做多模态模型的(偏实验室角度)。

与国际GPT模型的比较,目前国内最大的模型是阿里达摩院的M6,拥有十万亿个参数,体量是最大的。阿里达摩院顶层的领导下达了命令,整个团队约有100个人去做相关大模型的迭代和升级,一方面是自己在复现GPT的水平,一方面是要迭代把我们的m6和plug迭代到能够对标到GPT的水平。

目前来看根据一些反馈,大模型m6的一些自然语言理解的能力,目前还不能对标到GPT3.5与GPT3.5大约还得有个一年半左右差距。

阿里可以提供的方案主要有两种,一种是可以与集团内部的产品结合,例如天猫、淘宝和高德地图的搜索业务。这将为搜索引擎带来更新的商业模式,并取代以前的商业模式。此外,阿里还可以输出自己的API,并向合作伙伴或渠道商收费。这些合作伙伴将使用阿里的API,并体现出他们的客户,这些客户是从ToC端产生的。大多数客户都有自己的APP和网站,这些客户可以通过他们的APP和网站获取流量。不同的客户可以使用不同的API,这意味着厂商可以在生态系统中形成垄断。

g) 百度:文心一言虽然有一定的实用性,但离达到GPT-3水平还有一定差距。不过,它至少可以达到GPT-2.5水平,如果未来能够持续迭代和优化,可能会达到GPT-3.5的水平。数据积累对于百度来说是一个优势,尤其是在搜索领域。百度在知识库方面有很多年的积累,包括百度知道等。GPT其模型架构基于Transformer,而文心一言则基于Bert。赋能高德地图的新闻近期发布。

h) 腾讯混元:,有大概100人左右做GPT复现以及自我模型迭代。应该会比我们的早,猜测大概5月份会出。但应该只是支持文生文的场景。

i. 目前进展:腾讯的大模型情况与百度、阿里不同,分到了每个BG,我们有6个BG(TEG技术中台、CSIG面向B端、微信、游戏、PCG做内容、CDG偏广告金融),其中六个BG都有做AI,都非常重视不管从投入还是老板重视程度来看,AI在技术侧是腾讯number one的地位。。TEG类似中台,AI lab在TEG下面。混元大模型由腾讯唯一17级科学家张正友老师负责,也是AI lab的负责人。6个BG都有人在参与混元,共同推进,算法上TEG偏general,其他BG偏行业。大模型腾讯在几年前也做过,混元也有上一代产品,偏检索式。马上五月要发的是偏深层次的,对标ChatGPT。目前混元还在测试研发中。

ii. 水平:腾讯AI大模型是万亿(参数)的,虽然还未发布,但认为比ChatGPT要强,但比GPT4可能不足,GPT是支持多模态,混元暂时偏自然语言。

iii. 技术路线:算法上对标GPT,但也有不一样的地方,比如Fine-tune、Reward Model、PPO,但其实这三步都是大家需要做的事情,主要是需要自己找一些新的数据,再做数据预处理。

iv. 算力准备:投入了将近万张卡,在算力上还是有一定储备。也在内部评测华为昇腾芯片,发现有些场景下性能还可以。

v. 数据来源:公开中文数据集、自己内部数据。数据需要做标注等预处理工作。

vi. 关于数据与语料:现在更缺的不是量,而是高质量数据。翻译本身会有信息损耗,目前英文比中文多了几倍,目前翻译不见得有很大的提升。知识性英文语料在中文百科已经有了,没必要翻译。搜索频率极低的也没要必要翻译。西方文学名著应该都有翻译了,非常小众的可能没有。目前斯坦福也已经推出了小参数但效果不错的模型。伴随算法不断迭代,未来算力不会是瓶颈,数据才更为重要。

vii. 未来商业化场景:主要面向B端、G端客户,后续会重点推行业的中小模型,主要有几种模式:1)对于超大客户,可能会选择从头训练一个大模型,但这种情况比较少,有能力去帮助客户从0到1重新训练大模型。2)基于客户的私有数据,对基础大模型做定制化fine-tune。3)大多数客户还是会基于其行业属性,一起联合训练模型。

viii. 大概多久超越GPT4?之前有过底座模型,现在是基于底座模型研发,不是从零开始。时间将近5月份,近小半年时间。

i) 华为:盘古大模型效果有待考证,并没有明确对标GPT,而是往B端去做。同时因为受限制,只能用自己的昇腾,虽然昇腾910大概也有A100的70%水平(比寒武纪好),但算力的限制可能会制约大模型发展。盘古NLP大模型首次使用Encoder-Decoder架构兼顾NLP大模型的理解能力和生成能力,保证了模型在不同系统中的嵌入灵活性。下游应用中,仅需少量样本和可学习参数即可完成千亿规模大模型的快速微调和下游适配

j) 360:最近360向NV(英伟达)下了上千块A800的货。360语料可能较强,但最后能做出什么效果,需要时间验证。三六零未来将沿用“技术+场景两翼齐飞”的发展战略,公司在大模型研发有三大稀有优势:

i. 数据获取和清洗:大模型必须使用高知识含量的问答语料进行训练,这是搜索引擎厂商独有的数据,同时公司每天筛选上万亿网页,用更好的数据提升模型训练效果;此外,搜索引擎数据筛选清理需要相关服务器等基础设施,也产生了一定壁垒。

ii. 人工知识训练:公司在超6亿条问答对中筛选300万用于训练。

iii. 场景优势:公司拥有国内市占率最高的浏览器、市占率第二大的搜索引擎以及第一大PC安全产品,拥有丰富用户场景,作为流量入口可加快大模型推广。

iv. 三六零于计划近期推出一系列类GPT应用产品:

1. 在ToC端,公司将借鉴New Bing的模式,推出新一代生成式AI搜索引擎、AI浏览器、AI个人助理等产品;

2. 在ToSME端,公司将推出生成式AI办公套件、AI企业即时通信工具等垂类应用;

3. 在ToG&B端,公司已经将国内最完整的安全大数据及最强大的安全专家能力赋能给了360安全AI。

4. 将包括结合了AI技术的全新“360浏览器”、“360搜索”、ToB 即时通讯APP“推推”、“苏打办公套件”等,是A股极为稀缺的类ChatGPT平台公司。

k) 字节大模型:比较有可能跑出来,因为有数据、有算力、有场景。

9. 关于大模型与垂直应用

a) 4月1日,微软Teams正式落地中国;同日,微软 Microsoft 365 Copilot 功能已经可以在 Word中抢先体验,预览版的Copilot支持生成文档、总结重写/修改现有的Word、寻找配图和格式调整等功能;近日,微软亚洲研究院和浙江大学的研究团队,发布了一个大模型协作系统HuggingGPT,该系统利用ChatGPT作为控制器,连接HuggingFace社区中的各种AI模型,来完成多模态复杂任务。(Microsoft资讯)

b) 北美在两个月内出现了500余家AIGC公司,基本都是一百人以下的小公司,没有能力建服务器去做训练、也没有太多人员管理系统,更多会是直接购买云市场的能力。大部分是做垂直应用领域

c) bloomberg推出专用于金融领域的大模型。

d) 网易有道专为教育场景自研的类ChatGPT模型“子曰”即将推出,是“大模型+小样板”在教育领域的一次重要尝试,并且基于“子曰”研发的AI口语老师和中文作文批改DEMO已完成,近期开放内测,这也将是国内企业推出的首个教育场景下类ChatGPT模型,(OFweek人工智能网)

e) GPT 模型的成功是否会拉开商汤等传统 AI 公司的差距?什么场景不容易被大模型颠覆?A:AI 四小龙方向主要是 CV,但 GPT 主要是 NLP 方向。四小龙也在尝试做大模型,目前和互联网大厂相比都是从头开始;但四小龙之前训练过中模型,相较于传统云厂商更有优势一点,但优势不明显。目前难颠覆的是传统非线上化的行业,实体企业受影响更小;线上的话,如果和私域数据结合的紧密一点不容易被颠覆。

10. 大模型衍生的产业链机会与威胁

a) GPT 时代,国内软件公司替代国外软件巨头是更容易还是更难?

i. A:感觉是更难。企服软件包括两大类:1)企业管理流程的线上化,比如CRM 等;2)面对专业使用者的工作软件,比如 Adobe。第一类软件目前受到影响较少,他们的核心是把管理理念注入到软件中 ;第二类工具软件方 面,华人在定义工具软件方面比较弱,并且这一波AI 中大部分受益者是既有的 SaaS,中国公司不占优势,比较难弯道超车。但中国公司比较擅长做 C 端、供应链相关的产品,比较看好重新定义一款 C 端的应用。此外,中国也比较擅长软硬结合的东西,可能在这方面会做得比较好。

b) AI+制造业/医疗业是否会带来明显的变化?制造业目前没有看到太大的影响。偏工作流程软件在这 波 中 受 到 影 响 不 大 , 受 影 响 比 较 大 的 是 多 模 态 Chat GPT+机器人,目前机器人还是上一代技术,前端加摄像头控制,暂时没有语义和交互的功能,如果 GPT 功能融合到自动化机器手臂中,会比现在做得更好。目前 Chat GPT 创造机会比较大的是线上化的行业,传统行业目前这波影响比较小。

c) 大模型对工作台等软件(Adobe)的影响?midjourney 等软件是否会被 GPT 颠覆?这波 AI 是对既有的头部 SaaS 公司的利好,主要是:

i. 加上 AI 后ARPU 增加;

ii. 免费到付费的转化率提升,付费意愿提升。但这些利好的前提是本身这个 SaaS 有很多注册用户,不然就没太大利好。MJ 替代是原画师和图库,而不是最终可以商业化的素材(比如营销物料、海报等)。如果 MJ 不沿着垂直领域做深的话,可能会被 GPT 颠覆掉,最好还是 output 真正垂类可商业化的东西,比如用 AI 生成海报,而不是图片。MJ 目前在包装等垂类行业的尝试是很好的。AI 想去替代人力成本是走不通的,只有比人创造的更好,比如设计官网、产品主页等。

11. 大模型的其他话题:伦理与价值观

a) 人工智能大模型是人类发明的最伟大的工具,背后凝聚着全人类的知识成果,能够赋予普通人更强大的能力,未来有可能被淘汰的是不会问问题,不会使用人工智能大模型的人。大模型可能导致社会秩序巨大变革

b) 机器霸权。机器比人聪明,可能会优越于人,会不会造成对人的歧视。

c) 数据泄露:近日据韩国媒体报告,三星电子引入ChatGPT不到20天,便爆出三起机密资料外泄的严重数据安全事故。这些数据很可能已经存入ChatGPT的数据库中,并随时面临泄露风险。

d) 教人做坏事

e) 机器如果有意识后怎么办?

f) 机器会不会控制人类?会不会打乱目前的大自然秩序,人类生存法则?

12. 中国大模型的优势与劣势

a) 劣势:

i. 国内模型品质差,数据集不足,并且算力与海外相差甚远。

ii. 算力问题:算力资源紧张,所以目前百度不能广泛地、免费地提供服务。目前国内的模型比国外差,但是参数、体量对算力的消耗不相上下。

iii. 芯片禁运的情况下,主要是降低带宽而不是把内部的算法改了,相当于把互联端口从12个降到了8个,互联的带宽减了1/3。原先如果用1000张卡只需要进行五周的训练现在变为了两个多月,其中的风险会加大,因为有一些硬件或者其他异常会让训练挂死,跑了一定时间是需要先存档的(设置有check point),停机之后重启加载到check point也需要一定的时间,国内外的训练差距拉开

iv. 数据质量较差:

1. 目前全球英文数据量远大于中文,而且英文数据也比中文数据质量高。关于中文数据:国外的大模型针对中文数据做了一部分训练,但是比例很小,不到1%。此外,国内的数据集都是针对各家自己的数据进行训练,不是通用的。还有就是国内目前依赖翻译,将内容翻译成英文,再借助英文语义进行推理,文心一言就是这样,最后反过来进行中文输出。

2. 目前中文数据有先天不足,找不到对中文逻辑深入分析和预判的语义库。其次,国内数据存在孤岛问题,对数据集的体量造成了影响。

3. 国内的数据存在很多政治因素,有些东西是不能查询、不能回答的,就导致整个数据的质量下降。如果这些问题不能解决,想达到国外大模型在中文方面的水平有困难。需要想办法去克服

b) 优势:

i. 政府规划与介入的必要性:在大模型运行过程中,需要解决很多BUG,还有软硬件结合,中间会不会有很多冗余的机制。这些都需要时间和成本作为代价,国内芯片曾出现宕机的情况,商业客户不愿意给机会去尝试了。如果中国想要发展大模型,那政府的介入是不可或缺的,政府介入可以给企业带来资金支持,从而使企业生产更多的产品,或者是让一些企业有意愿部署大规模的算力。其次,政府需要补贴帮助第三方做大模型开发的企业,让他们有意愿在新平台尝试。

ii. 人口/人才红利;世界上规模庞大的工程师队伍以及每年最多的毕业大学生。在数据标注、模型研究等方面充分发挥人才红利优势。

iii. 国内互联网公司最拿手的就是产品化、场景化、商业化。

iv. 相对丰富的数据。

v. 国内企业在大模型上正探索两条路能否用大模型裁剪出小模型,应用到特殊场景,就可以解决算力的需求问题。

后台-插件-广告管理-内容页尾部广告(手机)
标签:

评论留言

我要留言

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。