AI科学语言大模型火了,数学计算机样样行,编代码写综述不在话下

人工智能
后台-插件-广告管理-内容页头部广告(手机)

人工智能搜索引擎再次进化吗? !

给这个AI一个主题,它会在几分钟内给你一份论文审阅,并且还提供论文的报价。

AI科学语言大模型火了,数学计算机样样行,编代码写综述不在话下

或者输入一个学名,人工智能可以快速创建一个专门用于该名称的维基百科。

AI科学语言大模型火了,数学计算机样样行,编代码写综述不在话下

这个AI叫做卡拉狄加(Galacica,简称GAL)。它是最新的开源科学语言模型,可将人工智能转化为科学生产。

并完成了课程的“大一统”。数学、物理、计算机……这些AI都可以用。

该模型一经发布,就引起了网友的热议。目前,相关推文浏览量已近15万次,点赞、转发、引用总数已超过5000次。

Facebook前首席技术官也站出来支持。

AI科学语言大模型火了,数学计算机样样行,编代码写综述不在话下

有网友对此有亲身经历,他们写的文献综述“非常棒”,甚至表示:

能否为下一步产生新的想法?

AI科学语言大模型火了,数学计算机样样行,编代码写综述不在话下

事实上,撰写文献评论和制作维基百科只是GAL工作的一部分。除了这些,他还可以回答专业问题,写科学代码,写分子和蛋白质……

来看看特效吧~

可作为科学生产的工具

说到科学成果,找论文确实是离不开的。 GAL可以帮助您解决这个问题。

它涵盖五个科学领域:机器学习、数学、计算机科学、生物学和物理学。

选择一个主题,然后在左侧框中输入您要查找的主题,右侧的 GAL 会建议最适合阅读的论文。

除了展示论文之外,GAL还有一个更实用的功能:制作讲稿。

例如,如果你想做密度泛函理论(DFT)的预测试,但又懒得写讲座,你可以只做GAL,几分钟内就能完成(头狗手册)。

AI科学语言大模型火了,数学计算机样样行,编代码写综述不在话下

GAL 还可用于编码分子和蛋白质。以下是GAL制作的RDKit(可以生成机器学习的分子描述)的手册。

AI科学语言大模型火了,数学计算机样样行,编代码写综述不在话下

GAL还处理了一些细节!

例如,如果你不懂复杂的数学公式和代码,你可以把它交给GAL。它可以直接为您翻译成英文。

AI科学语言大模型火了,数学计算机样样行,编代码写综述不在话下

不仅如此,它还可以实现数学公式和代码之间的转换,或者不同类型代码之间的转换。

AI科学语言大模型火了,数学计算机样样行,编代码写综述不在话下

最重要的是,它还具有简单的公式和错误检查功能。

AI科学语言大模型火了,数学计算机样样行,编代码写综述不在话下

你是怎么做到的?

如果GAL要执行如此复杂的任务,就必须提到它的训练数据。据官方消息,GAL 接受了名为 NatureBook 的新型高质量科学数据库的训练,该数据库允许模型使用科学、数学和化学术语以及源代码。

其中包括超过 4800 万篇论文、教科书和讲义,以及数百万种化合物和蛋白质、科学网站、百科全书等。

此外,为了查找论文并加强引用,GAL 的数据库包含超过 3.6 亿条引用和超过 5000 万条在不同来源更新的独特参考文献。

面对如此庞大的数据,我们将面临两个问题。

第一个问题是如何管理这些高质量的数据。为了实现这一目标,GAL 使用两个步骤:

所有数据都以通用标签的形式进行处理,打破了不同来源数据之间的障碍。

预培训包括特定于工作的数据,这确保您在处理特定任务时更加专业。

另一个问题是:如何设计界面?

首先,如上所述,GAL可以支持不同类型的任务。

因此,在设计接口时对各种功能进行分类,不同的分类会支持不同的数据类型。

AI科学语言大模型火了,数学计算机样样行,编代码写综述不在话下

既然 GAL 拥有结构良好且高质量的科学数据库,那么它与其他模型相比如何?

直接上数据!

在推理方面,GAL的优势凸显出来。在数学 MMLU(多词理解-主要任务)中,它的表现比 Chinchilla 更好。在数学方面,它也比 Palm 540B 和 GPT-3 175B 表现更好。

AI科学语言大模型火了,数学计算机样样行,编代码写综述不在话下

尽管 GAL 没有接受一般数据的训练,但其 BIG-bench 性能仍然优于 BLOOM 和 OPT-175B。

AI科学语言大模型火了,数学计算机样样行,编代码写综述不在话下

如果你看完之后觉得心痒痒,就赶紧停下来吧

后台-插件-广告管理-内容页尾部广告(手机)
标签:

评论留言

我要留言

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。