人工智能搜索引擎再次进化吗? !
给这个AI一个主题,它会在几分钟内给你一份论文审阅,并且还提供论文的报价。

或者输入一个学名,人工智能可以快速创建一个专门用于该名称的维基百科。

这个AI叫做卡拉狄加(Galacica,简称GAL)。它是最新的开源科学语言模型,可将人工智能转化为科学生产。
并完成了课程的“大一统”。数学、物理、计算机……这些AI都可以用。
该模型一经发布,就引起了网友的热议。目前,相关推文浏览量已近15万次,点赞、转发、引用总数已超过5000次。
Facebook前首席技术官也站出来支持。

有网友对此有亲身经历,他们写的文献综述“非常棒”,甚至表示:
能否为下一步产生新的想法?

事实上,撰写文献评论和制作维基百科只是GAL工作的一部分。除了这些,他还可以回答专业问题,写科学代码,写分子和蛋白质……
来看看特效吧~
可作为科学生产的工具
说到科学成果,找论文确实是离不开的。 GAL可以帮助您解决这个问题。
它涵盖五个科学领域:机器学习、数学、计算机科学、生物学和物理学。
选择一个主题,然后在左侧框中输入您要查找的主题,右侧的 GAL 会建议最适合阅读的论文。
除了展示论文之外,GAL还有一个更实用的功能:制作讲稿。
例如,如果你想做密度泛函理论(DFT)的预测试,但又懒得写讲座,你可以只做GAL,几分钟内就能完成(头狗手册)。

GAL 还可用于编码分子和蛋白质。以下是GAL制作的RDKit(可以生成机器学习的分子描述)的手册。

GAL还处理了一些细节!
例如,如果你不懂复杂的数学公式和代码,你可以把它交给GAL。它可以直接为您翻译成英文。

不仅如此,它还可以实现数学公式和代码之间的转换,或者不同类型代码之间的转换。

最重要的是,它还具有简单的公式和错误检查功能。

你是怎么做到的?
如果GAL要执行如此复杂的任务,就必须提到它的训练数据。据官方消息,GAL 接受了名为 NatureBook 的新型高质量科学数据库的训练,该数据库允许模型使用科学、数学和化学术语以及源代码。
其中包括超过 4800 万篇论文、教科书和讲义,以及数百万种化合物和蛋白质、科学网站、百科全书等。
此外,为了查找论文并加强引用,GAL 的数据库包含超过 3.6 亿条引用和超过 5000 万条在不同来源更新的独特参考文献。
面对如此庞大的数据,我们将面临两个问题。
第一个问题是如何管理这些高质量的数据。为了实现这一目标,GAL 使用两个步骤:
所有数据都以通用标签的形式进行处理,打破了不同来源数据之间的障碍。
预培训包括特定于工作的数据,这确保您在处理特定任务时更加专业。
另一个问题是:如何设计界面?
首先,如上所述,GAL可以支持不同类型的任务。
因此,在设计接口时对各种功能进行分类,不同的分类会支持不同的数据类型。

既然 GAL 拥有结构良好且高质量的科学数据库,那么它与其他模型相比如何?
直接上数据!
在推理方面,GAL的优势凸显出来。在数学 MMLU(多词理解-主要任务)中,它的表现比 Chinchilla 更好。在数学方面,它也比 Palm 540B 和 GPT-3 175B 表现更好。

尽管 GAL 没有接受一般数据的训练,但其 BIG-bench 性能仍然优于 BLOOM 和 OPT-175B。

如果你看完之后觉得心痒痒,就赶紧停下来吧
评论留言