这个我就不展开了,这个向东他们一会儿还有很多和大家分享。总的来说,我们一开始就是希望有一个物联网原生的一个数据库。这个物联网原生就是把端、设备也看成我们这个系统的一部分,不仅仅是数据库,后边我们会看到。
这件事情的一个最重要的,前面的初心,因为端上面的计算能力很弱,所以我们就把我们的文件系统单独的拿出来。我们一开始就建立了一个自描述的文件系统,所以它可以很方便地放在端上。那么同时这里头有很多的压缩的考虑,有很多的加速查询的索引的考虑,有自描述的元数据,就是 schema 信息的考虑。
这就是能够一个格式走到底,做端边云的贯通。
那么第二件事情就是做时序压缩的算法,宋韶旭老师带了一波人不断的在做。那么在对高频的周期性的数据,我们有好的办法。
对高频的振荡数据,我们同样也有好的办法。
同时我们对所有的这个压缩算法给出了自己的一套指标体系,同时也能够根据数据的特征,选择最好的压缩算法。总的来说,物联网这件事情就是唯小不破,唯小不快。
第三个就是说,我们在大规模、在后端的系统当中,我们要把这个系统的平台做强,所以我们有一个多场景、多副本的一致性协议。这是在斯坦福的这个 Raft 协议上面做了改进。
也提出了我们自己的控制多副本一致性的一个办法。
我们认为,本来物联网的数据,它的采集、存储、查询、分析就应该是一体化的,所以我们就把分析做成了我们自己的一个原生的节点,一会儿龙明盛教授会分享,就是我们把机器学习看成了物联网数据库的一部分。
好,那么现在看我们今天来的,也特别感谢今天来的各位用户,在能源、在制造、在交通、在我们的这个流程行业等等,做了非常多的推广和应用,给我们大量的反馈。
03 “清华数为”组件
这样的一个过程当中我想,我们除了 IoTDB,再回顾一下,只有时序数据也不能完全解决企业哪怕是设备当中的问题,所以我们还会围绕着整个时序数据的再进一步的应用,我们有一个面向 AIoT 场景的这样的清华数为,我们管它叫一个兔子模型。
当然一个耳朵就是 IoTDB,要把物联网的数据从端到边到云,把它打通,再从上行和下行把它打通。那么第二件事情就是,如果大家进一步的要把这些数据变成知识,需要什么?
需要一个把大数据机器学习看成一个工程化方法的这样一个平台,我们就叫做 Anylearn。它是一款大数据机器学习研发管理的系统,它支持数据集、算法族、模型库等数据资产,来支持机器学习研发的过程管理、知识沉淀、模型的迁移,来满足资源的统筹利用、团队的高效协作,这样的把人工智能工程化的一种需求。
那么这件事情不展开,这里头它有这种交互层,有业务层,有系统层。
来支撑机器学习在工业场景当中落地,那么大家可以在网上来查找我们相关的信息。
第二个就是 FLOK。那么这是一款把大数据进行拖拽,就可以交互设计的一款软件,能够把一个数据集方便的转换成另外一个数据集。
大家会看到,它就相当于一个小的引擎,能够把您原来的各种各样的数据,把它连接起来,然后便处理成自己的可用的数据集。
最后一个,其实我们无论做什么样的数据分析、数据产品,都要有一个开发工具,变成一个应用,所以刘英博教授也在这,我们在开发一款大数据应用的低代码开发工具,通过拖拉拽就可以把系统开发出来。这是我们的一个希望,能够把数据变成软件产品,递交到最终用户的这样的一个工具。
它这里头就有数据的开发人员和最终用户。
这个产品透过在英业达集团的应用,应该说几年的这样的打磨,应该是得到了广泛的应用。那么最近,因为英业达是一家台湾的公司,可能也随着他们公司会走到东南亚去。这都是在围绕着工业数据的应用的一些产品。
04 IoTDB 未来工作
回到今天的主题,我想 IoTDB 未来一定要构建成一个新一代的、跨越端边云的、工业物联网数据的一个基础设施。我们看端上边,我们就会把它落到这个 TsFile,在设备上、在实时操作系统当中,你就可以随时的落盘,比如现在我们在成飞的靶机上,在我们有很多电力系统它那个前端的盒子上。它最大的好处,你落了盘之后,它就非常的小,它小的时候就省我们的网络,省我们的磁盘。
然后就可以到边上去,只要去 load tsfile,只要在你的 IoTDB 上 load tsfile ,这个就变成你数据库的一个部分,是新的 database,是你采用了新的设备,因为什么?因为这个 TsFile 是自描述的,所以它可以不断在往上层走。
然后再到云上面,大家会看到还是 TsFile,不用转码。下边就进到了你的 IoTDB 的集群,也就会未来能够用,马上一会龙教授要分享的 IoTDB 的 AINode 来处理你的 TsFile。
所以这样的话,它就是一个整体的,从端到边到云,就用一个格式贯通的一个以作为工业物联网、作为一台计算机的这样一个理念的数据处理的平台。那么同样可以下行控制到你的终端,形成这样的一个体系。
那么我想,未来的工业里头就是要实时,一定要 Real Time。AI 如果在工业里头没有 Real Time,恐怕是不能用的,所以就要一个实时训练的这样的一个机制。
就会有一个边上实时推理的机制。当然大家很容易就想到,如果有这种机制的话,我们就可以很容易的用现在的大模型,来加持你的边和端。
我想今天,文剑秘书长,一会我们开源技术委员会就会开会,所以今天的软件一定是一个开放的生态,从根上就要做开放。所以我们说,今天非常感谢我们 IoTDB 社区的所有的参与者,感谢我们所有的用户。
那么这一次,我们孙家广院士带领我们创建的清华大学的大数据软件团队,我们希望把清华数为的大数据的软件栈能够做得更加的能用、管用、好用。
我的汇报就到这。我在这里再次感谢清华大学的大数据团队的各位伙伴,感谢天谋科技公司我们的各位非常努力工作的小伙伴们,还要感谢支持清华数为、感谢支持 IoTDB 发展的各位朋友,谢谢大家!
评论留言