MIT开发资料分析师的画布实时互动预测 可拖拽的AutoML系统_投影

MIT开发资料分析师的画布:实时互动预测 可拖拽的AutoML系统_投影

大资料文摘出品

来源:MIT

编译:洪颖菲、曹培信

还记得《复仇者联盟2》里面钢铁侠和班纳博士创造奥创的时候,使用全息投影将三维资料投射到空气中,然后直接用双手操控这些资料的画面吗?

遗憾的是,这样的系统目前尚未成为现实。

是什么限制了我们像钢铁侠一样操作资料呢?如果暂时还想不到答案,不如我们先来看一下要实现这个需要哪些技术吧。

首先肯定是全息投影,很多人可能认为,限制这个技术的肯定是没有这么好的全息投影,诚然,全息投影目前还尚未成熟,但是以目前的发展来看,并不是说现有的技术不能将资料表实时投影到三维空间中,还记得五月中旬被Magic Leap收购的Mimesys公司么?我们来看看这家公司已经将全息投影做到什么地步了。

建筑模型和人都进行了全息投影,而且人还可以对模型进行互动操作,是不是有点赛博朋克?

也就是说,尽管在边界的处理还存在一些瑕疵,但是将资料表投影到空气中并进行操作,并不是遥不可及的。

那是究竟什么封印了Stark的出现?

答案是智慧。因为就算我们将各种资料表投影到了空气中,并且各种诸如手环、指环的感测器也能够将我们的动作反映给计算机形成指令,但是如果没有智慧,我们实现的仅仅就是用了更加炫酷的姿势来操作Excel而已。你将一个表格拖过来,也就实现了ctrl+c&ctrl+v。

两家高校的研究员正在尝试突破这个瓶颈。

不久之前,麻省理工学院和布朗大学的研究人员开发了一个在触控式屏幕上执行的互动式智慧资料分析系统,名为Northstar,该系统在云中执行,而且其界面支援任何触控式屏幕装置,包括智能手机和大型互动式显示屏。

更关键的是,它可以根据使用者操作实时生成机器学习模型,从而在其资料集上执行预测任务。

而这,得益于一项新的AutoML元件:VDS

迄今为止最快的互动式AutoML工具——VDS

VDS首先出现在ACM SIGMOD会议上发表的一篇论文中,利用的是现在比较火的人工智能技术——自动机器学习(AutoML),它可以让没有资料科学知识的人根据他们的资料集训练AI模型进行预测。

例如,医生可以使用该系统来帮助预测哪些患者更容易患某些疾病,而企业主也可以通过该系统预测销售情况。使用者也可以通过使用互动式显示屏进行实时协作。这个系统的目的是使使用者更容易进行复杂的资料分析,同时保证分析的速度和准确度,在此基础上实现资料科学的大众化。

“即使是不了解资料科学的咖啡店老板也应该能够预测未来几周内他们的销售情况,以确定要进多少货”,论文的共同作者和长期担任Northstar专案的负责人Tim Kraska说。他是麻省理工学院电脑科学和人工智能实验室(CSAIL)的电气工程和电脑科学副教授,也是新资料系统和人工智能实验室(DSAIL)的创始人之一。

目前,自动机器学习技术的优化基于DARPA D3M自动机器学习竞赛,该竞赛每六个月决出一次效能最佳的AutoML工具。

资料分析师的“画布”

这一新成果建立在麻省理工学院和布朗研究员在Northstar的多年合作基础之上。四年多来,研究人员发表了大量论文,详细介绍Northstar元件,包括互动式界面,多平台操作,加速执行结果以及使用者行为研究。

Northstar系统以空白白色界面开始。使用者将资料集上载到系统之后,该资料集会显示在左侧的“资料集”框中。任何资料标签都会自动填充进界面下方的“属性”框。界面上还有一个“运算子”框,其中包含各种演算法,以及新的AutoML工具。所有资料都在云中储存和分析。

下面让我们用一个例子详细论述:

设想一群医学研究人员,他们想要探究某年龄组中特定疾病并发可能性。

他们将模式检查演算法拖放到界面中间,该演算法最初显示为空白框。

作为输入,他们将标记好的疾病特征如“血液”、“传染性”和“代谢”移动到演算法框中。

随后,演算法框中就会显示这些疾病的百分比。如果他们将“年龄”特征拖到界面中,该界面就会出现另外一个框,框内会显示患者年龄分布的条形图。

最后,在两个框之间画一条线将它们连线在一起,演算法就会立即自动计算围绕不同年龄范围的三种疾病的关联和并发现象。

“这就像一个大而的画布,你可以在这里展示你想要的一切”,Northstar互动界面的主要开发者的Zgraggen说,“你还可以将所有内容连结在一起,以处理更复杂的问题”。

通过VDS,使用者现在还可以通过个性化模型,使其适合自己的分析任务,并在自己的资料集上进行预测分析,例如资料预测,影象分类或分析复杂图形结构。

以上述的医学探究为例,医学研究人员希望根据资料集中的特征预测哪些患者可能患有血液疾病。他们从演算法列表中将“AutoML”拖入资料集中。系统首先会产生一个带有“目标”标签的空白框。研究人员将“血液”这一标签拖到空白框。系统将自动找到效能最佳的机器学习演算法,以不断更新的精度百分比的选项卡显示。使用者可以随时停止该过程,优化搜寻,并检查每个模型的错误率,结构,计算和其他事项。

实时智慧互动,才是真正的互动

据研究人员的介绍,VDS是迄今为止最快的互动式AutoML工具,这部分归功于他们定制的“估算引擎”。引擎位于界面和云端储存之间。引擎自动建立资料集的几个代表性样本进行逐步处理,从而在几秒钟内生成高质量的结果。

“我们花了两年时间设计VDS,使之契合资料科学家的思维方式,”论文的另一位作者Shang说。VDS可以根据各种编译规则,立即确定哪些模型和预处理步骤是不是应该为使用者提前实现。

在机器学习模型的选择上,它可以从那些大量的机器学习演算法列表中选择并在样本集上执行模拟,同时记录结果并优化选择。在提供快速近似结果后,系统还会在后端细化结果。

“至于预测,使用者不希望等待四个小时才能获得第一个结果。使用者希望看到实时发生的事情,这样如果发现了错误,使用者可以立即纠正它。但这在任何其他系统中通常是不可能的”,Kraska说。

研究人员在300个真实资料集上对工具进行评估。与其他最先进的AutoML系统相比,VDS预测的准确度大致相同,但VDS的预测结果可以在几秒钟内生成,这比其他工具快得多,后者往往需要在几分钟到几小时内才能执行出结果。

有了Northstar的VDS元件,我们得到了一个二维空间的互动式智慧资料分析系统,也许离钢铁侠的实验室还有点距离,但是如果有一天Northstar将全息投影加到下一代分析系统中,那么——也许我就可以坐在沙发上小手一挥:“Javis,把我这个表做好发给老板。”

相关报道:

https://www.csail.mit.edu/news/drag-and-drop-data-analytics

猜你喜欢