近年来,在信息技术不断创新发展的时代背景下,人工智能(AI)技术的应用领域也变得越发广泛。一方面,在处理非结构化数据的数据类型上,无论是在图像、音频、视频的识别和生成应用,还是在自然语言处理等系列问题上,以神经网络为核心的深度学习方法都在不断冲击并刷新记录。另一方面,对结构化数据这一大类存在最普遍、应用最广泛、最具商业价值的数据类型,人工智能和深度学习的相应研究却进展甚微。这不禁引发思考:为什么尽管人工智能技术十分强大且通用,在结构化数据上其进展却仍停滞不前?

首先,什么是结构化数据?简单来说,结构化数据(或关系数据、表格数据)就是可以用表格来表示的数据类型。结构化数据通常存储在一组由若干行和列组成的表中,并广泛存在于各类商业应用软件和系统,例如产品数据存储、交易日志等。逻辑上,结构化数据可用一个二维表结构来表达其存储的数据:一行数据对应一个实体的信息,而每列数据则对应一个特定的属性域。由于其格式高度结构化、规则化,结构化数据通常存储于关系型数据库中,其可通过结构化查询语言来轻松管理查询这类数据。迄今为止,绝大多数企业都依赖结构化数据进行数据存储和预测分析。随着一些新技术的发展与普及,例如物联网、云数据库等,近年来越来越多的公司及组织将其核心商业数据以结构化数据的形式存储于关系型数据库中。根据全球市场研究机构IndustryARC最新的分析预测,关系型数据库的市场从2021年开始,将以38.4%的复合年均增长率增至2026年188亿美元的市场规模。

与此同时,如何为结构化数据设计深度学习模型,并将预测分析流程集成到关系型数据库管理系统(RDBMS)中已经引起了越来越多的关注。然而,现有的深度学习模型在有效性、效率以及可解释性等方面并不令人满意。具体来说,人工智能应用于结构化数据上所面临的问题主要包括以下四方面:

首先,数据集。对于中小数据集,相比于传统的机器学习模型,例如逻辑回归、支持向量机、树模型等,神经网络往往容易陷入过拟合,从而模型表现不佳。对于过拟合,一些防止神经网络过拟合的深度学习技术,例如正则化、数据增强、自监督学习等等,将一定程度上解决该问题。而对于较大的数据集,模型表征能力的需求增大,神经网络的优势也将逐步显现。此时关于神经网络具体模型应该如何构建,以及如何有效地捕捉有效的特征用于建模这两个问题,仍亟需进一步的研究。

其次,特征建模。人工智能的广泛应用与其通用的建模能力密不可分。具体来说,神经网络的使用消除了繁重的手工特征工程的需要,同时极大地降低了对领域知识的要求。然而,简单地将神经网络应用到结构化数据时,可能并不会捕捉到有意义的特征。虽然理论上,当给予足够量的数据以及模型表征能力,神经网络可以近似任意目标函数。但是对于传统的神经网络模型,例如多层感知机,每个网络层捕捉的特征间的相互作用是相加性质的。因而神经网络通常需要大量的隐藏单元或者深层的网络来隐式地建模相乘的特征相互作用,即交叉特征。这使得神经网络难以训练,同时也更加难以解释。因此,如何引入合理的先验知识,使得神经网络拥有建模所需特征的能力,将是人工智能应用于结构化数据所需解决的另一重要问题。

再次,模型的选择及训练参数的配置。相比而言,传统的机器学习模型,例如在结构化数据上表现良好的树模型的调参更为简单,同时其参数的优化大多也都有较好的理论保证。通常来说,使用模型的默认参数设置,以及采用标准的训练流程,传统模型即可取得较好的训练结果。而对于神经网络,其具体的模型架构可以理解为对于一系列张量输入的树状计算图:树的叶节点为模型输入张量或者模型参数张量;而每个内部节点则具体规定了一种接受其子节点张量输入、输出运算结果的可求导运算,大多为矩阵乘法;同时根节点将产生所需要的模型输出,例如分类问题则为类别输出,回归问题则为数值输出。早期网络模型的具体结构多为专家手工设计,且对于不同类型的问题,通常使用的神经网络类别差异极大。例如对于视觉问题,采用的神经网络多为卷积神经网络,而对于自然语言处理问题,所采用的多为循环神经网络。近年来,对于自动化机器学习(AutoML)的需求与日俱增:一方面,基于神经网络架构搜索(NAS)技术,搜索算法可以针对给定的任务,自动搜索得到性能良好的神经网络具体架构;另一方面,自动化调参算法又可以更快更好地训练出可直接部署的神经网络模型。然而目前自动化学习在人工智能上的研究,特别是结构化数据方向上的研究才刚刚起步。如何给定具体任务,更快更好地获得最优的神经网络架构,仍需要深入地探索。

最后,模型的可解释性问题。可解释性衡量了模型所做的决策能被人类理解的程度,这在很多应用中至关重要,特别是金融、医疗等领域。尽管人工智能模型在很多任务中早已胜过人类,但由于其缺乏可解释性,其应用也经常饱受质疑。神经网络模型通常内部结构复杂、参数众多,对于用户而言,如同黑盒一般,并不能很好地了解其具体工作机制以及决策过程。因而其可靠性难以验证,这对人工智能在安全场景下的应用,例如自动驾驶、智慧医疗等,带来潜在的风险。因此近年来,可解释性的研究也逐渐提上日程,用于验证模型是否可靠,学习过程是否存在偏差,模型是否存在偏见等等。目前主流的解释人工智能模型如何工作的解释方法包括基于扰动的方法、基于梯度的方法以及基于注意力机制的方法。然而,通过另外的模型给人工智能模型作出的解释往往不可靠,这可能会产生偏差。因此,如何设计建模过程更加透明,决策更加可解释的人工智能模型将会是重中之重。

NUS苏州AI中心致力于利用AI技术发掘结构化数据的产业价值。针对结构化数据,中心联合新加坡国立大学、密歇根大学、北京理工大学及浙江大学等多个顶尖高校的专家学者,共同研发出一种自适应关系建模的神经网络模型ARM-Net,以及一个基于ARM-Net的轻量级结构化数据分析框架ARMOR(架构图如下)。该模型首创性地提出在指数空间内,自适应地根据输入来动态构建交叉特征以用于结构化数据建模。模型基于一种新的稀疏注意力机制,对每个给定输入动态地生成其相互作用权值,从而可以对任意阶的交叉特征进行显式建模,并对噪声特征进行选择性过滤。相比于现有的静态模型,ARM-Net模型可以更精确、更高效地对结构化数据进行建模,同时还能提供局部以及全局模型解释性,为数据驱动的决策提供了可解释的预测分析。此外,中心正在与该研究团队紧密合作,针对结构化数据,将陆续推出正则化技术、动态神经网络架构搜索、结构化数据建模及可解释性等方向的新成果,以解决上述人工智能应用于结构化数据上所面临的四大问题。

相关论文已经被数据库顶级会议SIGMOD 2021录用,“Adaptive Relation Modeling Network for Structured Data”。

论文地址:

https://dl.acm.org/doi/10.1145/3448016.3457321

项目网站:

https://www.comp.nus.edu.sg/~dbsystem/structured-data/

GitHub开源地址:

https://github.com/nusdbsystem/ARM-Net

为了将结构化数据分析应用于医疗、食品、金融、供应链等不同的产业,AI中心还研发了ForkCloud大数据机器学习平台。ForkCloud支持结构化数据的存储和协同清洗。数据拥有者可以将数据在线分配给多个领域专家。领域专家可以使用网页客户端,对数据进行标注、修正、投票表决等操作,再将数据发回给数据拥有者。ForkCloud还支持结构化数据的版本管理和自动化机器学习,使得非计算机行业的人员可以通过网页客户端,直接使用机器学习模型来分析数据,而不必事先学会编程和机器学习。例如,医院可以将医疗数据通过ForkCloud分配给各个科室的专家,专家完成数据清洗后,再统一使用机器学习进行分析,根据实际需求建立AI模型。基于结构化数据的可解释性,AI模型还可以发掘出数据的规律,从而辅助医疗诊断。AI模型可以由ForkCloud自动部署在云服务上,供各个科室的医生使用。ForkCloud降低了结构化数据分析和AI的学习成本,使得结构化数据在更多产业中发挥价值。

在食品健康领域,以新加坡版本的FoogLG为基础,AI中心开发了面向孕期的营养健康管理APP“味可妈妈”。味可妈妈将食物营养信息、用户信息等保存为结构化数据,使用机器学习、图神经网络等AI技术分析信息之间的关系,从而实现营养分析、食谱推荐、过敏源预警等功能。用户可以每天以拍照形式录入食物照片,味可妈妈将自动进行食物识别,将营养信息存入数据库,并生成营养建议,供用户参考。如果用户对某些食品成分过敏,味可妈妈会自动筛查出含有这些成分的食物,并向用户发出预警。对于处在孕期不同阶段的用户,味可妈妈还会给出不同的饮食建议,避免用户摄入对胎儿健康不利的食物。目前,味可妈妈已发布鸿蒙、iOS、安卓等版本,并向社区免费开放使用,它使得结构化数据在健康和民生方面发挥了重要价值。

在新能源、新基建领域,AI中心致力于推动内需和产能的平衡,加速实现“碳达峰”和“碳中和”。近两年,由于新冠疫情对工业和贸易的影响,国际和国内市场的供需关系发生了急剧变化。在很多地区,产能过剩和内需不足的现象同时存在,造成了资源的浪费和经济数据的下滑,甚至引发经济危机。与此同时,锂电、光伏、风电、特高压输电等新能源技术迅速发展,引发了能源市场的结构调整。例如,中国西部地区建设了大量的光伏电站和风电站,但工厂主要集中在东部地区。由于西部地区无法消耗过剩的电能,部分电站只能暂时闲置。为了解决这一问题,可以使用特高压输电技术,将过剩的电能转移到其它地区,但如何实现电能的高效分配、以最高的效率传输电能也成为了新的挑战。

为了解决新能源、新基建面临的能量分配问题,AI中心正在研发基于结构化数据和强化学习的能量管理系统。该系统可以实时接收电路的监测数据,将监测数据存储为结构化数据。因为数据量极为庞大且随时间增加,传统的机器学习算法难以挖掘有效的信息,所以需要将机器学习和结构化数据的逻辑和规则相结合,进行自动特征提取和强化学习。强化学习可以预测环境和负载的变化,不断更新控制策略,并对电路的控制器发出指令,从而提升电能的使用效率,降低设备损耗,延长电气设备的寿命。该系统可以应用在各类光伏电站、风电站、一般输电线路、特高压输电线路、分布式电网、建筑微电网、锂电池组、新能源汽车等场景。例如,在新能源汽车中,锂电池组是最重要的储能模块,但是当温度较高和负载不稳定时,电池组的寿命会迅速缩短。同时,当负载发生变化时,电池组内部的电池单元之间也可能会产生损耗,造成寿命的缩短和能量的浪费。为了解决这些问题,我们可以将电池组的运行数据存储为结构化数据,再使用强化学习建立电池组中各个元件的控制策略,使得电池组的工作状态可以随着温度和负载而实时调整,从而减少内部损耗,延长电池寿命。基于结构化数据的可解释性,我们还可以进一步挖掘影响电池组寿命的因素和规律,从而改进电池组的设计。

在结构化数据的驱动下,AI中心将人工智能、机器学习技术投入了业界,让产业向着更高效、更智能的方向发展。未来,AI中心将继续关注结构化数据在更多行业的实际应用,特别是医疗、食品、能源、基建、交通等支撑社会和经济的行业。

分类: 新闻