近几年关于人工智能,机器学习,数据挖掘的新闻数不胜数,其中包含多少媒体炒作,又存在多大的泡沫尚不可说。抛开这些,各个领域都在试图利用人工智能,机器学习,数据挖掘技术拓展业务。先来说说究竟什么是人工智能,机器学习,数据挖掘?

所谓数据挖掘简单的来说就是利用统计学方法从大量的数据中寻找规律,找到隐藏在数据中的模型,并利用找到的模型解释一些现象,而机器学习是利用数据挖掘技术或者其他算法构建隐藏在数据中的模型并用于预测(比如Kaggle上泰坦尼克号生存练习赛就是从数据中获取规律并预测乘客生存的可能性)。人工智能是利用机器学习构建的模型或者其他方法来模拟或者扩展人的智能的理论,简单的来说就是利用更好的算法为人类服务。

关于这些概念不做过多解释,主要讲一下目前人工智能,机器学习和数据挖掘在气象领域的应用。相信很多听过机器学习的气象人都想过机器学习是否可以用来预测天气。关于这个问题Quora上也有很多人在讨论,机器学习所适用的场景以及天气预报所涉及到的复杂物理机制就限制了机器学习在预测天气方面的应用。虽然机器学习可能无法在预测天气方面取得很大成就,但是机器学习还是可以在气象领域发挥作用。


机器学习在气候领域的应用


由于极端天气事件对生态系统、基础设施和人类健康有着巨大的潜在风险。基于卫星和气象站的观测记录来分析极端天气,以及在未来气候条件的模拟中描述极端天气变化是一项非常重要的任务。通常气象界是通过手工编码、多变量阈值条件来指定模式标准。这种标准多是主观的,气象界通常对于应该使用的具体算法很少有一致的意见。目前已有一些研究砸开探索完全不同的模型,通过训练一个基于人类真实标注数据的深度学习系统来学习模式分类器。首先考虑以热带气旋和大气河流为中心的剪切图片集的监督分类问题。基于5000-10000个剪切图像,并通过在Speamint中进行超参数调优来训练了一个Caffe中的香草卷积神经网络。最终发现监督分类任务可以获得90%-99%的分类准确度。下一步就是考虑用一个统一的网络对多种类型模型(热带气旋、大气河流、超热带气旋等)同时进行模式分类,并利用包围盒来定位这些模式。这是对这个问题一个更高级的半监督的思路。当前研究所使用的网络如图1所示。

1

图2显示了通过半监督架构获得的一些示例结果。虽然对架构的进一步调整还正在进行中,但是底层群集的t-SNE图显示了该方法有能力在数据集中发现新的相干流体流量结构。目前的架构运行在气象数据的即时快照上,我们正在扩展模型以包含时间来得到更精确的预测。

2


机器学习在数据同化方面的应用


数据同化对气象数值模式的预测来说具有非常重要的意义。数据同化的目的是为了利用短期预报结果和实际观测资料确定最佳的大气初始状态。数据同化是一个连续的时步过程,首先根据一个大气初始状态进行天气预测,然后将预测结果和最新的观测结果进行对比,然后根据对比结果更新模式状态,利用更新后的大气状态进行新的预测,按照上述过程不断的迭代。在过去几十年间,卡尔曼滤波一直是比较常用的数据同化方法,近些年集合卡尔曼滤波也开始应用于业务,还有扩展卡尔曼滤波方法(但是并没有用于业务)。虽然卡尔曼滤波和集合卡尔曼滤波非常受欢迎,但是这并不是最优的选择,尤其是对于恰当的大气模型的先验性上,而且当数据量增大时其效率并不高。鉴于机器学习进行动态系统预测时不依赖于底层的物理模型而且关于数据和误差的属性可以进行最小估计,因此目前正在试图利用机器学习和核方法寻找可能的高效率方法替代集合卡尔曼滤波法。

目前已有的一些研究中利用机器学习算法和集合卡尔曼滤波进行了对比。当集合卡尔曼滤波使用较少的ensembles时(20个ensembles),机器学习算法的效果要优于集合卡尔曼滤波,但是当集合卡尔曼滤波使用大量的ensembles时(100个ensembles),机器学习方法的效果相对较差。虽然研究中提到机器学习方法对内存及时间的消耗相对集合卡尔曼滤波来说减少了60%左右,但是并没有给出每一次测试的具体时间对比。而且相对于可靠的预测来说,对内存以及时间的消耗如果在允许的范围内的话,当然是选择准确率更高的方法。研究者提到后续的研究将进行机器学习方法和四维变分法进行对比。

3

作为数据同化技术先驱的ECMWF目前仍在使用四维变分数据同化技术。关于机器学习在数据同化方面的应用,可能还需要更多的探索。


机器学习在强对流活动方面的应用


相对于数据同化来说,机器学习在强对流活动方面的应用就显得非常普遍了。比如2017年深圳气象局和阿里巴巴联合承办了以‘智慧城市,智慧型国家’为主题的CIKM数据科学竞赛,主要是利用雷达图像进行了短期降水预报。

Oklahoma大学气象学院和计算机科学学院联合成立了一个实验室,即IDEAL,专门研究数据科学,人工智能和机器学习在气象领域中的应用。该实验室的主要研究内容就包括高影响的天气预测和天气分析。比如利用机器学习算法进行雷暴生命周期的实时预测,对雷暴进行分类等等。不知大家是否还记得之前的东方之星邮轮沉没事件,调查结果表示可能是由于下击暴流导致。而下击暴流属于一种小尺度的直线风切变。IDEAL同时也在利用机器学习方法进行直线风的实时预测。而且作为最具影响力的的微尺度天气事件–龙卷风,当然也得到了广为关注。目前,该实验室正通过大尺度的机器学习技术改进对龙卷风的理,并且利用数据挖掘技术来寻找龙卷风发生之前是否存在规律。同时通过对时空相关算法的研究改进对强灾害性天气事件的预测。IDEAL在机器学习/人工智能/数据挖掘在气象领域的应用方面,尤其是在强对流活动方面的应用进行了大量的研究,最重要的是有相当一部分研究是开放源码以及数据的。这对于对机器学习在气象领域应用感兴趣的气象人来说是非常不错的。

IDEAL目前已经有一些研究成果应用到实际的业务中,比如NCAR的冰雹的实时预测系统。IDEAL不少研究者都开源了一些相关的源代码,比如,Hagelslag是基于对象的雷暴灾害预测系统,主要是基于数值预报输出利用机器学习工具和图像处理技术进行强灾害过程的预测(图4),同时利用数据挖掘技术研究龙卷风的一个项目也开放了源码以及部分数据。这些源代码和数据都可以通过IDEAL网站或者Github下载。

4

除了上述提到的之外,机器学习以及数据挖掘在气象的其他方面同样有着比较广泛的应用。比如Kaggle平台上就有一些气象方面的机器学习比赛,大多都是利用历史气象数据对未来某一时刻的气象条件进行预测,或者是利用气象数据完成一些其他预测。比如天气事件对物流运输的影响(国内携程之前举办的航班延误比赛,其中就用到了气象数据,主要是天气条件,比如天气是否晴朗,是否存在强对流过程等),或者天气状态对超市营业额的影响(天气的好坏对一些商品销售的影响,比如雨雪天气对雨伞,鞋套等商品销售量的影响,连续的炎热天气对水果,饮料等商品销售量的影响等)等等。

气象领域每天都在产生大量的数据,而如何能够从这些数据中提取更有价值的信息,如何利用这些数据更好的服务天气预报或者改进对气象领域一些事件的理解是非常重要的。数据挖掘及机器学习技术的发展为解决这一问题提供了更好的途径。不管目前数据挖掘/机器学习/人工智能领域存在多大的泡沫,但是确实出现了不撒后新的技术和方法。因此机器学习在气象领域的可能具有更光明的应用前景。


参考:

IDEAL
NCAR Ensemble
Hagelslag
雷达图像降水预测