【项目动态】世界冠军加持环卫智能化 深兰获IJCAI20两冠一季+最佳工业应用视频奖
国际人工智能联合会议(International Joint Conference on Artificial Intelligence,简称为IJCAI)是人工智能领域中最主要的学术会议之一,在会议上发表的学术成果在整个AI领域都有深远的影响。IJCAI-PRICAI-20于2021年1月在日本举行,但由于疫情原因,本次会议多次调整议程。日前,深兰科技终于收到了姗姗来迟的荣誉,在NetML竞赛获得两冠一季的好成绩,尤其在AI视频竞赛中“深兰AI智能扫路机”获得Best Industrial Video最佳工业应用视频奖。
昨日,作为指导委员会成员,上海市经济和信息化委员会、中国智慧城市工作委员会、中国城市环境卫生协会智能环卫专业委员会、长三角产业发展研究院、AIII人工智能产业研究院和深兰科技(排名不分先后),共同倡议发起新一代人工智能环卫智能化产业联盟,旨在进一步集聚智能环卫领域专家学者和领跑企业,联合环卫清洁领域的产、学、研、用、资和服等单位,创新突破关键核心技术,加速建设人工智能环卫技术创新生态体系。深兰科技作为其中的唯一的人工智能企业,其冠军团队的技术实力,为环卫智能化的推进再添砝码!
最佳工业应用视频奖
IJCAI-PRICAI20 AI视频竞赛作为国际会议竞赛中不多见的形式,为研究人员和AI从业人员提供了一个展示平台,以视频的方式呈现易懂、有趣的人工智能,并体现其对社会的价值。参赛者的视频在会议的展厅中循环播放,最终奖项由参会者投票和专业评委评定产生,可谓是众望所归。
视频以深兰AI智能扫路机的第一视角,以拟人的方式模拟环卫工人一天的作息,以及在不同环境下的工作流程,巧妙地展示了机器人的自动检测目标、躲避障碍、判断交通信号、数据同步等能力,以及其背后的自动驾驶、数据管理等核心系统。视频叙述清晰,画面风格和配乐充满科技感,引人入胜。短短4分钟的视频内容丰富,以讲故事的形式让人不知不觉中了解了产品的主要信息。
这款AI智能扫路机通过在实际交通状况下的行驶,AI智能扫路机在停车、大转、障碍物避让等方面开展了多场景测试和优化调整,已基本满足了无人驾驶环卫道路保洁的要求,目前已在上海、深圳、天津等多地投入运营。
NetML竞赛获两冠一季
NetML竞赛是由英特尔公司赞助,在IJCAI-PRICAI20上组织的一场基于机器学习的流量分析竞赛。本次比赛借助IJCAI-PRICAI20参加者的专业知识,帮助网络研究人员与ML / AI社区进行互动,促进网络流量分析新方法的研究和开发。深兰科技DeepBlueAI团队在7个赛道中取得了两冠一季的好成绩。分别在Track2和Track4获得冠军,在Track5获得季军。
赛题介绍
随着互联网的发展,网络流量日益增多,同时恶意流量也在不断增加。如抢票软件、明星打榜、恶意爬虫等。为了探索更好的网络流量的分析方法,在这场比赛中,主办方NetML提供了3个不同的相关数据集(CICIDS2017,NetML,non-vpn2016),并且将label分成了3种不同的粒度,分别是top,mid 和 fine。top就是二分类区分正常流量与恶意流量;mid和fine 还需要对恶意流量进行进一步的分类。CICIDS2017数据集和NetML数据集没有mid粒度,所以一共有7个任务对应7个赛道。
评测指标
对于多分类任务:
overall = F1*mAP 。其中,F1 是每个类的f1-score乘以每个类的样本占比, mAP是所有类的平均准确率。
对于二分类任务:
overall = TPR*(1-FAR)。其中,TPR = TP/(TP+FN),FAR = FP/(TN+FP)。
赛题分析
三个数据集都是10w到50w行级别的数据量,62列特征,包含了发送接收地址与端口, 发送接收包大小,时间,hdr信息,pld统计信息,tls信息,http请求信息,dns信息等网络信息。数据集之间的区别是收集源不一样,二分类与多分类标签不一样。
经过分析,赛题有主要有以下难点:
数据处理。原始特征数量比较多而且类型复杂,包括很多类型是列表的列如dns的相关信息。如何从这类列表中提取特征是主要问题。
针对不同粒度的label提取特征。当前特征对top粒度二分类可能有用,但是区分不了剩下的多分类。
竞赛方案
自动列表类型特征提取:由于列表类型的数据是无法直接喂给模型的,所以我们对列表类型进行了聚合,从而提取了一些统计数值特征。
自动特征工程:由于原始数据特征数量较多,我们选择自动特征工程进行处理,以实现短时间内有效信息的尽量提取,并节约人工成本。我们将原始特征主要分成了类别类和数值类,并在根据类型做出不同的特征。
特征选择:经过上面两步,我们做的特征已经超过一千列了,但其中大多数是无效特征。为了避免过拟合和加速模型训练速度,我们使用了两种特征选择方法将特征减少到1/5。首先,我们通过lightgbm模型根据信息熵输出的特征重要性把这些完全没用的特征筛选出来;然后,我们选用第二种特征选择的方法是label 重排列,使用它可以筛选出一些无效的特征。label 重排列方法的主要思想是,通过label的随机打乱,并逐次学习,得到随机状态下重要性的分布,学习到哪些特征的重要性是“虚高”的。
指标优化:预测完之后,我们发现每个类别的比例与原始数据类别比例差别较大,导致得分偏低,尤其是在多分类任务中。我们就通过后处理调整阈值的方式去调整每个类别的占比。
模型融合:我们分别使用了lightgbm,catboost,xgboost这些模型。采用加权平均的方法进行融合,权重由每个单模型的效果决定。
总结
DeepBlueAI团队针对网络流量分析任务,通过数据分析、自动列表类型特征提取,自动特征工程, 在经过特征选择,指标优化和模型融合等设计了一个网络流量识别算法。该算法在本次比赛中取得了2冠1季的好成绩,有望帮助互联网识别出恶意流量,形成一个良好的网络环境。