10月17日,CNCC 2019在苏州金鸡湖国际会展中心盛大开幕,大会主题为:智能+引领社会发展。CCF大数据专家委员会组织承办CNCC2019大数据高峰论坛—大数据智能计算,并获得圆满成功。
10月17日,CNCC 2019在苏州金鸡湖国际会展中心盛大开幕,大会主题为:智能+引领社会发展。CCF大数据专家委员会组织承办CNCC2019大数据高峰论坛—大数据智能计算,并获得圆满成功。
CNCC2019大数据高峰论坛—大数据智能计算由CCF大数据专家委员会常委、浙江大学卜佳俊教授, CCF大数据专家委员会常委、南京大学黄宜华教授共同担任主席并主持。
论坛邀请了阿里巴巴达摩院数据库与存储实验室 Research Scientist汪晟博士、微软亚洲研究院资深研究员/经理秦涛博士、腾讯数据平台部高级工程师/腾讯实时计算平台的研发负责人施晓罡博士、第四范式主任架构师涂威威先生、江苏鸿程大数据研究院副总经理朱光辉博士、清华大学计算机系软件所所长李国良教授6位专家学者作了精彩报告,吸引了300多名与会者参会。
大数据的核心价值在于智能化分析应用。大数据时代的智能化计算分析面临着诸多新的技术挑战,与此同时大数据时代数据资源和计算力的增长,也给智能计算带来诸多机遇,今年论坛主题定位于大数据智能计算与分析技术,着重研讨大数据深度学习、大数据机器学习、以及自动化机器学习等热点技术问题。
在云环境下,如何设置合适的数据库缓存大小以节约成本?如何针对不同用户场景设置不同的缓存大小?如何使用算法自动化调整缓存?汪晟博士通过报告《智能化自治数据库内核与平台》解答以上问题,并介绍了其团队基于深度学习方法为SDDP设计的一套名为iBTune的自动缓存调整机制,该算法已经成为SDDP重要功能并在阿里巴巴大规模部署并节省了17%内存。
面对深度学习面临的如何从海量无标数据进行学习的挑战,秦涛博士的《无标数据深度学习研究进展》的报告介绍近1-2年内基于无标签数据的深度学习的最新进展,主要包括侧重如何利用机器学习任务之间的结构对偶属性从大量无标签数据进行学习及侧重于自然语言中基于无标数据的预训练方法两部分内容。重点介绍了机器翻译中的多智能体对偶学习和语音合成识别中的对偶学习的最新算法、针对语言理解任务的BERT算法及针对语言生成任务的MASS算法等。
在广告、新闻、游戏等诸多互联网产品场景中,产品内容通常具有较短的生命周期,用户兴趣也在快速的变化。在线学习技术可根据用户兴趣变化来实时适应训练模型,提高用户体验和流量转化率。如何在分布式环境下针对海量数据对深度学习模型进行实时更新,无论在学术界还是工业界都是一件十分有挑战的工作。施晓罡博士作了《大规模在线学习在腾讯的应用实践》报告,分享了腾讯在大规模在线学习方面的研究与应用实践,重点介绍了一站式在线学习开发和运维平台Oceanus ML的设计思路及应用实践。
AutoML(AutomaticMachine Learning,自动机器学习)旨在研究在没有专业知识的情况下,使用自动化的机器学习方法解决机器学习建模,以AI设计AI,摆脱对机器学习专家的依赖。近年来,AutoML已经成为机器学习赋能行业的关键技术。AutoML应用前景广阔,却也挑战重重。涂威威先生的报告《AutoML自动化机器学习发展现状与趋势》分享了AutoML的技术现状、求解要素、以及未来发展趋势。
近年来自动化机器学习(AutoML)用机器去自动化地完成算法模型选择和参数调优,从而大量节省人力成本,降低人工智能使用门槛,大幅提高建模效率。朱光辉博士作了《自动化机器学习AutoML技术研究进展》的报告,介绍了AutoML近几年来的研究现状与技术层面,包括自动化超参调优、自动化机器学习流水线设计及模型选择、自动化特征工程、自动化神经网络架构搜索,以及学术界在各个技术层面的最新研究进展。同时,也分享了南京大学PASA大数据实验室在AutoML算法和系统方面的最新进展和成果。
面对数据库系统主要面临的三大挑战,即:基于专家经验的传统优化技术无法满足异构数据、海量应用和大规模用户对性能的需求;AI时代很多数据库应用需要使用人工智能算法;传统数据库侧重于使用通用硬件不能充分发挥新硬件(如ARM、AI芯片)的优势。李国良教授通过报告《AI原生数据库系统 》阐述了其团队提出的我们提出了原生支持人工智能(AI)的数据库系统——一方面将各种人工智能技术集成到数据库,另一方便使用声明性语言让数据库提供人工智能功能,并定义了其发展的五个阶段、面临挑战及优势。
此次是CCF大数据专家委员会第四次承办CNCC论坛,并连同历届都成为诸多论坛中的热门论坛之一,报告内容干货满满、精彩纷呈,并获得了圆满成功。