作者丨高允毅
编辑丨马晓宁
AI科技评论独家获悉,前微软亚洲研究院视觉计算组首席研究员胡瀚,不久前加入腾讯,接替已离职的前腾讯混元大模型技术负责人之一的刘威,负责多模态大模型的研发工作。
胡瀚2008年获得清华大学本科学位,2014年获得清华大学博士学位 ,师从周杰教授。博士论文获2016年中国人工智能学会优秀博士论文奖。2012年在宾夕法尼亚大学GRASP实验室做访问研究,师从史建波教授。随后胡瀚加入百度深度学习研究所 (IDL) ,该研究院由余凯挂帅,成为国内最早开启深度学习研究的先锋军之一,胡瀚凭借出色能力担任tech leader角色。2016年12月,胡瀚加入微软亚洲研究院视觉计算组。
微软亚洲研究院视觉计算组有计算机视觉界的“黄埔军校”之称,曾走出孙剑、何恺明、华刚、梅涛、王井东、代季峰、危夷晨、Steve Lin等所谓业界技术领军人物。加入腾讯前,胡瀚在微软亚洲研究院担任视觉计算组首席研究员。
胡瀚是计算机视觉领域的重要研究者,他曾以核心作者身份参与论文《Swin Transformer: Hierarchical Vision Transformer using Shifted Windows》的创作。Swin Transformer性能优于DeiT、ViT和EfficientNet等主干网络,已经替代经典的CNN架构,成为了计算机视觉领域通用的backbone。该论文因切中了2021年业内争论要用transfomer还是用卷积的热点问题,一经发表就已在多项视觉任务中霸榜,获得当年 ICCV 最佳论文奖(马尔奖)。
这篇论文的四位共同一作分别是来自中国科学技术大学的刘泽、西安交通大学的林宇桐、以及MSRA的曹越和胡瀚。曹越是前光年之外联合创始人,现在创立AI视频公司Sand.AI。林宇桐此前是西安交通大学-微软亚洲研究院联合培养博士生,目前也在Sand.AI。
刘泽是中国科大与微软亚洲研究院的联合培养博士生,目前博士毕业,在微软亚洲研究院继续研究工作。
Swin Transformer的作者还有韦毅轩,清华大学-微软亚洲研究院联合培养博士生。张拯,现就职于微软亚洲研究院视觉计算组,担任研究员。郭百宁,现为微软亚洲研究院副院长,主要从事网络图形学技术、基于网络应用的虚拟环境技术、几何模型、基于图像的模型和绘制、纹理合成、真实感图形图像技术等领域的研究。Stephen Lin,是微软亚洲研究院视觉计算组的研究员。
2021年末,该团队又进一步提出了 Swin Transformer v2.0 版本,新版本训练了当时为止最大的稠密视觉模型,并在多个主流视觉任务上大大刷新了记录。
胡瀚此次加入腾讯,正是接替刘威此前的工作。十一月下旬,各媒体爆出刘威已离开腾讯。
刘威,2012年获得哥伦比亚大学计算机科学与电子工程博士学位,在IBM沃森研究中心担任研究科学家。期间,刘威曾先后获得 2011 年底 Facebook 博士研究生奖学金、2013 年度哥伦比亚大学优秀博士论文奖、2014 年CVPR青年研究者奖、2016 年SIGIR最优论文荣誉奖。
刘威于2016年加入腾讯AI Lab,与AI Lab另外两位负责人张潼、俞栋一起,被业内称为“AI Lab三剑客”。在2018年,刘威入选IEEE智能系统10大AI青年科学家;2022年,因对大规模机器学习和智能多媒体的贡献,获得IEEE Fellow。在腾讯时期,刘威的工作主要是面向腾讯产品业务的CV基础大模型、多模态理解大模型、文生图、文生视频大模型等。
腾讯已经在多模态大模型的研发上取得新的进展,12月3日,腾讯宣布,混元大模型上线并开源文生视频能力,参数量 130 亿,支持中英文双语输入。此前腾讯混元大模型已经陆续推出了文生文、文生图、3D生成等能力。此次推出的视频生成能力,被认为是混元系列大模型当前的最后一块重要拼图。