旷视研究院坚持做“长期主义”者,见证时间的力量

GPLP

作为旷视消费物联网业务的重要后方力量,成都研究院的使命可谓“顶天立地”。向下,夯实算法产业发展地基,通过更加智能的手机影像算法助人们在不同环境下拍出更高质感图像;向上,在 HDR、Denoise、SR、光流等与业务密切相关的细分赛道上展开更加极致的探索,在 CVPR、ICCV 等顶级会议上持续输出“旷视势能”。

“科研做上限,产品看下限”,旷视成都研究院负责人刘帅成以此总结科研与商业化二者间的“鸿沟”。但正因如此,成研院为打通“产学研用”融通壁垒提供了肥沃土壤,为激发科技创新氛围默默蓄力。

从零开始 科研之路要如何蹚?

自2018年成立以来,成研院累计发表 10 多篇论文被CVPR/ICCV/ECCV/AAAI 顶会收录,这样的成果足够令人惊喜。期间付出的心血,实非朝夕之功。2019 年下半年,成研院转型聚焦于手机影像算法研究领域。回顾那段日子,刘帅成坦言最头疼的是很多同学之前并不是研究这个领域的,刚开始不知怎样搞科研,既对手机影像算法缺乏深入了解,也不清楚完成一篇 CVPR 需要经历什么样的过程。

而对于刘帅成来说,图像研究并不陌生,他一直专注于底层视觉和计算摄影学研究,具有多年科研经验,于是他决意带大家一点点来。他把“怎么读 paper、怎么想 idea、想到 idea 后怎么做实验”等繁杂的任务逐个拆解下去。“刚开始,大家想到的 idea,要么跟别人撞了,要么就根本不可能发表。”

凭借对商业落地实践的持续观察,每周两次雷打不动的“Paper Reading”,以及队内日渐高涨的“传帮带”科研氛围,团队的科研能力逐渐提升,最终形成了 2021 年的井喷之势。

“这其实是互相影响的过程,有些同学感觉自己做了很久的项目,也想尝试发点论文,或者有些同学看到别人打比赛拿了奖或者是发了顶会,他可能也会想去尝试一下。”

而在 CVPR NTIRE(New Trends in Image Restorationand Enhancement, 即图像恢复与增强的新趋势)2021 挑战赛上,成研院还包揽了图像超分辨率、图像 HDR 两大赛道的冠军。

提到团队首次打比赛的经历,刘帅成坦言一切都靠摸索。“整个比赛过程中,我们能看到不同账号在榜单上的排位,有段时间我们团队始终处在第二或第三的位置,我们就使劲想办法搭各种模型,A 同学把这几个结构试了,B 同学把那几个结构试了。要试哪些结构,大家会先开会讨论 To Do List,对每一项任务做到精细的时间管理和计划制定。”

最终结果多少有些让人意外。开始排在第二第三名的比赛,成研院最终斩获了冠军;而长期排在榜一位置的一项比赛,反而因为大意而被后面的人追了上来,最终拿到亚军。“今年我们也要吸取这样的教训,一次排在第一并不代表最后也排在第一,刚开始排在第二第三名,也不代表最后没有机会去反超。”

重在实践 如何叩开商业的门?

将科研成果应用于商业世界,推进产品落地是成研院立足之本。尤其是面对智能手机“影像为王”的加速进化,更需要AI算法配合不同平台的硬件实力更好发挥效能。一个好的算法最终能够实现工程化落地,中间需经历包括模型优化、加速、质量评估等多环节流程。为此,刘帅成强调,相较于科研对“最好”的追逐,做产品更要关注“下限”,“将算法应用到产品中去,各种情况都要考虑到,对用户来说,质量和成片率都很重要。”

另一方面,不同于实验中完全客观的结果,不同客户 QA(Quality Assurance,品控)的标准、偏好也将极大地影响算法优化。有的 QA 对图像“发灰”很敏感,有的 QA 对噪声很敏感,这就要依据不同重点去发力。刘帅成表示:“手机产品迭代节奏很快,尤其临近产品发布的时候,我们内部要跟客户交互着测试,一周可能要发布几个版本,以进行高速迭代反馈。