任少卿继续往下走。
他讲架构,讲他对AleXNet的改进,讲数据增强,讲在PASCALVOC上跑出来的结果。
讲得快,但逻辑清晰,每一步推进都有据可查。
讲到第七页,他把那张对比折线图放到了最大。
“……在相同的测试集上,我们的方法在mAP指标上比当前最优的DPM模型高出了11。3个百分点。这个差距,我认为不是调参层面的改进,而是底层特征提取范式的本质性跃迁。”
报告厅里安静了大概两秒钟。
然后,前排左边第二个位置的老先生开口了。
任少卿认识这位老先生。
西安交大计算机视觉领域的老前辈,做了三十年图像处理,手底下出来的博士生如今遍布国内各大高校和研究院,标准的一代宗师。
“小伙子,”
老先生语气并不严厉,甚至带着点慈祥,
“你这个结果,训练的时候用了多少GPU?”
“四张NVIDIAGTX780,训练了大约十二天。”
老先生点了点头,慢条斯理地说:
“我想问你,这十二天、四张显卡跑出来的东西,在工程落地上怎么解决?你这个模型,推理一张图片需要多长时间?”
“目前大概是0。5到0。8秒每帧——”
“那实时检测呢?”
老先生温和地打断,
“工业摄像头要求的是25帧以上,你离这个目标还差多远?”
任少卿顿了一下。
——他当然知道差多远。他只是同样知道,五年后这个问题会变成什么样的答案。
“目前确实还不满足实时要求,但是——”
“还有,”
旁边另一位中年教授接过话头,语气更直接,
“你说比DPM高11个点,但你用的训练数据量是DPM的几倍?GPU算力消耗是DPM的几倍?这个对比,公平吗?”
“数据量大约是……两倍,”
任少卿深吸一口气,
“算力消耗相对更高,这点我承认。不过我想指出的是,随着GPU硬件成本持续下降,算力约束在未来三到五年内会快速缓解,到那个时候——”
“到那个时候再说到那个时候的事。”