无障碍说明
腾讯科技科技 > 要闻 > 智能 > 正文

芮勇:下一步要教机器识别图片中被群象包围的奥巴马

芮勇:下一步要教机器识别图片中被群象包围的奥巴马

腾讯科技讯 8月12日,由CCF主办、雷锋网承办的全球人工智能与机器人峰会(CCF-GAIR)在深圳举行。微软亚洲研究院常务副院长芮勇在接受专访时表示,在AlphaGO被世人熟知后之后,深度学习将迎来一个里程碑式的发展,但是仅限于弱AI,还远没有达到强AI。

芮勇所指的弱人工智能,指的是机器能把某一件定义得很完整的事做好,比如下棋、图像识别、语音识别、个性化推荐等。“但我们人类做的很多事,通常都不会接收到那么明确的指令。”比如在图像识别领域,机器已经能做到识别一张图片里小狗的具体方位。

能做到这一步的前提是,深度学习已经可以大幅降低在图像识别的错误率。“2012年之前,深度学习没有引入计算机视觉之前,2010年的错误率28.2%。2012年的时候,深度学习第一次被用在图象识别,错误率一下降到16.4%,每年的错误率越来越低。”

芮勇说到,如果现在就能做到这种水平,今后无论是无人机还是无人驾驶,很多行业的应用都会越来越精准。他认为,深度学习在图像识别的走向往下还可以向4个方向延展:

首先是看图进行语义推理。比如,给机器看一张图片“奥巴马站在一群象的旁边”,希望机器能做到除了识别奥巴马和象以外,还能想到其他的引申含义——奥巴马正在被共和党的竞争者追赶。“如果机器能生成这样的一句话,那意味着它对图片的理解到了一种全新的认知水平。”

其次是Go longer。也就是给机器看视频,它也能生成一句话来描述视频的内容。

第三是机器用图片进行对话。“比如我们给机器上传一张图片,它是不是也能跟我们聊呢?他不仅仅是用文字,还能用图片跟我们聊天。”这些需要靠计算机视觉技术的发展和深度学习的发展。

最后,是Visual Question Answering,发出一张照片,让机器回答照片里的具体问题。

“其实今年也看到了在人工智能领域的一些新变化,比如计算机视觉识别里,机器已经做了用自然语言的方式把图片描述出来,甚至是图片里的具体事物。与此同时,分布式的深度学习框架也出现了很多新类型。”芮勇认为,未来几年深度学习的发展将使人工智能各个领域有飞跃的发展。

本届CCF-GAIR峰会将持续两天,以人工智能、无人机与机器人、自动驾驶三个专场论坛为主,超过2000名来自产业界、学术界和投资界人士,针对当下这三大领域的热门话题与趋势展开热议。

[责任编辑:honestsun]
您认为这篇文章与"新一网(08008.HK)"相关度高吗?
Tencent AI Lab