无障碍说明
腾讯科技科技 > 要闻 > 互联网 > 百度2013世界大会 > 正文

百度陈尚义:“深度学习”技术提升搜索效率

腾讯科技[微博]启言2013年08月14日16:08

[导读]“大数据的特征在于数据量大,分类复杂,冷热不均,处理难度高。”

百度陈尚义:“深度学习”技术提升搜索效率

百度技术委员会理事长陈尚义(腾讯科技摄)

腾讯科技讯(启言)8月14日消息,在2013互联网大会中国大数据发展论坛上,百度技术委员会理事长陈尚义表示:“大数据的特征在于数据量大,分类复杂,结构化和非结构化数据并存,冷热不均,因此处理数据难度也比较高。”

陈尚义提到,百度建立了大数据平台,有专门的团队从事这项工作。为百度所有的产品服务,不仅是搜索,还有百度贴吧、百度知道、百度百科等。

他认为新一代搜索具有明显的四个特征:一是搜索结果精准展现;二是拥有更智慧的交互体验;三是全面的信息网络;最后提供了更加丰富的搜索模式。

很多搜索技术的改进都离不开大数据技术。陈尚义说,去年百度引进了一项技术叫深度学习技术,百度以此来实现深度神经网络,百度是首批应用此技术的几家公司之一。

以下是百度技术委员会理事长陈尚义演讲实录:

今天我的题目是百度大数据应用。我们的需求实际上就是民生,从这个地方开始,我介绍一下百度的大数据的情况和它的特点。第二个方面我讲一下百度目前作为搜索公司来讲,目前的所思所想所做,最后就民生问题百度做了哪些努力。

大家知道作为互联网公司,特别是作为搜索公司来讲,最主要的就是大数据,把这些数据放到数据库里面,目前我们的数据存储能力已经是2000PB,网页是千亿到万亿,更新量是十亿到百亿每天,还有广告,还有用户产生的内容UGC,大概就是这样的情况。

数据的第一个特点是海量,比较大;第二个数据比较复杂,结构化和非结构化大量并存,记录大小差异巨大,小的是几个字节,大的是一部电影,几部电影,对数据要求也是不一样的。广告的数据,要求一致性非常的强,数据冷热不均,容量比较大,速度比较慢。比如说地震了,事先没人告诉你,但是地震完之后地震相关的数据就比较热了。

业务对数据存储提出了相当高的要求,百度24小时都提出这样的服务,高可用,高可靠,高通量,高时效。我们数据量增长是非常惊人的,数据集中的百度公司增长情况更快。如果保证它的系统比较可靠,这是很大的挑战。百度有大数据平台,有专门的队伍从事这项工作,使得百度所有的产品,除了搜索之外还有很多,百度贴吧,百度知道,百度百科等等这样的平台。

百度目前利用大数据在搜索方面做了哪些工作?我们把它称之为新一代搜索,具有明显的四个特征,搜索结果精准投放,第二个拥有更智慧的交互体验,第三个方面是全面的信息网络,最后提供了更加丰富的搜索模式。

这是一个精准的效果投放,过去没有新一代搜索的情况下,要进行连接,现在输入姚明身高之后,下面是非常明确的答案。比如说姚明身高是2.26米,7.32英尺,你的要求就得到满足了。更加智慧的交互体验,我们打开搜索引擎的时候你想干什么。比如说你搜婴儿湿疹的时候,下面有四个选择,有可能你想知道小儿湿疹情况,也有可能知道皮炎的情况,也有可能是想知道麻疹的情况。你选择其中一个之后进一步给出答案。比如说是小儿湿疹的时候,就给你介绍小儿湿疹是什么情况,还有提问。你是想知道相关的医院,还是相关的药品。当你选择一个医生的时候,他会告诉你医生的情况,他是什么专业,什么地区,他擅长的领域。

下一个是全面的信息网络,你搜上海博物馆的时候,除了给你上海博物馆相关的信息之外,同时还给你介绍上海博物馆里面的藏品有哪些。然后进一步的搜上海市周边的景点,可以去的旅游景点是什么,然后还有推荐。搜索上海博物馆这样的网民,同时还搜索了其他什么相关的搜索,这是我们要说的信息网络。

大家都知道语音搜索,图片搜索。图片搜索以前叫隐文搜图。比如说你搜国际会议中心这几个字的时候,会呈现出国际会议中心相关的图片,但是现在相反了,你可以输入一个图片,根据你的图片可以找到跟它相关的或者相同的图片,叫以图搜图,这个方面我们去年经过一年的努力之后,取得了非常巨大的进展。

所有这些搜索方面的改进,后面都是大数据做支撑的。比如说姚明的例子来讲,实际上有一个概念叫三元组,姚明身高多少米,像这样的三元组,我们百度已经做了上亿条数据的实体。所有这些东西都是从上千亿网页找的。几千万个数据的实行,就相当于上千万个名词的搜索,这超过任何一本书记和任何一本资料,然后进一步找到这些实体之间的关系。

去年我们引进了一项技术叫深度学习,我们用GPU的训练系统来实现深度神经网络,这项技术用在商业里面,百度是首批应用此技术的几家公司之一。在万兆网卡基础上使用128个GPU。训练100亿样本的数据,训练时间从数月缩短到一个月星期,图片错误率降低三分之一。

最后介绍一下百度大数据是如何为民生服务的?新一代搜索刚才讲了四个特点,第一精准效果,第二智能交互,第三个是全方位的信息网络,第四个就是多形态的搜索。这些为我们普通老百姓真正解决问题的话应该怎么做?我们选了几个方向。比如说看病难的问题,因为医疗资源不平衡,所以看病很难,这是301医院的情况。医生看了三五分钟之后就出来了,由于这样的事,对看病心有余悸。这是交通的情况,我每天从家里到百度大厦工作20公里多一点,一个小时,不堵车的话不到30分钟。所以交通情况对于在北京的人都是相同的感受。由于工作的情况我两次下乡到贫困的地方,那里的教育资源相当的匮乏。还有抗震救灾或者救人的情况,道路不通畅,我们不知道救援点在哪里?

在医疗方面,我们降低了获得服务的门槛,输入颈椎病,会出现颈椎病相关的信息,医生,医院,还有挂号,经过我们的努力,现在可以做到一站式的服务。智能交互可以找到所有相关的信息。禽流感在今年4月份比较流行,百度告诉你禽流感的症状,防御的措施,这样的话老百姓就不用惊慌了。医疗卫生方面还有很多,真假识别,价格的对比等等。

交通出行方面,我到国际会议中心,我知道怎么走,但是今天还是用百度地图导航,非常的方便。在交通方面我们还有很多的需求,比如说管制,有没有管制,有没有事故,管制是跟地方相关的,有没有事故是跟及时性要求非常严,比如说有没有大车。

教育方面也是一样的,这是全球在线教育的情况。增长是非常快的,美国的情况比中国发展还要快,这是中国网民的情况,用户在教育方面还有很高的要求。百度推出了开放平台。最后希望大数据活起来,串起民生的节点。

谢谢大家!

注:2013互联网大会于8月13日至15日在北京召开,腾讯科技作为本届互联网大会的官方战略合作门户和官方指定合作新闻中心,在现场进行全方位的视频和图文直播。并特设立2个现场专访间,力邀业界专家与企业代表共同探讨产业现状,指点未来趋势。

作为大会官方微博合作伙伴,腾讯微博(http://t.qq.com/)上发起了#向CEO提问#的活动,所有网友都可以提前向您关注的互联网行业CEO提问。其中部分问题将被选中,在互联网大会现场提出,并得到嘉宾的正面解答。

[责任编辑:vikwang]

相关专题:

  • ·2013中国互联网大会 ·百度2013世界大会订阅
您认为这篇文章与"新一网(08008.HK)"相关度高吗?

网友评论

热门评论

最新评论