无障碍说明
腾讯科技科技 > 科技专题 > 互联网专题 > 2013互联网大会 > 正文

腾讯微博高自光:数据挖掘解决微博商业化难题

腾讯科技[微博]启言2013年08月14日15:53

[导读]在微博上,95%的人不会手动去分组,这就需要产品自动帮用户解决。

腾讯微博高自光:数据挖掘解决微博商业化难题

腾讯微博相关负责人高自光(腾讯科技摄)

腾讯科技讯(启言)8月14日消息,在14日下午举办的互联网大会2013中国大数据发展论坛上,腾讯微博相关负责人高自光分享了大数据技术的运用经验。他表示,大数据本身可以实现三个方面的效果:

第一对内容本身的理解,这个内容不限于一篇微博、一个视频、一篇文章,可能还有广告;

第二对用户的理解,用户的行为、轨迹等信息;

第三对关系的理解,这是最关键的,包括用户和用户之间的关系,内容和内容之间的关系,用户和内容之间的关系。

他还列举了大数据技术在腾讯微博的几个应用场景,例如推荐系统,用户登录腾讯微博之后,需要给他推荐感兴趣的人,提供他的朋友信息,一种是基于兴趣,一种是基于关系的。腾讯微博通过大数据技术让这种推荐更加精准。

高自光还表示,大数据不仅是一种能力,还是一种工具。“现在的数据特别多,如果能把我们的数据使用好,包括数据、数据挖掘能力、算法、平台……有这些东西,就能够很好地解决商业化的一些问题。”

以下是腾讯微博高自光的分享实录:

大家下午好,我用30分钟分享一下我们在微博里面大数据的应用。首先我自我介绍,我是来自微博的,在腾讯做了十几年,一直做技术,这几年做产品技术相结合的产品。我更多的想跟大家讲,大数据概念在具体互联网产品里面是什么样的。大数据已经谈了很多年,最近这几年又一次非常集中的提这个概念。互联网大会第一次设立这个话题。就目前为主大数据的应用比较多的是商业化的领域,怎么利用大数据做点击率提升等等方面。在互联网产品当中怎么做大数据?现在摸索的还不是很多。

我先简单的讲一讲我们对大数据的理解。为什么又再一次提出大数据呢?其实数据有很多变革,第一它的规模,噪声越来越多,速度越来越快,价值越来越大。第二现在的硬件技术和软件技术没有跟上数据规模的变化,但是现在的技术相对几年前是有足够应用空间的。现在我们想到,一个产品的运算,像我们腾讯微博,运行的技术、成本、平台。更重要的是思维变革,我们之前做互联网应用的时候,我们更多的是做抽样,但是现在很少做抽样。我们以前为什么做抽样?因为跑了太长时间了,现在不做抽样了,是思维的变化。

因为什么所以什么?现在我们不强调这个问题,我们只知道这是相关的,发生A事件之后就发生B事件,但是这两者是什么关系,我们不清楚。把相关事件打在一起,发生A事件之后,B事件点击率会高,但是因果关系不怎么追求了,但是肯定是有关系的。我个人感受非常深的,在今天开放的数据,隐私问题,很多情况是能避免的,越来越多开放的社区出现了。你使用一个产品,你使用微博,就意味着有这个问题,因为这个产品开放的时候,就是开放的,你关注什么人,不存在隐私的问题。我们在这个平台上做运算的时候,就会涉及隐私问题。

大数据能做什么?第一对内容本身的理解,这个内容不限于一篇微博,一个视频,一篇文章,可能还有广告。第二个就是对用户的理解,用户的行为,用户的轨迹,基本的信息。第三对关系的理解。其实这是最关键的,用户和用户之间的关系,内容和内容之间的关系,用户和内容之间的关系。出现A页面的时候,你推荐B页面,点击率很高。出现A用户的时候,推送B用户点击率很高。最后一个是趋势,趋势就是关系的变革,我们对点击率用户,做监控,情感分析,还有像电影票什么的,它是一种趋势,我专门搜出来。大数据在应用里面有这么几个类型。

在我们微博平台上用户规模依然是强大的,现在有5.6亿多用户,每天产生多少总的发表量,几千亿,你分析社交关系,是数百亿的,5.6亿的人际关系连接。每一篇新闻,每一篇微博发出来以后,有多少传播路径,我们用关系链传播,又是什么样的成果?我们每天有数百亿计的产品。现在的数据是更开放的,开放的数据一定是显示数据的。

刚才谈到微博的产品里面核心的东西无非就是两种,一个就是用户,一个就是内容,用户发的微博和图片,就这两种东西。现在的用户,大家在上网可选择的东西很多,花多少时间在微信,多少时间在微博。我们现在考虑微博下一代朝哪里走?核心的就是提高效果。你能在最少的时间内让用户看到所有的信息,看到他感兴趣的信息,这就是我们强调的问题。在这种情况下,我们就衍生了大数据的使命。我把我们微博里面运用比较多的应用场景列出来的。

第一个就是推荐系统。一个人上来以后,你给他推荐感兴趣的人,他的朋友。一种是基于兴趣,一种是基于关系的。你只有让他形成更强的关系链,就是他的好朋友,形成更好的兴趣,感情,交集圈。推荐系统和广告推荐是很相似的,算法做法是一样的。

第二个是微频道,核心目前就是给内容分类。微博是很短的,虽然是140个字,平均就是二三十个字,这么短的文本你怎么进行分类,美食,购物,到底是什么?还有更短的,我们把它分出来。把内容进行分类,把好的东西放到用户面前。

第三个叫微热点,真正实现信息关联。微博里面每时每刻都有热点事情发生,用机器发现哪些热点事件能读出来。它要做的事很多,第一发现热点事情,第二把热点事情聚在一起形成热点事件的脉络,第三把热点事件投放到用户面前,是纯自动的形式。每天数亿的数据怎么把它挑选出来。

第四叫微圈,其实就是智能分储。在微博上可以看到谁的微博,要取决于你上线的时间,正好在那个时间发表微博,因为微博操作很容易,你点一下按纽就可以关注他了,但是随着时间的积累,很活跃的用户的关系链已经上千人了,信息量非常多,你上线的时间正好是他发微博,你就看见了,你感兴趣的,你前女友有没有发微博,你关注的人有没有发表微博,你怎么拉取信息的?我们要做的把用户所有历史上已经关注的一千人自动分组,为什么分组?因为用户不会一个一个的关注,95%的人不会分组,他不愿意做,没有人做这个事,那我们做,这是非常难的事。大数据基本上都是智能的。大数据准确率是75%,80%。你能做到我们分组能做到百分之多少的准确率?如果做到60%,上线会被骂死。准确率达到什么样的程度,才能吸引更多的人。因为我们把准确率控制到一定的水平才能上线的。达到百分之多少之后大家才接受,我们才会上市的。

第五个是微博管家。怎么样把好的东西挑出来,垃圾自动过滤。我们邮箱就有垃圾箱,微博也有人做吗?不这么做有很多原因,一是技术是不是准确,二是商业化的问题。我相信不愿意做的原因就是商业化的问题。商业化的价值怎么做,这是需要我们做的,把垃圾信息过滤掉。

这是我们的事例。用户推荐,一个是基于感性的,我们用到了用户的兴趣模型,用到了用户在微博历史上用了那么长时间的微博,我会发现你经常收听哪些人,经常干什么,你对什么领域感兴趣,这个就是兴趣模型最直接的使用。还有一个就是刚才提到的长关系(音译),长关系是社交网络里面非常重要的,长关系要用二维,大家都知道现在有六度空间了,任何两个人的空间都可以利用六个人的空间找到,六度空间基本上是正确的,任何两个人都连一下,不超过4。我们推荐熟关系的时候,就是要把左右可能潜在的朋友,他不知道,他来微博了,他不知道,怎么摆放在他面前,这是5.6亿×5.6亿的关系,这个运算量很大。

广义的推荐系统,不仅仅推荐人,可能是推荐信息,我们在腾讯网慢慢引入这种技术的使用。当你看到这个新闻的时候,我可能在相关性里面,有相关的微博,相关的事宜,通过技术的自然连接,实现内容的串联。他的用户和更多的电商类的,都属于推荐类的应用。

微频道刚才提到了,对优势内容的挑选。单纯从技术角度来考虑这个问题,文本分类是很难的事,因为文本很短,还要分类,不像一些文章,几百个字进行分类,你有充足的理由做这个事,这里面需要很多办法,你不能把精力都放在文本本身,还有用户呢。这个用户老发财经类的内容,他发文章的时候,财经概率很多。利用这种思维,用更多的特征来学习,不要局限在内容本身里面准确会大幅提升。分完类之后还要把差的质量去掉,把好的质量选出来。比如说展示量,各种各样的东西,都是帮助你学习的。

微热点,这里面卷都是机器自动实现的,一件事情的发生,没有人参与,都是机器做的,而且我的机器可以发现这个事情的脉络,首先会把时间点,最热的信息拿出来,然后基于关键词把热点事情挖出来。用户上微博,大部分都是提留在主页上,如果主页提每个事件的话,再吸引你点击。我们用大量数据做这个事很有意义。我们做这个事根本不需要人做,只需要个别人看看,不要有太明显的错误,删删改,每天运营式的,自然的就出来了,这是很智能的。

这是我们的微圈。在PC上网,会把历史信息自动分好组。我们研究了特别多的运算。我们做社交网络分析的时候,很多都是很复杂的,我们做了特别多的改进,怎么把效率提高,把最小的图给解出来。分好组之后,里面有几个同学,我比较感兴趣的,前女友比较多的话,几个前女友分在一起的话,可以去里面看一下。这里面就是对信息和效率很好的提升。

微管家技术难点就是对内容质量的判断。最后就是我们的几点经验。大数据是一种能力,还是一种工具。其实现在的数据特别多,如果能把我们的数据使用好,你有很多的数据,你有很强的数据挖掘能力,算法,平台,如果你有这些东西,能够解决好某一个商业化的价值,很简单的比如说电商,我们腾讯和网点通合作,我们腾讯和它做基于兴趣的广告,利用好大数据,提升一个产品的体验,解决好一个产品的发展方向,如果你找到这些才是我们的出路。如果我们空有数据放在那里,我们也有很强的技术,各种云计算,什么都有,但是没有很好的商业模式,没有很好的产品应用,这样的话就很难施展了。我们长期的摸索,每天有大量的数据进来,数据挖掘团队,有很强的技术能力。找不到商业模式的话,价值是有限的。把我们的数据和技术,以及产品应用和商业化应用结合是我们很重要的目标。好,谢谢大家。

注:2013互联网大会于8月13日至15日在北京召开,腾讯科技作为本届互联网大会的官方战略合作门户和官方指定合作新闻中心,在现场进行全方位的视频和图文直播。并特设立2个现场专访间,力邀业界专家与企业代表共同探讨产业现状,指点未来趋势。

作为大会官方微博合作伙伴,腾讯微博(http://t.qq.com/)上发起了#向CEO提问#的活动,所有网友都可以提前向您关注的互联网行业CEO提问。其中部分问题将被选中,在互联网大会现场提出,并得到嘉宾的正面解答。

[责任编辑:vikwang]

相关专题:

  • ·2013中国互联网大会订阅
您认为这篇文章与"新一网(08008.HK)"相关度高吗?

阅读更多

网友评论

热门评论

最新评论