漫谈今日头条、大数据与智能推荐算法
又几天没和大家聊天了,最近个人有点毛燥,需多吃些草,沉淀一下,挤出精力来写技术文章。我尽量写有用的,写书的人容易用书面语,文白混杂,大家凑和着看,欢迎来人来函来稿。
其实在互联网生活里,内容推荐技术已经无处不在了。
我从Amazon买了一本《时间简史》,回过头来再浏览,它可能推荐我可能喜欢《未来简史》,或者推荐《PHP高性能应用开发与实践》(它还没智能到知道是我写的,欢迎大家支持,一个知识分子码农能说这样的话也是够了 ^_^)。
我登录YouTube上看小电影,它推荐我可能喜欢的视频。友情提示,如果电脑是共用的,同学们千万要注意哦~
为了支持小扎,我上Facebook,它会推荐哪些朋友更新,哪些人你可能认识。最要命是它会推荐一些你可能喜欢的美女,要注意这些人可能只是照片长得好看...
今日头条一打开,就给我推荐互联网相关的内容,还给我推荐单身攻略,婚姻修养,历史钩沉,社会杂闻,还有我这九零后看不懂得的段子,是名符其实的『今日辣条』。实在忒low,我这么高雅的人,这种低级趣味真是看够了。
渣浪的媒体优势越来被机器替代,每个频道也开始了个性化探索,微博上除了可能感兴趣的人外,信息流里也开始展现哪条微博可能我有兴趣,
搜狐等老牌门户也被倒逼,做起来了个性化新闻,话说我们21CTO社区微信号已经被入驻。
低头族除了玩手机,然后就是塞着耳机听音乐,网易云音乐。QQ音乐,虾米
掌握了你的重口味。
要查看其它语言的网站,Google会帮我们自动翻译27国语言。更逆天的是,它竟然能够翻译视频里的字,比如把可口可乐的英文说明转成中文,可以把英文字幕转成中文。最新的翻译包括语音翻译、点按翻译、实景翻译、离线翻译,有图有真像!
标准机械化的文章完全可以取代编辑,由机器人来代写了。特别是导购类,新闻资讯文章,大家敢快学语文去。
查找航班,买火车票,机器帮我们预测票价,自动抢票等能力。
还有购买基金,选股票神马的。像前段时间支付宝同学执着的想加入社交,产品经理们都开始拉妹子在线了,就差没做出『你附近的有钱人』,这样,怕是没人敢用支付宝了。
当然最常用的场景,Siri或点评推荐我们附近的餐馆,地图导航应用,微信中查看附近的人(我觉得它倒该做一个像Facebook那样你感兴趣的人)等帮助我们程序员们交友。
这些后端都来自于机器学习算法。机器学习算法属于人工智能领域的一个分支。它从一堆数据中推断,然后再理解后做事,掌握的数据越多,机器推荐地越准确。相当于自己给自己编程。
在这里,我们程序员们充当了小神灵(创造算法并将其编码的人),创建创意不同的世界。
头条们如何做推荐
说到机器算法,智能推荐,都会提到今日头条或一点资讯这些内容产品。
今日头条是主要基于移动互联网(手机客户端)的产品,当然也有Web(PC端)。
内容强调更新快,强调推送,而非传统的展示或刷新,提供的内容更“精准”,做到千人千面和资讯时效性。
它的内容推送完全基于机器算法,减少小编人为干预,不断训练和提高自己,并获得内容变现和成本上的好处。
移动互联网为今日头条的兴起提供了红利,手机现在和用户如影随形,这就产生了大量碎片化的富余时间,同时手机的便利性也为时效性的竞争提供了空间,可以重新定义用户价值,于是信息流的内容提供模式有了用武之地,而在PC端,用户的时间和便利性受到的压缩,使得信息流的价值难以体现出来。
头条的推荐机制
第一次安装了今日头条,你打开APP时,它会记住用户手机的操作系统,版本,屏幕,遍历用户安装的App,浏览器的Cookie、收藏夹,客户端网络,LBS地址如北京市海淀区等信息,这样在用户未登录的情况下,能够通过这些基本的Profile做一个基础画像。
如果用户使用微博,QQ等社交平台登录后,内容APP会对这些社交平台的好友关系、微博内容,粉丝性质,评论等维度,能够有更详细的用户画像。
至于今日头条的文章内容,一部分来自于机器抓取,一部分来自合作伙伴,也就是头条号,类似于微信公众平台。
余下的,头条根据我们的阅读文章的分类,喜好兴趣,阅读时长,发表评论等维度进行更清晰的画像,然后推荐给我们。
有一个非常现实的例子。你有一个非常喜欢的妹子,你每天盼着和她聊天,每次聊天,有时候很好,这时候你想约她出来。但是如果遭到拒绝,你又很难过。又到周五时,你拿着手机考虑要不要给她电话,隐约记得上次你问过她,被她拒绝了。可是明明的两回她是答应的,前一次又拒绝了呢?是不是她不想出门,还是她喜欢小黑屋,不喜欢泡吧?喜欢吃包子,不喜欢吃披萨?你百思不得其姐,细思恐极。
于是你先放下天天拿着的手机,默默地做了个下面类似机器算法的表格:
那么,我们试图从此表格中来找寻规律。
但是很明显,有时候约会和自己的发现这状态有关,还有的时候取决于她的情绪,明明天气很好,但是她的脾气却很坏,还有每次两个人说的话都不会重样,这样一来,机器算法也无法预测答案,因此,这样的场景就不适合用大数据和机器算法,它适合于规律和标准化的数据。
但是它能总能给我们一些启示,特别是一些糊里糊涂,天天就知道写代码的人——就像我这样的,拖延狂还有码农综合症,忘记生活,需要有大数据来严重介入。
不知道愚人节大家被骗了几回,反正我中午吃了一顿烤馕。