自从互联网商业化发展以来,不论是新闻客户端、视频网站或是电商平台……所有的平台,都是把自己默认为一个优秀的饲养员,它按照自己的想法,把内容(饲料)Push(喂)给用户。
这些饲养员都是受过训练的专业人士,行话叫做---由网站编辑为用户设置议程,按照大多数用户的口味挑选内容。
后来编辑实在忙不过来,采用机器帮忙---最简单的机器方式则是“热门推荐”,比如按照点击量或其它数据来做排序。
饲养员模式最大的问题是不知道食客胃口如何,这会导致两个显著的后果:一是食客不满意,用户个性化需求不能得到满足;二是自身资源浪费,大量长尾资源长期得不到曝光,增加沉没成本。
有人发现了机器的好处。机器可以是根据用户特征来推荐内容。正如一个高明的厨子可以根据每一个食客的口味提供饭菜,如果机器足够聪明,在一定程度上可以解决所有用户的个性化需求。这岂不是内容产业的C2M?
准确的说,这是内容分发的C2M,它以单个用户为对象进行沟通,跳出了大众传播/分众传播窠臼,是不是足以革了所有的搜索引擎和门户网站的命?
这种智能化的内容C2M有深刻的时代背景。今天,你已经站在时代边缘,眼睁睁的看着AI技术点燃了IOT的引线,接下来你将发现自己无可拒绝的进入下一个信息核爆的时代:信息终端爆炸、信息规模爆炸、信息平台爆炸……
在信息高速公路上,你开过的车,你走过的路,全都变了规则,你所熟悉的一切的基于饲养员模式的知识框架都面临颠覆。
在这个时代,饲养员模式已经失灵了,聪明的机器将成为最大的变量。
第一个出现的场景是人类生产内容,机器分发内容。
下一个出现的场景是机器生产内容,机器分发内容。
内容产业面临C2M革命,行不行?
“当然不行,机器很蠢。”如果你这样想,那么很遗憾,你注定是看不到明天的太阳了。
“当然行。”如果你这么想,那么祝贺你掉进坑里了。
真实的情况,你可能意想不到。
一、内容C2M之路本质是走向个体化沟通
作为一个独立的研究方向,推荐系统的源头可以追溯到90年代初的协同过滤算法,中期的代表则是传统的机器学习算法,比如Netflix大赛所推动的隐语义模型,现在则是更加复杂的深度学习模型。
近些年,深度学习突飞猛进,使得机器推荐变成了整个互联网的太阳。在新技术的推动下,个性化沟通也变得更加可行,而且越来越接近单用户沟通。
(一)协同过滤蹒跚起步
按照百科词条解释,协同过滤是利用用户群体的喜好来为你推荐感兴趣的信息,这些用户要么兴趣相投、要么具有共同经验,然后网站结合你的反馈(如评分),进行过滤分析,进而帮助别人筛选信息。
当然,用户喜好不一定局限于特别感兴趣的信息,特别不感兴趣信息的纪录也相当重要。协同过滤表现出了出色的效果,开始在互联网行业称王称霸。
起先,协同过滤应用于邮件过滤。
1992年,施乐公司的科学家提出了Tapestry系统。这是最早应用协同过滤系统的设计,主要是解决Xerox公司在Palo Alto的研究中心资讯过载的问题。这个研究中心的员工每天会收到非常多的电子邮件却无从筛选分类,于是研究中心便发展这项实验性的邮件系统来帮助员工解决这项问题。
接着,协同过滤思路开始应用于内容推荐。
1994年,美国Minnesota的GroupLens项目组创办了一个新闻筛选系统,这个系统可以帮助新闻的阅听者过滤其感兴趣的新闻内容,阅听者看过内容后给一个评比的分数,系统会将分数记录起来以备未来参考之用,假设前提是阅听者以前感兴趣的东西在未来也会有兴趣阅听,若阅听者不愿揭露自己的身分也可以匿名进行评分。作为最老牌的内容推荐研究团队,GroupLens于1997年创建了电影推荐系统MovieLens,还有性质相近的音乐推荐系统Ringo,以及影音推荐系统Video Recommender等等。
后来,出现了另一个里程碑——电子商务推荐系统。
1998年,亚马逊的林登和他的同事申请的基于物品的协同过滤(item-to-item)技术专利,是亚马逊早期使用的经典算法,一度引爆流行。
协同过滤算不算人工智能?从技术的角度来看,它也属于AI范畴。但必须指出的是协同过滤算法比较弱智,无论是基于用户的协同过滤,还是基于物品的协同过滤,推荐效果总是差强人意。
怎样通过一个成体系的方法论来引导推荐系统的不断优化?如何才能把复杂的现实因素糅合到推荐结果中?攻城狮们一度非常非常头大,重赏之下必有勇夫,后来,终于有人发现了更加灵活的思路。
(二)传统机器学习开始加速
2006年,Netflix宣布举办Netflix Prize。Netflix是一家老牌的在线影片租赁网站,举办大赛的目的旨在解决电影评分预测问题的机器学习和数据挖掘问题。主办方为此下了血本,宣称对于那些能够将Netflix的推荐系统Cinematch的准确率提升10%的个人或团队,奖励100万美元!