如何看待智能推荐的利与弊?

有人说智能推荐是一个伟大创造,是信息时代必不可少的工具。但与此同时,有人急切的想要拒绝智能推荐,认为这种追踪是对个人隐私的侵犯,也有人认为智能推荐会使我们获取的信息越来越狭窄、越来越片面从而走进信息茧房。

事实真的是他们所担心的那样吗?答案是并非如此。那些带来此类问题的推荐系统,是无法真正称之为“智能”的。而成熟的智能推荐系统是可以成功避免这些弊端的。
那么智能推荐究竟是如何实现的?它的运算过程中是否涉及了我们的姓名、电话、身份信息等个人隐私呢?


我们首先从它背后所需的数据看起
一、智能推荐所需数据有哪些
(1)物料类数据:内容的文本类数据,如内容的标题、正文、作者、内容来源、标签或关键词、分类(如时政、健康、娱乐等)、发布时间等,在电商场景的话还可能会有价格、商品属性、商品复购周期等。
(2)用户类数据:地理位置数据:经纬度坐标;特定场景下的静态身份数据:岗位、专业、技能等业务场景下才会需要到的身份数据。
(3)用户行为数据:包含了用户对内容发生的行为如点击、分享、点赞、收藏、加入购物车、浏览时长、播放完毕等根据业务场景制定的能反映出用户兴趣的数据,也包含了用户发生行为的时间即用户点击这条内容是在什么时间,用户浏览10s是在什么时间。
二、智能推荐是如何采集数据的
物料类数据、用户类数据通过数据库到数据库的方式便可完成上报,而用户行为数据则需要进行行为的埋点才可以实现收集和挖掘。埋点就像公路上的摄像头,可以采集到车辆的属性信息,如颜色、车牌号、车型、人脸等。如果摄像头分布处于理想状态,那么通过叠加不同位置的摄像头所采集的信息,基本可以还原出某一辆车的路径、目的地甚至推测出司机是否是老司机,司机的驾驶习惯是怎样等。
从智能推荐所需要的数据以及采集数据的过程,我们不难发现我们的个人隐私并不是它涉及到的部分,它所需要的更多的是我们的行为数据。


其次,一个成熟的推荐系统应当具备哪些条件呢,它会使我们进入信息茧房吗?

信息茧房概念是由哈佛大学法学院教授、奥巴马总统的法律顾问凯斯·桑斯坦在其2006年出版的著作《信息乌托邦——众人如何生产知识》中提出的。通过对互联网的考察,桑斯坦指出,在信息传播中,因公众自身的信息需求并非全方位的,公众只注意自己选择的东西和使自己愉悦的通讯领域,久而久之,会将自身桎梏于像蚕茧一般的“茧房”中。

如今的推荐系统早已能够避免这个问题。它们拥有更加成熟的算法策略,更加全面的行为数据采集,以及为用户提供的更多选择。

内容分发,往往被看作是用户对内容的被动接受,但其实平台给了用户很大的主动选择权,这些选择权就体现在用户对内容的搜索、浏览、停留、关注、收藏、评论和转发等行为上,机器通过这些行为读懂了你的选择,所以才产生了内容的个性化推荐。
智能推荐算法经过不断发展,已从单一的兴趣推荐发展到拓展用户的兴趣认知的层面上了,也就是说在纵向深化我们兴趣点的同时,也在通过内容和用户的交叉算法来横向引导拓宽我们的兴趣面。

编辑朋友们给我举过一些例子,用户在某平台上看了几篇“美国对中国加征关税”的新闻,看完后发现信息流中推荐了大量的加征关税的新闻,而用户其实想看的是国内经济发展的状况。以此来说明,智能推荐会推荐大量重复的新闻,并且限制了用户的视野。
推荐在资讯软件里有不同的应用场景,比如信息流推荐、文章详情相关推荐、搜索的个性化词云等等,如果大量相似的文章被分发到相关推荐中,那肯定是没问题的,但如果仅仅是依靠文本语义的相似在信息流的主路径中被反复推荐,那么这套推荐机制我们并不认为它属于“智能推荐”。成熟的智能推荐底层算法中,一定有针对于内容多样性的考虑与设计。

在目前的智能推荐中便针对于推荐的多样性设计了5套推荐策略:
1.用户协同引擎:即寻找与当前用户最相似用户群体所感兴趣的内容,相似用户群体数量的多少与用户历史数据的积累直接影响到了协同引擎所推荐的内容,意在通过用户关系发现用户没有意识到的自己可能会喜欢的内容。
2.地域引擎:即当前用户所属的地域内容会被推荐至信息流中,而地域范围的粒度也可控制在城市区县的级别。
3.热门引擎:即此时此刻全网中最受关注的热门新闻,注重于新闻的时效性和热门性。
4.兴趣引擎:即通过捕捉用户当前与历史的浏览习惯,在用户兴趣范围之内,发掘那些长尾和个性化的内容。
5.规则引擎:即资讯运营者(如编辑)主观意愿上甄选的优质或者价值观引导的内容。
针对文章的相关推荐不是简单粗暴的只是语义层面上的相关,而是基于物品的协同过滤算法,即“看过此篇新闻的用户还看过哪篇新闻”的算法也通过计算看过此文章的用户群体的共同特征,推荐出当前用户大概率上还有可能会感兴趣的新闻进行兴趣的扩散。
同时,用户的实时行为反馈也会作为推荐引擎的“燃料”源源不断的参与到算法引擎的计算当中。除了我们所熟知的用户的显性的行为表达(如点击“我不喜欢”)之外,推荐引擎还实时收集着用户的隐性行为表达,而这些隐性的行为恰巧是用户最自然、最真实的对于所推荐内容的态度表达。

对于成熟的智能推荐来说,以上的算法策略和推荐机制都同时存在并将多样性的努力反馈给用户。如果用户在使用智能推荐时发现大量的内容并不适合或者体验很差,那么很可能是算法策略中的权重参数配比出了问题,或者是这套智能推荐还不够成熟,当然也就不够“智能”了。

诚如上文所示,智能推荐系统其实是运用用户的基本信息及他们最平常的行为数据,通过协同过滤算法、文本语义算法及权重召回体系等方式运算并推荐用户最有可能感兴趣的内容。智能推荐系统是在信息爆炸的时代背景下,为了解决人们难以获取有效信息的问题而产生的“工具”,既然作为工具,如文章开头所言,是我们塑造了它,也同样是会在某些方面被其塑造的。

但重要的是,无论今天智能推荐的应用多么广泛,获取信息的主动权是从未离开过我们的手掌的。智能推荐的任务是使我们更加便捷的获取有效信息,而并非主宰我们获取的所有信息。

作者:艾克斯智能
链接:https://www.zhihu.com/question/392720139/answer/1211097139
来源:知乎