日前,电子科技大学成都研究院大数据室研究人员、成都链科云科技技术合伙人熊文轩,为科技日报记者解答了这些问题。
被算法“套路”的热搜推送
“这不是简单的‘贴标签’,而是组合‘套路’。”熊文轩说,新闻聚合平台、社交平台推送的新闻、信息使用的大数据算法大体分两类:基于内容推荐规则和协同过滤推荐规则。
前者是根据个人行为习惯将浏览的新闻、信息等对象进行特征提取、内容分类后,进行关联内容推送,但其最大弊端是推荐内容单一。“举个简单例子,某天你的手机被女友拿去看了丝袜产品,那么接下来几天你都会被推荐丝袜。”
于是协同过滤规则出现了,这是根据网络用户相互的交叉体验,寻找相同爱好的群体,推荐相同浏览记录或行为。“系统找了一群与你志同道合的‘小伙伴’在背后‘支招’。他们跟你同样关注体育、旅游新闻,但他们同时也阅读了气象新闻,那么算法会将你之前未关注的气象新闻推送给你。”熊文轩说,这可以避免特征分类单一,实现动态推荐,即根据个人兴趣爱好的变化作调整。
“目前,多数聚合类新闻平台都会采取融合式算法,即将上述多种算法综合运用或开发出一些更复杂的算法,但原理大致类似。”熊文轩说。
没有浏览记录的“萌新”能否逃出“套路”?他说,注册时平台会推荐标签性分类,如
电影、美食等引导用户第一波使用,随后用户开始筛选、点击、留存,这便实现了数据“冷启动”。“冷启动后数据产生,系统便按预设的算法进行推荐。”他说,一些基于新闻学、传播学特点的“规则设定”也会推波助澜,如内容置顶、套红、延伸阅读链接等。
基于人工智能形成的内容“漩涡”
“在趋于碎片化阅读的当前,读者自我诉求不明确、随机性强,容易被后台系统引导。”熊文轩说,一些聚合类平台、社交媒体负责内容推荐的是基于算法的人工智能,而非编辑人员,这更容易形成内容“漩涡”:系统按规则推荐热点话题,读者点击率、阅读量不断提升,系统再次循环推荐,越来越多的读者卷入其中。“其实你仔细看会发现,某热点话题的阅读内容可能翻来覆去就是那么几十条。”
这种基于算法的人工智能内容推荐可控吗?熊文轩表示肯定。他说,用户被海量重复信息“包围”,源于内容把控没有人为过滤。“算法逻辑不会产生特别精准的推荐,而是大体方向或尝试性推荐,这就需要大量内容填充,而无法对内容进行强制管理。”他说,可以尝试用“算法初选+人工引导”的方式,避免被同类内容、低俗内容不断刷屏。
从内容来源进行控制,也是熊文轩团队正尝试的工作之一。他所在的企业能够实现让科技政策、双创信息通过“大数据+人工智能”的方式“主动”找到企业更有效地发挥作用。“在内容源头,我们会选取政府网站、主流媒体等专业平台,这样内容推送范围是限定的,可以有准确性、真实性、客观性。”他说。
最后,通过算法自身规则设定也能够实现内容管控。他说,最简单的方式就是设定不同内容的权重值,如将娱乐新闻类权重设定为0.5、社会新闻类设为1.5,那么同样由人工智能从网络中爬取的100条内容中,娱乐类就会仅推送50条,社会类就会推送150条,从侧面引导读者关注热点。“内容推荐算法的根本是分类和筛选,最终目的是帮助读者在海量的信息中,精准找到需要关注的内容,而不是被淹没其中。”熊文轩说。