无论如何,科技总是不断发展,代替人做大量重复性“套路”强的工作,每个人做重要的是不断学习,做机器做不到的事。8月22日,“闻学社沙龙”以《人工智能将如何重塑新闻业》为主题,邀请了来自中山大学、清华大学、路透社等机构的专家学者,探讨新技术影响下的传媒生态。
沙龙上,路透社市场开发经理王海明分享了路透如何利用人工智能来分析新闻源的,我发现,在某些场景下,机器已经可以核实新闻真实性、甚至根据新闻自行下单做交易。以下是来自王海明的分享。
路透有专门面对机构客户的信息终端,提供实时的股票、固定收益、大宗商品、外汇等金融市场的实时行情。据王海明介绍,路透社提供新闻的有以下几种主要类型。除了自己撰写新闻以外,他表示路透全球还有400多个实时数据源,6000多个接近实时的数据源一起提供给客户。
机器自行判断消息的可信度
在检测社交媒体这块,路透推出了一个产品叫Reutres News Tracer,实际上是一个监控社交媒体的工具。这最早是路透内部用,提供给记者和编辑监控社交媒体的新闻源,尝试从上面发现新闻线索。王海明表示,后来随着算法的深入,他们发现用机器学习可以做很多东西,比如对于社交媒体上发出的信息,可以通过算法区别哪些是新闻,哪些是一般性对话。这个项目在内部已经应用的情况下,经过三四年的不断优化,现在正逐步测试开放给外部用户使用。
Tracer会对Twitter上搜集起来的所有可能视为新闻的做分析,一是能找出最先发出来的;二是谁先转发的;三是可信度,我们知道,社交媒体上消息并不是所有都可靠,机器人会通过交叉比对,标明真实的可能性有多大,根据验证结果有从0%到100%的可信度标注。
王海明分享了前段时间这个工具的典型作用:让你看到一条谣言是如何炼成的。
他回忆,当时传出了关于某上市公司的假消息,他用这个工具监测,新闻出来他看到新闻源就知道是假的,一开始慢慢增长到800多个点击量,然后有大V或其它媒体转载,马上就会爆发,当被网站转载以后它就变成真新闻发酵了,但不到24小时又被澄清了。“我见证了整个过程,因为我收到第一新闻源特别早,整个假消息传播链条是一开始局限在小范围内,随着新闻网站的转发和大V转发而爆发的。”
他总结,目前Tracer有以下几个作用:
一、自动验证新闻真假,根据介绍,它还会用算法去问记者平时可能会问的问题,去验证新闻的真实性。
二、通过算法和机器学习去除广告、垃圾、谣言、一般性谈话,摘出要点,根据不同的数据源确定它的真实程度有多高,同时它能够去除噪音,而且会把相同类别的叠在一块儿,作为一个数据组,同时显示未来的更新。
三、这个工具是实时监测的,来验证Twitter和社交媒体上的新闻。
四、后台有大数据库,可以根据你的需求来搜相关新闻。
王海明表示,由于Tracer是通过社交媒体网站直接抓的第一时间见证者发布的信息,如果判断是真实的就直接发布。因此有一些新闻,比如日本地震,比第一个发布的媒体还要早4分钟,因为有亲历者发布,它开始交叉验证,验证为真,因此就发布出来,同时会自带一条这条新闻可信度为多少,70%或50%,而且会把数据来源发布出来让你辨别。
“传统上说到的AI应用都是在分发那一端,我们是从新闻来源那一端做了大数据、人工智能、机器学习的应用。”
机器自动读新闻并下单
它分享的第二份案例是机器读新闻并自动下单的产品。
这个产品的逻辑,简而言之是让机器自行检测并读新闻,提供实时数据和分析,判断完事件为正面还是负面之后,机器能辨别买卖信号,直接下单。
他举了一个例子:“这是TDK RIC公司的股票代码,这里发生的事件是并购,如果并购的新闻一发布,机器瞬间就会根据新闻自动下单,在人反应之前已经完成交易。这类机读新闻主要是为机构提供的。
机器分析的其中三点可能是这样:
机器会与历史数据库比较,涉及到具体某个公司,某个消息的利好程度有多大,可以根据这个来分析新闻对商品、股价的影响。
机器也能根据新闻分析出市场情绪,比如大宗商品和黄金,根据目前这段时间新闻的报道,大家的情绪普通是高还是低,有一个指数指标跟踪,市场现在对资产类别或股票的情绪变化。
最后比较简单的是利用经济指标,是股票市场、外汇市场,现在股票、外汇、大宗商品市场很多交易都来自于这种指标的直接下单。
利用语义分析做供应链图谱
他最后分享的案例是,利用机器分析公司的供应链和人之间的关系网络。
路透利用内部语义分析引擎,发现某些公司新闻里面提到的相关公司是它的客户、竞争对手、母公司、消费者还是子公司,机器分辨出来后,然后做一条跳关联关系。
以下是苹果公司的供应链数据,他表示这全部都是机器分析出来的,图中都是跟它有关系的公司,苹果在中间,供应商在左边,客户在右边,技术公司有一百多家,列出细分子行业。
这里会用到路透原有积累的产品或数据,全球99%的上市公司在路透的数据库里有ID,这样有助于他们找到这些公司的资料。另外还有两个关键数据库,一个是组织机构数据库,另一个是人的数据库,一个是做公司关联,第二是做上市公司高管之间的关联,打出标签以后可以整理出上下游和关联关系。
总体而来,供应链和价值链分析,主要是通过路透语义分析引擎对新闻全文进行分析,结合数据处理,智能标签,PermID(组织机构在汤森路透内部唯一标识),以及知识图谱等技术等技术来做的。第三方用户如果想做数据处理,也可以将原材料放上云端,让机器自行分析和梳理关联关系。