就新闻行业的这种自动化浪潮而言,影响最大的早期实践大概要算“Google News”了。Google新闻是一个由计算机生成的新闻网站。它汇集了来自中国大陆超过1000多个中文新闻源的新闻资源,并将相似的报道组合在一起,根据读者的个人喜好进行显示。
Google新闻所开创的是新闻的机器选编,还不是本文所要着重探讨的新闻的机器写作。但写作和编辑同为新闻内容生产的两个关键环节。在“Google新闻”的自动选编推荐中,关键是以下几点:
1.新闻来源:来自我国大陆1000多个中文新闻源。新闻来源的选择和把关,在很大程度上决定了聚合推荐的新闻的丰富和多样性程度;这实际上是“Google新闻”选择和推荐的样本框,决定了哪些新闻有机会被推荐。
2.推荐逻辑:即其算法(algorithm)。值得指出的是,StoryRank和PageRank类似,其对一篇报道的推荐和选择,并不是仅仅通过分析报道本身的内容,而是着重分析报道在网上的受关注程度:被哪些网站发布、转发的多少和频率、在网站的什么位置发布等,以此来“计算”有关新闻的价值或重要程度。
3.推荐而不提供:从新闻作品版权等角度考虑,“Google新闻”只是提供各种新闻不同的新闻来源,有点“述而不作”的味道,具体的新闻则仍需要到各来源网站去阅读。Google新闻的这一做法最大限度地让它避免了各种版权纠纷,换言之,它把自己定位为自己所定义的众多新闻源的精华索引页。
作为机器编辑肇始的“Google News”,其所开创的基于所选择的样本框进行新闻自动选择和推荐、排序的方法,对各大新闻网站、新闻门户和其他搜索引擎带来了很大的冲击和影响,包括百度新闻等跟风者不少。值得指出的是,在“Google News”最初推出之时,还是Web1.0时代。10年过去,互联网特别是移动互联的发展,使得新闻生产和消费的格局又有了很大的变化。这其中最大的变化就是社会化媒体的兴起,以及基于消费端的用户偏好,被纳入到新闻推荐的算法考虑中,从而可以为用户推荐更加个性化、定制化、动态化的新闻产品和内容。事实上,以“今日头条”等为代表的新闻客户端,都是当初“Google News”所开创的机器新闻编辑产品的变种和升级。
无论是“Google News”也好,“今日头条”也好,这类产品的出现和风行,揭示了这样一种趋势,即机器学习、深度学习正在改变包括新闻生产在内的诸多之前依赖人力、脑力密集的产业和行业的生态和业态。从工业革命开始,人类的自动化梦想就一直在加速膨胀,试图在一切有可能把人力解放出来的领域,代之以无论是硬件还是软件意义上的“机器”的协助甚至完全自动化。
二、机器新闻写作:基于算法的新闻内容生产
编辑和写作,就其所需要的人工智能程度而言,显然写作更具挑战性。在机器新闻生产的语境中,机器编辑通常主要指对已有新闻作品的选择和推荐、聚合,很少涉及对成稿的修改;而机器新闻写作,则仍是不折不扣的从无到有的“创作”。
把机器或者程序能做的交给机器和程序,从而把人力解放出来,去从事具有创新要求和需要发挥想象力的工作,这是自工业革命以来自动化革命的基本理念。关于机器新闻写作,美联社的看法是,这将让记者“能做回新闻的本职工作,而不是忙于数据处理”,因此,机器新闻写作的引入,并不意味着记者编辑工种的消亡。
但显然并非所有类型的新闻都适合机器写作,至少目前来看是如此。就美联社的实践而言,其此前已经在用自动化手段提供各种数据式的体育“报道”,但此前主要是整合、综合关于运动员、赛事的各种实时数据,而此次的企业季度经营状况报道则是不折不扣的新闻报道了。尽管如此,可以看出,适合通过机器或算法进行的新闻写作,一般是以各种数据、图表的引用和分析为基础的硬新闻,新闻的主体来源于对数据的引用、解释和分析,具有明显的“数据处理”色彩,可看作是目前方兴未艾的“数据新闻学”的一个分支。
三、机器自动写作的工作机理
下面以前述Automated Insights公司开发并已经被诸多品牌公司,包括像美联社这样的通讯社采用的自动写作平台Wordsmith为例,简单介绍一下其工作原理与过程。
Wordsmith平台的任何一篇“自动生成”的作品的写作流程分以下几个步骤:
1.获取数据。首先需要消化关于所服务的客户,即报道对象的各种形式的数据和资料,包括以APIs、XML、CSVs以及各种字处理图表等形式的数据,以及第三方(如Google Analytics)提供的相关客户的各种数据(运营、业绩、报道、评价、引述等)。作为一个以数据处理为基础工作的写作平台,Wordsmith可以处理“几乎任何形式或格式的数据”。
2.分析数据。这里涉及到对各种数据的解析以及内在关联的勾勒,并把它们放在历时性的演变背景中来进行解读。
3.提炼观点(identify insights)。通过对目标客户各种数据中所呈现的模式和趋势的揭示,并把它们纳入到更大的行业或社会、国家的背景中来解读其意义,从而通过这样的参考和比对,得出一些具有可操作性的意见和建议。
4.结构和格式(structure & format)。Wordsmith平台需要用其自然语言生成功能对此前的分析和提炼得到的观点进行故事化叙述,并按照需要生成各种形式的文本:长文、短新闻、可视化图表为主的内容、推文、标题导语等等。
5.出版。Wordsmith平台能够将所生成的文章,通过多种方式,实时发布到客户指定的平台上。
综合我们对机器新闻各种软件和平台的了解,迄今为止,机器新闻或内容写作,使用最广泛的四大领域是财经、体育、气象地质和健康。支撑诸如Wordsmith这样的自动写作平台有效工作的基础性系统,就是直接来自所报道的组织或个体的各种监测资料、第三方提供的各种监测资料,以及连接到动态更新的云端数据库。没有大数据采集和挖掘、分析系统的支撑,机器自动新闻写作就成了无源之水、无本之木。社会的信息传播基础设施和环境发展到今天,随着各种随身通讯设备,如智能手机和各种可穿戴式健康监测设备的普及,加上无处不在的上网条件和实时定位系统,使得我们可以对所关注的个体、群组、组织、行业等,进行多角度的信息收集和描述。社会正变得越来越透明,这是机器自动内容写作风行的前提。
四、机器新闻与新闻业的重新定义
机器稿件生产系统的出现,将对新闻传播行业带来深刻而长远的变化,这种影响首先体现在对新闻传播行业的重新定义。新闻传播行业的核心是内容的生产与传播。机器内容生产的出现和兴起,对于新闻传播行业的影响,主要是内容的生产和编辑、出版或发布、推送方面。
首先,在一些综合性通讯社或媒体中,一线内容生产的总体格局可能会发生重大变化。在前述财经、气象/地质、体育、健康等领域的常规稿件的生产中,传统的记者写稿环节,可能会解构为记者“指导”下的机器写稿和记者/编辑进行人工修改把关两个环节。记者或编辑将主要通过基于算法的内容管理系统(即CMS)进行审核把关和稿件推荐。
其次,稿件生产会越来越依赖于媒体自己建设的数据库以及实时的基于大数据的数据挖掘工作,这意味着在常规新闻写作中,传统的记者现场采访的重要性和必要性可能会有所降低,而中介化在场感的获得和营造将成为关键。
第三,稿件内容的发布和推送将会更加个性化、定制化,不同新闻终端消费者收到的内容可能会有不同的版本。基于对内容消费者消费偏好和方式的分析,在新闻发布和推送时作相应的个性化裁剪,是完全可以做到的。
可以看出,新闻传播行业正在快速演变中,行业的信息技术含量会越来越重;与此同时,以往从事软硬件平台设计和开发的一些技术公司,将不可避免地“跨界”涉足内容服务行业,新闻传播中信息服务业的比重会进一步加大。由于大量内容都加上了“时间戳”和地理位置信息,新闻和非新闻类内容的界限,也将更加模糊。
行业内涵和外延的变化,必然带来新闻传播学科的内涵和外延的变化,这直接体现在其学科的课程体系设置中。近年来,国内外不少新闻传播院校,在“大传播”理念下,纷纷加强了新媒体方面的课程内容比重,包括大量的信息和数据处理技术和信息艺术设计方面的课程。传统的新闻传播、信息科学、艺术设计学科日益交融。
由此也必然带来新闻传播从业者核心素养要求的变化。自动新闻生产的不断改进和复杂化,将不断挤压新闻业中那些劳动密集型的工作或新闻生产环节,让这些工作或生产环节,就工作量和所花费的时间而言,主要通过机器即可完成,人工的干预和关键决策,本质上仍会起到主导作用,但从工作量上而言,不再需要在创造性要求高度不均的各个环节都同等付出,而只需在一些关键环节上介入即可。
记者和编辑,由此需要重新定位自己工作的核心价值到底在哪里,时时考虑自己所从事的工作,是否具有一定智能的软件或 机器人 也能胜任。新闻从业者的不可替代性,从长远来看,必然来自其个性化特色的内容创作和创新编排、设计、内容传播和推送策略的制定等,而不是其他。