你当前的位置 主页 > 产业新闻 >
产业新闻
文科思维与技术思维的碰撞:新闻传播经验应用在机器写作技术开发
来源:http://www.028cxtx.com 编辑:k8.com 2019-03-30 10:50

  原标题:文科思维与技术思维的碰撞:新闻传播经验应用在机器写作技术开发中的个案研究

  本文对北师大团队参与微软小冰项目组开发“小冰白盒写作辅助工具”的过程进行个案研究,从北师大团队角度探究资讯聚合类新闻文本自动化生成原理及模板生产模式,新闻传播专业经验如何帮助机器新闻写作文本更接近人类写作,以及文科思维与技术思维的差异与互补。研究也发现机器新闻写作具有诸多局限性,尚不能独立完成有逻辑有观点的自动化文本生成,但凭借其擅长处理海量数据的优势,将很快成为传媒业进行高效内容生产的辅助写作工具。理解技术逻辑使文科从业者能够更好地运用技术。

  机器人新闻写作(Robot Journalism)是机器人基于人工算法自主分析数据并生成文章的方法(Kim & Kim,2017)。机器人新闻写作(本文也简称为“机器写作”)是一种拟人化的说法,更确切的名称应当是“自动化新闻”(Automatic Journalism),指的是运用算法,将数据进行加工处理并转化成叙事体新闻文本的方式(Carlson,2015),即在很少人工输入的情况下,自动生成新闻文本格式的过程(Zheng et al.,2018)。

  近年来,国内外已经有不少关于机器新闻写作的尝试。比较具有代表性的有,《洛杉矶时报》2011年推出报道地震情况的机器人Quakebot,2014年美联社开始使用Wordsmith生产财经新闻,2015年新华社推出自动新闻协作工具“快笔小新”进行财经和体育新闻报道,以及《今日头条》在2016年里约奥运会期间推出机器写作工具xiaomingbot,等等。机器新闻写作已经成为当前新闻传媒业的一个新热点,也引起学术界的关注。从国内学者的研究来看,最近几年相关论文数量明显逐年增长,cnki数据显示,主题为“机器写作”的论文检索数量在2013年为1篇,2014年、2015年、2016年分别为4篇、5篇、11篇,到2017年更是达到了27篇。

  机器学习、深度学习正在改变包括新闻生产在内的诸多之前依赖人力、脑力密集的产业和行业的生态和业态(金兼斌,2014)。以机器写作为代表的人工智能技术正在颠覆传统媒体内容生产流程、提升新闻生产效率,并改变原有的把关人规则(张洪忠等,2018)。

  要把握机器写作对新闻传媒业的影响,首先需要了解机器写作的生成原理。目前,学者们对此有一些探讨。如有文章将机器写作的原理概括为五步:读入大量数据,测量数据“新闻性”,寻找报道角度(框架),寻找支持框架的数据,润色文字(邓建国,2016)。还有文章将机器写作概括为“人工模板”+“自动化数据填充”的模式(彭兰,2016)。也有研究对10名有独立使用自动化新闻文本生成工具经验的记者进行了半结构化访谈,通过分析记者对该技术的使用经验与想法,揭示了机器写作存在的诸多局限性(Thurman & Kunert,2017)。

  尽管这些文章对机器写作的基本步骤做了描述,但没有触及机器写作真正生成的技术逻辑,因此还不能帮助人们更好地掌握机器写作的规律。例如,今天各大新闻客户端充斥着大量同质化没有营养没有内容的水文,这一现象的成因就需要从技术逻辑角度来进行解释。目前通行的机器写作的内容,多数都是简单呈现时效性的短新闻,或者只是将人物或事件的描述性事实报道进行堆积,很少能够形成有观点有态度的生成型文章。“态度”和“观点”是新闻报道的灵魂所在,但目前来看,纯粹基于大数据聚类和数据填充的模板式新闻写作在这点上是无能为力的。

  进一步看,当前新闻从业者作为“技术门外汉”对新技术往往处于被动接受的状态,只有让接受过新闻专业训练的从业者和研究人员更了解新闻报道的写作逻辑和写作方式,让他们的角色从使用者转换为开发者,才能真正让机器写作成为新闻生产的一个有用工具。也就是说,只有将人工智能的技术思维和新闻思维相结合,才能更好地开展内容生产。

  由此,本文对北京师范大学新闻传播学院参与微软小冰项目组开发“小冰白盒写作辅助工具”的过程进行个案研究,从北师大团队角度探究以下问题:资讯聚合类新闻文本自动化生成原理及模板生产模式为何;新闻传播专业经验如何使得机器新闻写作文本更接近人类写作文本;文科思维与技术思维的差异体现在什么方面以及如何进行磨合。

  本研究采用个案研究方法探讨问题,以北师大新闻传播学院团队参与微软小冰“小冰白盒写作辅助工具”开发过程的个人经验为研究对象,并结合前期的11次讨论会的会议记录文本及项目合作期间产生的其他书面资料辅助分析。个案研究是一种全方面收集研究对象资料的质性研究方法,能够整体、深入地剖析一个样本(魏峰,2016),通过个案研究可以扩充对经验事实的认知,提出新的理论见解(王富伟,2012)。此前几乎没有关于新闻传播专业人士参与到机器新闻写作工具设计开发层面的记录与研究,希望本研究对后续相关研究能有一些实践层面的参考价值。

  2017年9月16日,北京师范大学、微软和封面新闻联合成立了“人工智能与未来媒体实验室”。在2017年11月16日封面新闻举办的“智创未来2017C+移动媒体大会”上,微软亚洲互联网工程院小冰团队的总经理曹文韬和北师大新闻传播学院张洪忠教授商定,张洪忠教授团队参与到微软小冰机器写作的开发工作之中,作为“人工智能与未来媒体实验室”的一项实际工作。

  2017年12月初,微软小冰团队与北师大新闻传播学院张洪忠教授团队(后面简称“北师大团队”)正式展开合作,在微软小冰团队前期工作基础之上共同合作探索出一套可行的资讯聚合类新闻机器写作模板生产模式。北师大团队人员有:张洪忠教授,讲师刘茜博士,博士生何苑,硕士生韩晓乔、刘力铭、石韦颖、丁磊、王小月。项目合作分为两个阶段。前期双方团队每周开展1~2次讨论会,交流工作进度、探讨修正方案和布置工作,先从聚合类娱乐新闻的机器写作开始。后期北师大团队的博士生、硕士生以实习生身份进入微软公司,与微软开发团队一起将验证可行的聚合类娱乐新闻模板生产模式推广到科技、体育等更广泛的写作领域。

  整个项目的工作可以分为六个部分,由北师大团队和微软小冰团队分工合作完成:(1)行业内容结构梳理:以娱乐新闻为例,建立文章类目表,设计机器写作逻辑框架。这一部分主要由北师大团队完成。(2)对应行业结构,将不同观点态度的文章写作手法归纳总结,并形成相应的机器可以理解的模板进行学习训练。(3)数据补充与模型训练:工程师给予对应模板模型收集人类写作文本作为机器学习对象,并进行算法模型训练。由微软技术人员负责。(4)效果评估:在讨论会上共同阅读分析测试文本,检验模板和算法的可行性,以改进方法。由北师大方面在微信群、微信公众号、今日头条发布机器生成完整新闻文本,观察受众反应。(5)向科技、体育等领域扩展:在项目后期,北师大团队部分成员进入微软公司与小冰团队一起将验证可行的模板生产模式推广到科技、体育等更广泛的写作领域。(6)模板编辑工具开发:模板编辑工具的开发与模板架设同时进行。微软团队负责产品设计与开发,北师大团队从用户角度提供需求。

  之前的机器写作工具主要生成财经、体育类别下的快讯类新闻,以填充描述性数据为主。就是“人”先设计好写作内容的格式,机器只需要搜索并匹配相关内容到格式中,就可以像做“填空题”一样完成报道的简单写作(何苑、张洪忠,2018)。虽然在大数据和算法技术支持下,机器写作已经可以实现同一主题下多事实信息的聚合,但也只是对信息的简单聚合,无法在将碎片式信息串为整体的同时兼顾文章中心思想的呈现,因此生成的文章不符合人类阅读习惯。

  微软小冰团队和北师大团队为了使“机器写作”向“人类写作”更靠近,需要将不同观点写作手法的规律总结为机器可以理解的形式,然后指导机器去寻找对应观点态度的数据来成文。同时,机器生成文本需要使用人工编写的语句衔接,并采用更符合人类写作逻辑的结构组合。因此,要开发出一套更接近人类写作的文本生成工具,除了技术开发外,还需要了解传播规律和新闻写作技巧的专业人士参与写作模板的设计。

  2018年7月26日,微软召开第六代微软小冰发布会,发布会上推出“小冰白盒写作辅助工具”。该工具由微软小冰团队与北师大团队合作开发,旨在帮助媒体从业人员快速收集、聚合报道所需要的事实信息并形成新闻初稿。根据用户的需求,该工具具备对同一事件选取不同观点态度进行报道的功能。

  机器写作的模板由报道主体、人工衔接语、标签、段落选取规则组成。模板限定了文章的写作框架、事实信息的排列顺序以及情感倾向。模板的设计和衔接语的编写都会影响机器生成文章的逻辑和流畅性。

  要想实现批量、自动化生成更接近人类写作风格的文本,就需要找到人类写作逻辑与机器写作逻辑的契合点,开发出一套通用的模板生产方法论。北师大团队和微软小冰团队以娱乐新闻为切入点,探索出了一套以情感态度为关键的资讯聚合类新闻机器写作模板生产模式。

  从简单的罗列事实到形成完整的文章,需要有一个主题支撑。主题不同、模板的设计也会有所不同,模板的主题就是文章的主题,在这里也就是自动生成文本的类型。

  在进行具体模板框架设计之前,首先要确定模板主题的分类方式。建立新闻的三级类目,如将“娱乐”作为一级类目,对娱乐新闻的主题进一步细分作为二、三级类目。分类既是每个模板生成文章的主题,也是记者使用机器写作工具时选择的生成文本类型,设计的好坏将决定媒体工作者能否迅速找到自己想要生成的报道。

  北师大团队在收集并阅读了近五年娱乐大事件的相关报道后,发现娱乐新闻和娱乐相关的微信公众号文章往往以最新发生的事件为引,再追溯事件涉及人物的相关历史新闻,最终形成一篇内容丰富的聚合类娱乐资讯。结合新闻写作的专业知识,团队经讨论决定从新闻报道事件类型的角度对模板进行分类,也就是在娱乐下首先建立包括绯闻、违法、综艺、奖项、时尚活动等在内的多个二级类目,再在每个二级类目下建立三级类目。比如“绯闻”下的三级类目是“未婚绯闻情侣”“出轨”等。每个三级类目既代表一个文章主题,同时也是新闻模板引语部分陈述的事实信息。这样设计文章分类,为的是令记者在遇到突发新闻使用工具生成文章时能迅速根据事件类型找到所需模板生成文章。

  记者思维强调以事实的时间性和重要性排列事实信息,改变时间线的叙事结构,这一点也被应用到后面的模板框架设计当中——先报道新近事实,再根据重要性盘点相关历史事实信息。

  “机器没有情感态度,人类才有,可以通过不同事实组合呈现出差异化的态度。”在第四次的讨论会上,为了使机器生成文本从罗列事实到呈现观点态度,北师大团队提出在三级类目的基础上将同一主题的模板根据情感态度再次进行分类。在定下模板主题分类方式后,选取二级类目“绯闻”来设计模板。经过讨论,决定以“未婚绯闻情侣”为例,分“批判/祝福”两种态度来进行模板写作。由新闻传播学院的学生编写衔接语、制定段落标签(段落主要内容)并设计文章结构。此次写作的两个模板主要区别体现在衔接语的表达上,段落标签选择和顺序上几乎没有差别。

  微软团队工具的开发伴随着不断的测试和结果评估,以改进算法和模板设计,直到达到最佳效果。

  在第一次情感态度驱动的写作模板完成后,微软团队将“刘雯/崔始源”“吴昕/潘玮柏”这两对绯闻情侣的名字输入到模板中进行测试,生成了四篇机器写作文本。第五次讨论会上,北师大团队和微软团队对结果共同进行了评估。从技术方面来看,抓取的文段与目标信息不够切合,由于涵盖的事实信息都是中性的,都是主体过去的互动,即使衔接语的态度分明,说服力仍然不够强,甚至出现了机器生成文段的事实信息与衔接语观点相违背的情况。

  讨论会上决定将同一个三级类目下不同态度的模板架构加以区别,以突出表达情感态度;对事实信息进行正面/负面分类,通过报道对象的正负面新闻事件选择性呈现,形成文章态度的褒贬。比如,“绯闻情侣”的模板会涉及对报道两个当事人的褒贬,排列组合形成男正女负(祝福/批判)、两正(祝福)、两负(批判)、女正男负(祝福/批判)共六种模板。此外,微软团队在技术上优化算法,使生成文本更准确,并尝试让机器对文本的态度正负做出判断选择。

  根据讨论结果修改模板后,使用“赵丽颖/吴亦凡”作为测试对象,并将生成的报道在微信群、微信公众号、头条号发布。此次机器自动生成的文本语言流畅、逻辑自洽,证明情感态度模板的可行性。

  特别有进展的一点是,数据的收集和聚类的训练模型不再仅仅是基于事件和内容的相关性,而且加入了观点和态度这两个全新的标签,进行数据模型的深度学习。在给予这些新的数据和模板成文进行标定训练后,再去判断文章的优劣。

  对于数据的聚类成文后,还要进行对应内容的二次改写。这样能使得内容更加符合整体文章的效果,并能进一步优化用词进而使得整体文章的结构更加自然,更像是一个“有态度”的新闻工作者创作出的完整文章,而不是对内容数据的简单拼凑。

  在确定了模板设计的基本思路后,需要考虑同一主题模板的量产问题,即如何在报道同一主题事件时自动化生成大量不重复的文本。“树”指的是一种文章框架图,一个三级类目可以形成一张框架图,包含的不同情感态度的模板架构可以全部在一张框架图中显现,框架图由标签排列构成。框架确定后只要添加不同的衔接语就可以形成不同的模板。在第八次讨论会上,微软团队提出使用标签建构“树”这种模板框架图,先搭建文章框架,后期再聘请专门的人员大量生产衔接语。为了验证“树”这一方法的可行性,两个团队决定进一步开发“出轨”主题模板和“综艺”主题模板。

  在“综艺”和“出轨”主题模板验证了流程的可行性之后,北师大团队里的学生成员进入微软公司,将方法论推广到科技和体育领域。具体模板生产流程如下:

  (2)搭建“树”。为需要搭建模板的主题设计模板框架图,一个模板框架图包含同一主题下所有情感态度。

  (3)标签总结与技术优化。框架图搭建完毕后,根据框架列举文本生成所需的内容标签,为标签制定规则,协助技术部门标注标签对应内容,技术部门对机器生成标签内容进行技术优化。

  (4)模板写作与测试。衔接语编写,形成完整模板,使用模板写作工具测试模板的通用性。

  (5)在验证了娱乐行业后,迅速地对体育、科技类进行试验,验证了方法在新闻聚合类文章上的普适性和可扩展性,而且这一阶段对于态度模板的扩建是通过专门的工具平台来完成的,这也极大地降低了对参与人员的技术要求和限制,使得整个生产过程变得更加高效。

  写作是偏文科思维的任务,而机器写作的工作原理是理科逻辑,这就要求学科交叉共同合作,来达成目的。北师大团队均为人文社会科学学科背景的师生,而微软团队则多为理科背景的技术开发人员,两种不同学科背景和思维模式的团队在合作中逐渐显现出明显的学科差异。但双方通过深入沟通促进相互理解,擦出了新的火花。

  微软小冰最初生成的文本基于时间线叙事,预设模板是将事件按照发生顺序罗列,在北师大团队看来,这样的文本固然叙事清晰,但机器组合的痕迹依然明显。通常,新闻写作常用的“倒金字塔结构”会将更重要的内容放在前面,这样才能吸引读者继续读下去。要完成一篇合格的公众号文章也需要有故事的起承转合,戏剧性的文章有起伏才有人看。模板的事件分类和情感态度主导也是基于这种文科思维来设计的。

  对技术部门来说,无论是时间线,还是反转式的故事,只要有清晰的规则就能实现。重要的是规则。

  人类写作的思维是将若干个概念串联在一起,有了一个概念。概念的含义自然就在脑海中被解读并检索出对应的具体信息,实现概念的具象化。但是如果仅仅给出一个概念,对机器来说是无法理解的。在会议上,北师大团队的成员经常被技术人员追问某个标签的具体含义,因为只有技术人员将明确的外延和内涵写成规则,机器才能理解。最初北师大团队给出的模板中有“互动”“产生社会不良效应”等含义广泛的概念作为标签。人与人尚难以给出同一概念界定,机器更难理解。为了解决概念模糊机器无法理解的问题,团队采取了多种优化措施。比如“互动”这个词,作为标签,边界宽泛,需要更具体的解释。机器不能理解抽象定义,所以要对标签进行意义拆分,拆成更具体的子标签。北师大团队首先将“互动”拆成了“节目互动”“剧组互动”等子标签,并且通过举例让技术人员知道每个子标签代表的具体内容,再根据例子写成规则训练机器。

  技术逻辑是一种规则嵌套,机器无法独立完成概念的具象化理解,文科思维需要再向前走一步,帮助机器完成概念的具体化,技术思维则将明确的文字规则编成程序,二者共同构成人类思维与算法之间的桥梁。

  技术思维讲求一个算法解决一类问题,一个模具批量生产大量产品。人类写作与机器生产不同,常常被认为是个性化的。模板衔接语是机器生成文章当中人工写作的部分,一套模板衔接语理论上要能够被用于同一主题(如“单身绯闻情侣”)下同一态度的所有情境,不论“小鲜肉”还是“大叔”作为绯闻对象要都能够带入同一模板。在北师大团队和微软小冰团队的讨论会上,争议最多的要数衔接语的通用性问题。微软方面提出一些词语无法套用所有艺人身上,造成文章逻辑混乱;北师大团队中负责写衔接语的成员则认为完全删掉有指代性的词会削弱文章的生动性,文章语言会显得生硬。

  自动化生产必然会牺牲个性化,但个性化正是人类写作的精髓。在这一问题上,最终双方也没有找到完美的解决方法。写衔接语的成员在用词上更加小心以避免使用指代对象有限的词语,但一些模棱两可的词语也被允许写入模板中。由此可见,通用性和个性化之间的权衡仍是需要人类完成,而机器替代不了的。

  一是要正确理解机器写作。那些认为机器写作可以完全替代人,或者认为机器写作有价值观的说法其实都是不准确的。现阶段机器新闻写作的原理是基于大数据驱动,通过数据检索、数据分析、自然语言处理等算法将所需信息填入人工设计的模板中,不能从真正意义上完成有逻辑、有态度观点的自动化文本生成。机器擅长处理海量数据,能够弥补人的大脑在信息储备、数据处理上的弱势,更快速、精准地找到完成新闻文本需要的信息,从而减轻人类的工作量。但由于技术的局限,机器不能理解复杂的逻辑关系,甚至无法区别主被动关系,因此仅依靠机器生成文本无法构成一篇逻辑严密的新闻报道。此外,机器还不能进行采访,只能引用网络上已有的信息。也就是说,机器写作无法采集到线下事实,只能按照“人”设定的模块来写作,只是一个基于算法的依赖互联网大数据来源的写作工具(何苑、张洪忠,2018)。

  二是机器写作会很快成为传媒业内容生产的一个高效的辅助写作工具。机器写作在新闻领域更适合被当作一款写作辅助工具,来帮助人类处理海量复杂的信息,将人从反复枯燥的劳动中解放出来,但人的工作仍然具有不可替代性。媒体从业者在自动化文本生成工具的开发中担任着设计师的角色。专业的新闻编辑可以为机器新闻写作工具制定写作框架,根据不同新闻资讯的题材设计出更符合人类阅读习惯和信息需求的写作规则。机器写作还不可避免地需要人工写作的内容来进行完善——所有的模板衔接语均由人类完成。

  三是在当前人工智能技术被广泛应用于传媒业的背景下,文科思维与技术思维的碰撞与合作将成为常态,学科如何交叉合作成为日益凸显的问题。在“小冰白盒写作辅助工具”开发的案例中,北师大团队经历了从完全的文科思维到理解技术逻辑并可以灵活运用的转变。理解技术逻辑使文科从业者能够更好地运用它。在机器写作项目中,写作功能需要文科思维,但功能由技术实现,新闻传播学院的师生在开发过程中担当了技术与功能实现之间的桥梁。越接近需求,越要使用文科思维;越接近底层技术实现,越靠近技术思维。比如,文科思维判断生成文本需要有情感态度,理解机器的技术逻辑是聚合包含事实信息的文本后,决定通过事实的选择和顺序来使文章具有价值判断,这就实现了文科思维和技术思维的转换。文科从业者没必要完全掌握代码编写的技能,只需要掌握技术逻辑和原理,将纯文科思维用技术思维进行解构分析,就能促成两者的合作。

  四是目前新闻传播学术界有一个流行观点,即夸大机器写作的功能,担心机器写作会取代人的思想而变得不可掌控,甚至走偏。其实,了解机器写作的原理后,就知道机器写作只是一个写作的高效辅助工具而已,本身并不能形成观点,其生成的文章背后体现的是人的观点。

  感谢微软亚洲互联网工程院小冰团队总经理曹文韬先生对文章提出的修改意见,以及感谢小冰团队的各位工程师和参与人员的合作。

  ●人工智能及其社会化应用的现状和未来——《全球传媒学刊》就社会化智能信息服务专访孙茂松教授

  ●智能算法推荐:工具理性与价值适切——从技术逻辑的人文反思到价值适切的优化之道