您当前的位置:manbetx登录3.0 > manbetx登录页面

BBC实验室揭秘:怎么制造半自动化新闻?生产流程全揭露

时间:2019-04-30 12:02:30  来源:manbetx登录3.0  作者:Perfect

  你或许之前在BBC新闻网站上看到过“主动化出产”报导。半主动化新闻怎么给读者带来更多切身本地新闻?本期全媒派为您带来BBC新闻实验室作业人员罗奥·赫顿对“主动化出产新闻”项目Salco的一些介绍。

  BBC每天经过电视、当地电台和网络为数百万人带来记者所驻地的新闻。为了让付费读者的钱不白花,记者报导与读者相关的新闻显得无比重要,而相关往往意味着新闻本地化。BBC怎么才干报导更多这样的报导故事?“主动化出产”或许是他们探寻的新出路。

  应战交际媒体鼓起后,人们对地点地正在发作的作业了解开端更为深化,人们期望媒体应该做到让本地新闻能够频频被报导及保证其内容的特殊性。众所周知,本地电台和报纸囿于满意“新受众”的期望,保护本地新闻已成为职业界困难的一大应战。在资源有限的环境下,怎么才干满意受众对优质内容的等待?

  BBC新闻实验室期望在不大幅添加作业量的状况下,为本地读者带来内容丰厚、数据支撑的报导故事。曩昔几个月里,BBC新闻实验室和BBC英语区域的搭档们一同进行了一个名为Salco(Semi-Automated Local Content半主动出产本地内容)的实验项目。罗奥和搭档塔思明·格林开发了一个每个月能够生成100多个共同的报导故事出产途径。读者每天看本地新闻时,能够在直播页面上了解本地医院的急诊状况。这是BBC报导新闻的一种新办法,也是BBC新闻实验室现在与修正部的最佳灵敏协作。

  BBC并不是第一个选用主动化新闻出产的新闻安排。曩昔15年来,美联社一向在依据季度收益陈述出产新闻;地震几分钟后,《洛杉矶时报》的地震机器人就会对之进行报导;英国报业协会的雷达(RADAR)一向在为英国当地媒体供给数以千计的数据新闻报导。BBC深思熟虑后,Salco仅仅其对主动化新闻出产实验的第一步。他们现已从职业前驱们所做的作业中获益。但是,BBC报导办法略有不同,由于他们生成丰厚的图表报导,并经过BBC擅长的在线本地新闻将报导出现给相关受众。

  为了完成这一方针,内容修正和技术创新的作业人员进行了讲究的协作,并提出了一些困难但风趣的问题:

  BBC承受主动新闻修正吗?

  记者和修正们会乐意宣布不是他们自己写的文章吗?

  读者会乐意阅览机器出产的报导吗?

  技术视点看,这是一种彻底不同的报导预备办法:在依然存有修正们期望的新闻监督的一同,怎么整合BBC现有的出书体系?

  Salco简介Salco将数据处理、报导出产和修正同意合并为一个简略的“单击”进程。该进程首要先搜集原始数据,并依据记者规划的模板主动生成丰厚的本地报导故事。但是,这种简略性掩盖了由五部分组成的杂乱进程:

  

BBC实验室揭秘:怎么制造半主动化新闻?出产流程全揭露

  1.处理从NHS取得的数据,提取BBC感兴趣的部分;

  2.依据记者编好的模板为每个NHS信任安排编写稿件;

  3.为每篇稿件生成图表,以BBC的办法总结数据;

  4.预览每一篇报导,以便记者能够核实和同意;

  5.将每个报导故事发布到恰当的方位及主题页面。

  数据处理

  英国国家医疗体系NHS每月都会发布一系列数据,发布医疗服务运转状况。BBC对这些数据的运用也给NHS追寻体系供给了动力,该体系答应读者将本地NHS信任基金成绩与全国其他区域进行比较。

  

BBC实验室揭秘:怎么制造半主动化新闻?出产流程全揭露

  BBC新闻实验室在担任视觉新闻的朋友协助下,完成了Python脚本编撰。这个体系每个月会下载并处理跟踪器的数据。下载多年前史成绩数据,体系还会解说了每个国家的卫生服务怎么构建其数据及其设定方针的不同。在解说后,能够出现出像这样的剖析:

  巨大的数据,比方病人在4小时内就诊的百分比

  依据前史数据的附加剖析,例如终究一次抵达方针的月份

  跨数据集的比较剖析,例如信任基金的等级

  来自其他数据源的上下文修正,如本地医院的口头姓名

  BBC构建这些脚本后,并对它们进行了修正,使它们能够在BBC的云根底设施中运转,并专心于英国的急救数据。脚本能够衔接NHS供给的原始数据,然后构成数据集,以及再加上修正后的报导终究版被称为报导模型。它不是单纯地用数字来出现,而是还包含了解说自然语言后的数据内容,比方会以“131家信任基金中的35家”和“自2017年树立以来未抵达预期方针的信任基金”能够直接嵌入稿件中的数据出现。

  在这个进程结束时,会构成一个数据集,其间每一行都代表着一篇潜在的稿子,而每一列代表着记者或许需求运用的完好语境。这个数据集存储在“Amazon S3 桶”中,下一阶段将会用到这部分。

  稿件出产

  主动将数据转化为文章称为自然语言生成(naturallanguage generation ——NLG)。在这个部分中,BBC新闻实验室运用Arria NLG Studio,这个三方东西答应记者生成将数据转化为新闻文章所需的杂乱模板,然后在样本数据上试用这些模板,比照不同的构成报导阅览作用怎么。这是一个逐步替换的进程。在这个进程中,记者能够看到怎么经过优化模板来改善文本。

  与传统的报导写作不同,记者不是写写某一天他们面前的数据就好,他们还要猜测数据中或许出现的成果。例如:

  一家NHS信任数年来初次抵达方针;

  一家保持着无懈可击记载的医院;

  冬天流感迸发后成绩的忽然下降。

  这项使命特别难,需求记者的创造力来树立丰厚的模板,其间的空白不仅仅用简略的数字和报导故事模型中的百分比来添补。BBC新闻实验室和BBC英语区域数字团队的搭档一同在英格兰东部作业实验,研讨了BBC曾经关于急救成绩的文章,确认可重复结构和用于叙述此类报导故事的叙事头绪。在此根底上,他们发现了一些新表述,并进一步充分了模板。

  处理后的报导模型从S3桶中下载,并传递给Arria的应用程序界面。Arria运用此模板为数据中的每一行生成一篇稿件。生成的报导故事然后经过Amazon的联系数据库服务(RDS)写入MySQL数据库,随后显现在BBC的修正仪表板中。

  图表出产

  深度东西包(In-Depth Toolkit——IDT)是BBC为新闻报导添加数据可视化和其他图形的东西。通常状况下,记者会依据特定的报导需求独自预备图表,但明显,假如要生成数百个报导故事,这种办法就不见效了。BBC新闻实验室与保护IDT的数据出现团队协作,创立了一个体系。该体系能够填充一个描绘“数据图片”的图片模板,然后着重报导中的重要数据。当终究的报导故事发布时,这将被出现为一个图画。罗奥表明,这个令人振奋的开宣布明晰IDT现有的根底设施能够用这种新颖的办法主动生成图形模板。

  每篇报导都会有归于自己的JSON出现。为了添加多样性,BBC实验室还将库存相片添加到图表中。他们还编写了程序来验证图形是否可信有用,并将其存储在IDT的根底设施中,然后构成一个专一的标识符,这样BBC实验团队就能够将这个图形嵌入到终究的报导中。

  查看报导

  BBC实验团队构建了一个简略的仪表板,它列出了生成的报导稿件,并将它们发送到BBC发布渠道Vivo,以便记者查看体系生成新闻的质量和准确性。

  

BBC实验室揭秘:怎么制造半主动化新闻?出产流程全揭露

  仪表板是用React web应用程序编写的,它能够出现存储在RDS数据库中的一切稿件的信息。当记者预备发布这些报导时,BBC新闻实验室会给BBC的Vivo API打许多电话,然后在恰当的流媒体中为该区域创立报导草稿。

  稿件刊发

  记者们能够核对发布渠道Vivo中每一篇报导。

  当用户在BBC新闻网站上输入他们的邮政编码时,他们会看到依据稿件中的方位标签而出现的定制范围内的本地新闻流。这个推送的完成是由内容发布渠道Vivo完成的。Vivo渠道答应新闻作业者将简略的文本更新与相关图片视频,以及嵌入的内容(比方推特)结合起来,来办理流媒体。

  Salco会结合Arria的文本和IDT数据图片,为其生成的每篇文本稿件构成一篇Vivo推送草稿。然后,它会主动将草稿与相关的NHS信任安排方位联系起来,以便推送给正确的方针受众。担任办理该区域直播的记者能够在他们抵达时发布这些报导。但BBC新闻实验室估计,一旦咱们对Salco制造的新闻质量树立决心,报导进程就会彻底主动化。

  

BBC实验室揭秘:怎么制造半主动化新闻?出产流程全揭露

  之后,新闻报导就会以流的方法出现给住在某家医院邻近的人,一同避免读者被来自他们地点区域的数十个相似报导故事吞没。

  经历总结经过这次实验,BBC新闻实验室期望树立必要的根底设施——包含技术上的和修正上的——来支撑BBC迈向主动化叙事的第一步。BBC越来越乐意测验报导新闻的新办法,这一点从此项实验中取得了BBC多个团队修正和技术支撑中就能够看出。主动化新闻模板编撰不是一项简略的使命,并且记者看到他们的作业被分解成算法拼装的模块或许会感到不舒服。“机器”写报导故事的概念有时被讪笑为“机器人新闻”。但罗奥表明,BBC新闻实验室想要共享的是怎么在新闻中敏锐地运用主动化,然后增强而不是替代新闻作业。

  罗奥表明,虽然现在首要评论的都是所需技术根底设施,但BBC新闻实验室始终以为主动化新闻的应战在于根底的文本修正。

  再多的主动化也无法替代安排建构和叙述好新闻故事的技术,BBC实验室以为Salco是这种技术的弥补,而不是它的替代物。

  要想做到这一点,就必须依托记者的专业知识,并要求记者无论是经过新技术方面仍是修正思想方面,都得乐意转化办法干事。在新闻中选用主动化的一个应战是,为了习惯新的东西和作业流并构建强有力的模板,或许需求进行很多的前期作业。但是,这会被模板所带来的后期价值所抵消,由于担任这些项目的记者重返其他报导作业好久之后依然会觉得他们参加规划的模版是一种财物。

  在这个项目中,BBC新闻实验室用了一段时刻才让记者了解东西,然后发现让他们编写有表现力的模板才是最有用的。这样做有几个原因:最重要的是,这意味着Salco制造的新闻和BBC的其他报导故事有着相同的口气和特色,而不是单调地重复统计数据。这也契合BBC新闻实验室的价值观:主动化新闻并不是要替代记者或筛选掉记者,而是让他们能够叙述更多的报导——不论他们是直接发布咱们生成的稿件,仍是将他们把这些稿件作为叙述自己报导故事的根底模版,由于这样能够节约他们剖析根底数据所需时刻。

  未来意向Salco开始的试点现已取得了成功,完成了BBC新闻实验室的初始方针:在BBC新闻网站上创立必定规划的主动化报导所需的东西和程序。

  BBC新闻实验室有更多这样报导新闻的经历后,下一步将会探寻主动化出产怎么满意读者需求。罗奥表明,BBC新闻实验室知道读者注重本地新闻,但这是他们想要的阅览办法吗?Salco项目还处于前期实验阶段,BBC新闻实验室期望扩大用这种办法叙述的新闻品种以及办法的丰厚性。

来顶一下
返回首页
返回首页
推荐资讯
相关文章
    无相关信息
栏目更新
栏目热门
    健康上网忠告
    抵制不良作品,拒绝盗版作品 注意自我保护,谨防受骗上当
    适度上网益脑,沉迷上网伤身 合理安排时间,享受健康生活
    作文版权归作者所有,如果无意之中侵犯了您的版权,请来信告知,本站将在3个工作日内删除
    提示:本站为防止不良内容出现,用户发表的评论及发布作文需本站审核后才能显示出来,谢谢