首页 > 新闻出版 > 正文

小荷才露尖尖角 早有蜻蜓立上头——全民阅读与融媒体智库文化大数据平台建设的实践与思考

发布时间:2020-06-15 08:50:00 信息来源:中国新闻出版广电报

  2016首届中国网络IP大数据发展研讨会现场。马萧萧 摄

  2020年5月8日,中央文化体制改革和发展工作领导小组办公室印发了《关于做好国家文化大数据体系建设工作的通知》。通知要求:建设物理分散、逻辑集中、政企互通、事企互联、数据共享、安全可信的文化大数据服务及应用体系,面向全社会开放,将中华文化元素和标识融入内容创作生产、创意设计以及城乡规划建设、生态文明建设、制造强国、网络强国和数字中国建设,为在新技术条件下推动中华优秀传统文化创造性转化、创新性发展,继承革命文化,发展社会主义先进文化打好基础。

  这是继2019年8月中宣部、科技部等六部委在《关于促进文化和科技深度融合的指导意见》中提出加强文化大数据体系建设后,国家层面第一次全局性、系统性部署该项工作。中央文改领导小组办公室在通知中明确指出:建设国家文化大数据体系是新时代文化建设的重大基础性工程,也是打通文化事业和文化产业、畅通文化生产和文化消费、融通文化和科技、贯通文化门类和业态,推动文化数字化成果走向网络化、智能化的重要举措。

  中国新闻出版传媒集团自2016年起,便联合行业与社会力量,与中科院信息工程研究所、北京大学、复旦大学、四川大学等机构通过深入研讨和反复论证,努力探索大数据和人工智能在新闻出版、数字出版、广播影视等领域的应用。2018年3月,集团独立研发的“网络文学IP大数据服务平台”项目入选原国家新闻出版广电总局“国家新闻出版改革发展项目库”,2019年初该项目升级为“全民阅读中台”,并经申报入选了“国家文化产业发展项目库”。与此同时,集团战略合作伙伴浙江瀚叶股份有限公司在国家科技进步特等奖获得者、全国大数据及人工智能专家团队的带领下,深耕文化大数据及人工智能技术应用领域,其自主研发的“文化IP价值评估大数据平台”获得了上海市促进文创产业发展资金支持。中国新闻出版传媒集团与瀚叶公司经多轮沟通、协商,将上述两个项目融合为一,于2019年8月联合成立了全民阅读与融媒体智库,共同开展文化大数据平台建设。

  2019年8月29日,全民阅读与融媒体智库文化大数据平台1.0版本在2019世界人工智能(上海)大会上正式发布,并上线运行。2020年3月,智库文化大数据平台的重要组成部分“全民阅读与融媒体中台”项目入选工业与信息化部2020年大数据产业发展“民生大数据创新应用领域”试点示范项目。

  汇聚数据之湖助力创造与创新 

  文化大数据平台以文化全领域数据湖为基础,运用大数据和智能分析技术,结合行业智慧,探索人工智能在文化领域的应用。文化全领域数据湖是一个集中式存储库,用户可以以任意规模存储所有结构化和非结构化数据,涵盖传统出版、数字出版、影视、动漫、游戏等领域,包括文学作品数据库、影视数据库、动漫数据库、游戏数据库、文化产业从业人员和文化企业信息等大数据,提供文化产业的政策新闻、文化IP、文化产业从业人员和文化企业信息等搜索引擎产品。数据湖通过在更短的时间内从更多来源获取更多数据,结合人工智能与平台多重算法分析模型,使用户能够以不同方式协同处理和分析数据,从而做出更好、更快的决策,实现改善客户互动、创新研发选择、提高运营效率等目标。

  平台1.0版本的开发团队聚集了清华大学、上海交通大学、中国传媒大学、美国马里兰大学等院校及海内外知名大数据公司的几十位技术研发人员。通过提供模块化、智能化、自主化、可视化的在线数据挖掘分析平台,为政府机构、投资公司、影视制作公司和广大业内人士提供专业客观的决策与运营参考。

  文化大数据平台1.0版本包含文化百科、评价体系、文学作品分析、剧本分析、院线分析、视频分析、广告分析七大板块,以数据分析产品、平台产品、研究洞察形成解决方案,向影视、视频、广告主等全文化产业链提供产品服务及精准营销等平台服务。

  文化百科收录了历年来文化领域管理机构的相关政策和重要文献,汇聚了文化从业者和文化作品的全方位资讯。主要有文化百科搜索、草稿箱、我的收藏、法律法规等功能,用户可在平台内进行数据搜索,创建词条并对已有词条进行编辑,还可对感兴趣的内容进行收藏。

  评价体系包含文化IP价值评估、文化企业信用评估以及投资风向三大板块,为文化创作和文化投融资及产业链各环节提供专业多维度的数据分析。文化IP价值评估主要通过政策描述、价值观描述、作品评分、指数信息、阅读量等对作品进行价值评估;文化企业信用评估通过查看各年度、季度的公司财报情况进行综合评估;投资风向以报告形式展示各年度投资方向与现状发展。

  文学作品分析从作品类别、上架书城、时间、作者、字数范围、读者排行等多个维度对文学作品信息进行展示,根据多元市场数据、实时热点指标和影响力矩阵进行分析、建模,可以对市场需求的未来发展趋势进行预判。

  剧本分析是剧本的展示与分析报告,汇集了丰富的原创电影剧本、电视剧本、相声小品剧本,分为剧本精品库、剧本概要库、分析报告等板块,为影视公司提供交流渠道,成就高质量影视作品,为编剧提供以市场需求为导向的学习经验与平台,为影视剧本的质量提升建立长期有效的机制,使剧本创作从数量增长转变到质量提升,促进影视产业的繁荣发展。

  院线分析通过智库推荐、票房分析、排片分析、营销监测、投资情报、发行情报、影院情报、行业分析等,实现对电影票房的全方位统计分析,及时了解影响电影票房的因素,实现真实受众分析及全媒体营销监测。

  视频分析包含电影、剧集、综艺、动漫4种类型的视频,可以通过内容分析、渠道分析、热力榜、播出情报等4种因素进行分析,科学推测真实的播放量,精准定位用户喜好,辅助分析、实时洞察营销事件及营销效果。

  广告分析通过电影广告植入、剧集广告植入、综艺广告植入与IP调性分析等,一站式采集全链路投放数据,沉淀流量池,构建用户画像,进行从流量到转化的闭环效果分析,输出特征库,目标人群精准定向,为企业解决广告投放痛点。

  升级应用平台服务文化“新基建” 

  即将开发完成的文化大数据平台2.0版,是对1.0版本的升级完善,从体系架构、服务对象、系统功能等方面做了全维度的扩展和优化,可提供更为丰富的文化大数据应用。

  一是利用数据中台优化体系架构。将原有的文化大数据处理体系重构为计算引擎、主题数仓、数据开发、数据治理和应用引擎,将文化大数据的处理能力封装为相对独立的功能单元,并可按需衔接组配,形成新的应用支持功能。在数据中台的支持下,将能够有效地把相对稳定的数据处理能力与快速多变的应用需求进行灵活适配,应对日新月异的文化“新基建”发展需要。

  二是拓展文化数据处理能力。随着对文化大数据处理技术能力的提升,将进一步对文化数据湖内容进行横向跨域关联分析和数据治理,形成文化产业的多维支持能力。包括以全民阅读与融媒体为代表的理论研究,可为监管和决策部门提供参考依据的数据汇聚研究,利用人工智能快速有效地把海量信息变成行业分析报告的数据分析研究,可为文化企业投融资提供助力的趋势分析研究,通过机器学习对内容进行识别筛选的内容甄别研究,以及利用内容快速匹配等版权保护研究。

  三是丰富文化大数据应用形式。一方面,大幅扩展传统出版、图书发行、数字出版的大数据内容,扩充和增设主题出版数据库、图书发行数据库、全民阅读新媒体数据库、动漫智库、游戏智库等;另一方面,大幅扩展文化投融资应用功能,增加投资信息、备案信息、行研报告、宏观政策等面向文化投资机构的应用功能。按照文化产业生态(产业链)布局系统应用功能模块,更符合行业用户的使用方式。同时提供PC端和移动端应用,提升系统的便捷程度和应用体验。

  四是提升文化大数据应用智能化水平。系统内置IP价值评估、受众画像、产品标签等经过大数据机器训练的行业模型矩阵,广泛应用于出版数据库、全民阅读新媒体数据库、电影智库、剧集智库、动漫智库、游戏智库、文学IP、行业报告、备案信息等功能模块,并为行业研究提供了IP价值评估工具及模型库,未来还将提供更多的行业模型与分析工具。

  目前,基于文化大数据平台,已开发并上线的在线应用产品“中国影视作品备案查询系统”,是一款涵盖电影、电视剧和网络剧的备案微信小程序产品,受众可随时搜索影视剧备案情况、各个时间段的分类情况,以及实时生成的月度、季度和年度曲线图表。

  其他正在开发或即将上线产品包括:全民阅读新媒体指数库(包含阅读类微信公众号数据库、阅读类有声听书数据库、阅读类短视频数据库)、主题出版数据库、图书发行数据库、热门文学IP、动漫和游戏备案信息数据库、文化企业信息库、演职人员智库、服化道服务机构、投资信息库、宣发日历、电影智库、剧集智库、动漫智库、游戏智库、研究智库、文化日报、宏观政策数据库等。

  融通文化科技迈向网络化智能化 

  从技术架构看,文化大数据平台中,数据中台是聚合和治理跨域数据,将数据抽象封装成服务,提供给前台以业务价值的逻辑概念,符合文化产业依托全域大数据开展分析与评估的需要。平台建设的目的,就是充分利用大数据、人工智能和区块链技术融合多种媒体资源,为文化产业提供全面、快速、权威的导向和咨询服务。这些服务需求差异大、时效性强,但需要相似的多源数据和处理过程,以往利用大数据开展数据分析不仅存在许多重复工作,而且开发周期长,无法响应快速多变的应用需要。因此就要把体现快速多变需求的前端“做小”,将原来的数据处理能力通用化和模块化,沉淀封装形成核心数据处理能力,即“做强”中台,同时以中台对接各类数据的方式进行扩展,“做大”外围多源数据,实现“小前端、强中台、大外围”的体系架构。

  体系架构的核心主要有三层:其一,数据计算引擎采用以大数据技术为主的数据处理基础环境,包括数据海量存储、批量处理、实时计算和交互计算。其二,中间层用于主题数据仓库、数据开发功能和数据治理功能。主题数据仓库将多源异构数据按照主题组织成各类主题数据仓库;数据开发将形成数据产品,具有对多源数据进行数据集成,建立数据模型,形成体现数据全貌的数据地图,以及应用所需的专项开发等功能;数据治理目的是提升数据质量,具有数据资源管理、数据质量管控、数据指标管理和元数据管理等功能。其三,数据应用引擎为前端提供数据处理能力包,包括数据访问接口、用户画像、标签工厂、分析评估、推荐引擎等全面阅读经常需要的核心能力。同时,外围可对接各类多源异构数据,包括服务商数据、政府、协会组织、出版单位、发行单位、文化企业、互联网企业、书店/网店,以及网络舆情等数据。

  从内容建设的构成看,主要包括以下几个方面:

  一是全域数据采集与引入,多源异构数据的高速汇聚。以全民阅读需求为驱动,以数据多样性的全域思想为指导,采集与引入全业务(服务商、政府、出版社、书店等)、多终端(PC、H5、APP等)、多形态(自身业务系统、第三方购买、互联网采集抓取)的数据。互联网中存在各类IP信息数据,从互联网广泛搜集名称、类型、发行商等静态信息,以及用户量、付费量等影响价值估值的动态信息,为估值提供原始数据资源。这些信息分布广泛、分享渠道(P2P、WEB、APP等)多样、分享形态(文本、图片、音频、视频等)丰富,并且动态更新频繁。因此,平台提供大规模分布式数据的探测和收集、增量式数据采集、高速协议识别和还原、海量异构数据缓存、分布式消息订阅发布等功能,支撑全面、及时的数据资源获取和分发。

  二是标准规范数据架构与研发。统一主题数据仓库、数据开发、全民阅读应用层的数据分层架构模式,通过数据指标结构化规范化的方式实现指标口径统一。

  三是连接与深度萃取数据价值,海量冗杂数据的实时清洗。形成以核心对象为中心的连接和标签体系,深度萃取数据价值。广泛搜集的信息数据中,存在大量的冗余、垃圾数据,对数据进行预处理,过滤掉无效信息,提取出价值数据供深度分析使用,可以大大降低对存储和计算资源的消耗,以及对估值计算的噪声干扰。因此,平台需要提供高速流式计算引擎,支持灵活搭载高速内容匹配、数据降噪、实体抽取、特征识别与信息关联等计算任务,实现对大规模异构数据的实时筛选和清洗。

  四是统一数据资产管理。构建出版、文学、影视、动漫、游戏、城市人文、文化品牌等元数据中心,通过资产分析、应用、优化、运营,以看清数据资产、降低数据管理成本、追踪数据价值。

  五是统一主题式服务。通过构建服务元数据中心和数据服务查询引擎,面向统一数据出口、数据查询、用户画像、分析评估和推荐引擎等逻辑,屏蔽多数据源与多物理表。

  六是海量异构数据的存储与检索。社会大数据具有规模巨大、语言多样、格式复杂等特点。例如,包括点击量、用户数量等结构化数据,图片、视频等非结构化数据,以及中文、英文等多种表达语言。这些数据是进行IP价值评估的基石,对其进行分类存储、特征关联、高速索引等处理,是提升数据存储和检索效率的有效手段。因此,平台需要提供结构化数据存储、非结构化数据存储、高速全文搜索、分布式集群部署、异构存储组件之间的数据高速同步和一致性校验等功能,为数据分析和可视化交互等提供完整、准确的数据集合,以及海量数据集合上的低时延访问性能。

  七是多源多维数据的融合关联分析。针对数量巨大、多来源、多维度、动静结合的数据特点,围绕目标分析主题,挖掘和抽象出有价值的特征信息,设计科学合理的数据模型,进行时间、空间、类型的数据组织和融合,提升关联分析性能。例如,以特定的文学IP为核心,对其衍生的动漫、游戏等,采用高维数据挖掘等算法进行深度关联分析,发现海量数据之间隐含的多元互动关系,从而对IP生态链价值和发展趋势作出合理的分析。

  八是面向业务的价值模型建模。伴随着近年来版权市场的爆发式增长,围绕IP价值评估的业务形态也日趋多样化,针对不同的价值评估业务,影响因素也会不同。例如,数字文学IP的衍生品价值评估,除了读者量、付费用户等公共属性之外,数字文学IP的游戏价值评估的影响因素还包括游戏类型、运营情况等,数字文学IP的影视价值评估的影响因素则包括演员阵容、上映档期、播放频道等。

  国家文化大数据体系建设是文化建设的一项长期任务,中央文改领导小组办公室提出了现阶段八个方面的基础性工作任务:中国文化遗产标本库建设、中华民族文化基因库建设、中华文化素材库建设、文化体验园建设、文化体验馆建设、国家文化专网建设、国家文化大数据云平台建设、数字化文化生产线建设。

  其中,在数字化文化生产线建设方面,鼓励出版社、影视公司、演出公司、设计公司等文化生产机构充分发挥内容创作生产优势,积极参与文化数据的标注及解构和重构,开发文化大数据,创作生产具有视觉冲击力和听觉亲和力的适应现代化网络传播的文化体验产品,展现中国特色社会主义文化的魅力和风采。

  随着国内新冠肺炎疫情的逐渐消散,在刚刚闭幕不久的全国两会上,“新基建”被首次纳入国务院政府工作报告,中央文改领导小组办公室5月份印发的《关于做好国家文化大数据体系建设工作的通知》,为全行业推动文化大数据建设提供了总体思路、实现路径和政策依据。作为宣传文化领域“新基建”的国家文化大数据体系建设工作,在此时得以全面、系统地部署和推动,意味着国家大数据战略将会在文化领域进一步落实,文化与科技深度融合的速度将会进一步加快,文化事业和文化产业的运营机构也将面临一次创新与发展的重大机遇。

  “小荷才露尖尖角,早有蜻蜓立上头”,机遇只偏爱有准备的头脑,中国新闻出版传媒集团携手行业和社会力量,将以全民阅读与融媒体智库为抓手,在过去4年潜心筹措和积累的基础上,积极响应党中央、国务院关于文化“新基建”的号召,坚持正确的政治方向、舆论与创作导向、价值取向,立足行业,坚持打造高质量、高水准的文化大数据平台,持续迭代,不断优化功能与服务,汇聚数据之湖,以大数据、人工智能、区块链等先进技术结合行业智慧,为文化全产业链上下游提供投融资决策、创作生产和管理运营的咨询服务,为政府部门提供决策参考,为行业企业提供文化IP价值评估、版权保护等技术服务,助力全民阅读事业与媒体融合发展向纵深推进,为进一步挖掘和利用中华民族的各类优秀文化资源,实现创造性转化、创新性发展,为中华民族的文化复兴,担一份光荣的责任,尽一份绵薄的心力。

  (李忠 作者系中国新闻出版传媒集团总经理、全民阅读与融媒体智库理事长)

关闭 打印