数据长城:国家数据资源储备体系的构建思路与实现路径
  时间:2021-07-08

摘 要:数据资源在抗击新冠疫情中发挥了至关重要的作用。通过梳理我国当前数据储备在应对新冠疫情过程中暴露的痛点问题,探讨了数据资源储备体系建设的必要性,并结合前期研究与实践基础,提出了以数据长城计划超前布局国家数据资源储备体系的建议和总体设想,即打造一套政企一体、平战联动、统分结合、管用分离的国家数据资源储备方案。同时,围绕全国一体化国家大数据中心体系建设的重点任务,从技术和机制两个维度初步探讨了数据资源储备体系的实现路径,即建立基础资源调度、数据可信对接、数据协同运营三层体系,满足多主体、多场景下的日常运行和应急响应需求。

关键词:数据资源;政企一体;平战结合;数据治理;数据长城;大数据中心;一体化

DOI10.16582/j.cnki.dzzw.2021.06.002

一、引言

进入互联网时代,网络上动辄涉及数亿甚至数十亿人流的App越来越多,数据资源在App的使用过程中被生成、采集和分析,全社会数据资源分布已经从过去政府掌控80%的局面逐渐演变为社会化数据占主导的局面[1]。据中国信息通信研究院发布的《云计算发展白皮书(2018年)》和《中国政务云发展白皮书2019》统计,2017年全国云计算产业总规模691.6亿元,其中公有云264.8亿元、私有云426.8亿元;而全国政务云市场规模为292.6亿元,占整个云计算市场42.3%,不足一半,这也进一步印证了政府数据资源单从规模上已不再占据主导地位。为充分释放数据要素的巨大价值,应当与时俱进,根据主要矛盾的变化来适时调整我国大数据发展的重心,加快构建政企一体化数据资源体系,不断适应当前复杂多变的社会治理需求。正因如此,早在2017128日,习近平总书记在中央政治局第二次集体学习中就提出了政企数据平台化对接的命题,要求加强政企合作、多方参与,加快公共服务领域数据集中和共享,推进同企业积累的社会数据进行平台对接,形成社会治理强大合力20198月,国务院办公厅发布的《关于促进平台经济规范健康发展的指导意见》也指出:优化互联网平台经济发展环境,需要畅通政企数据双向流通机制,制定发布政府数据开放清单,探索建立数据资源确权、流通、交易、应用开发规则和流程,加强数据隐私保护和安全管理。”20201223日,国家发展改革委等四部委联合发布的《关于加快构建全国一体化大数据中心协同创新体系的指导意见》指出:要深化政企协同、行业协同、区域协同,加强跨部门、跨区域、跨层级的数据流通与治理,打造数字供应链。当前,无论是面对日常运行中的政府社会治理、公共服务和常态化市场化增值化服务需求,还是公共卫生、自然灾害、金融危机等重大突发事件应急响应需求,一套覆盖政府和企业两端,可调度、可融合、可决策的安全可信数据资源储备体系,对于推动国家治理体系和治理能力现代化至关重要。

二、数据治理理论研究与实践概况

近年来,政务数据及社会数据的巨大价值得到政产学研各界广泛认同。

在学术研究层面,国内学者围绕构建政企一体化数据资源体系开展了大量研究,主要集中在重要性阐述、理论探讨、案例研究等三个方面。

第一,重要性阐述。王晓明[2]、夏义堃[3]、赵树宽[4]、于施洋[5]、殷利梅[6]等基于不同研究视角,提出以政府数据与社会数据融合来有效联动产业链、创新链、资金链和人才链的五链协同制度框架,进一步增强政府数据调控能力,辅助支撑政府决策,激发全社会数据要素活力。

第二,理论机制。王建冬[7]从基础层、支撑层、整合层三个层面归纳了数据要素对其他生产要素的重构模型,张涛[8]从官僚主义视角、技术视角、政治视角和经济视角针对开放数据的法理基础和标准规范进行了探讨。钱国富[9]、连玉明[10]、安小米[11]等分别从本体论、块数据理论、协同创新理论等视角,开展了政企两类数据资源储备体系的关联性及管理机制研究。国外学者中,R. Abraham[12]从数据的运作机制、组织范围、治理过程等方面对数据资源体系的框架进行了总结,Al-Ruithe[13]针对数据云管和非云管情形下面临的挑战和建设关键点进行了综述。

第三,案例研究。马广惠[14]等围绕治理主体、治理客体、治理工具三个维度,对大数据汇聚、融合、应用进行了案例分析。王建冬[15]通过对比分析我国东中西部数据资源供需格局,从区域战略、产业布局、技术逻辑三个维度提出了我国数据跨域流通的总体框架和实施路径。郭明军等[16]则以案例研究、对比研究、演绎推理等方式,总结提炼并剖析政企数据融合利用1.02.03.04.0模式的内涵、特点及过程,提出每种模式对应的数据存在形式。

在实践层面,围绕政对企数据开放和企对政数据共享,各地政府开展了大量探索,在数字政府打造、智慧社会建设、数字经济发展和企业数字化转型等领域广泛探索两类数据的开发利用及价值激活路径。目前,超过90%的省级政府制定了政务数据资源共享管理办法,82个省级、副省级和地级政府上线了数据开放平台,国家公共数据统一开放网站即将上线,政务数据共享开放及分析利用取得了长足进步,为数据从政府端流向企业端提供了平台条件。同时,在此次疫情期间,国家信息中心联合腾讯、华为、阿里等龙头企业先行先试,围绕健康码、复产复工、惠企政策等社会各界广泛关注的关键共性问题启动了一批战疫数据长城先导工程,打造公益性数据应用平台,为企业、个人提供高效、安全的数据便民服务,为领导指挥决策提供有力支撑,形成了良好社会效益。目前,在全国范围内分步分批推进实施以政企数据对接为核心的数据长城计划,时机已经成熟,应当不断积蓄强化我国数据资源储备力量,以此次疫情为契机,进一步拓展数据长城日常版,将政企协同共建、共享、共治落到实处。

三、新冠疫情下我国数据资源储备体系面临的问题

自新冠疫情爆发以来,在党中央坚强领导下,各级政府和社会各界齐心协力,有效控制住疫情发展,集中体现了我国社会主义制度优越性,但在应对疫情的过程中,也明显暴露出当前我国数据资源储备体系依然存在诸多短板和深层次矛盾,距离有效支撑引领国家治理现代化的要求还有较大差距。研究中运用大数据手段从700万条互联网文本中抽取整理疫情爆发初期(20201月至20204月)各界反响强烈的20个堵点问题,并对其表现类型与深层次原因进行分析总结(参见图1)。


 

(一)政务数据与社会数据脱节

此次疫情暴露出政企数据对接不足的短板。在企对政方面,政府利用企业数据刚刚起步。多地网民呼吁地方政府部门能够充分利用互联网数据开展精准防疫,但政府出于立法缺失、能力不足等原因,在面对突发疫情时缺乏对接基础,对接渠道尚未建立,对企业数据利用程度很低,疫情初期的基层排查基本依靠手工方式进行,大多停留在统计报表阶段,离支撑精准治理还有很大差距。在政对企方面,政府开放思维不足的问题尤为突出。例如,疫情期间腾讯、华为等企业推出健康码”“复工码等公益应用,但有网民反映由于企业采集的数据无法与政府有关部门具有的人口社保数据比对,初期硬性要求与政务服务平台整合,未充分利用微信、支付宝等互联网平台的便利性,舍近求远,影响用户体验。

(二)日常管理与战时响应脱节

疫情期间我国数字治理体系面临空前压力,在多个层面暴露出与战时响应不适配的问题,前期建设的大量大数据智能化应用在疫情期间使用成效远不及预期。有专家指出,此次疫情期间各地智慧城市”“城市大脑等应用效果不佳,网上政务系统崩溃停摆、社区流动人口一刀切、疫情实时监测无法实现等问题时有发生,各部门、各行业的业务与数据没有实现真正意义上的互联互通……以往完成的静态数据汇聚机制工作明显不够用,在快速建立危机事件预警机制和快速反应机制上遇到困难”[17]

一是政府业务数据更新慢、不互通,无法进行动态实时关联分析,政府依靠自身掌握数据耳不聪目不明”“盲人骑瞎马的问题较为突出。例如,对本地区人群迁徙活动情况不掌握,对春节前后流出武汉的500万人去向不清,无法支撑疫情防控和有效调度,很多地方只能靠运营商和互联网企业紧急提供数据,决策响应速度远远落后于病毒扩散速度,这种临阵磨枪的做法耽误了宝贵的疫情防控战机,绝非长久之计。

二是很多政务应用缺乏数据应急调度机制,有的应急调度平台仅覆盖有较大规模的企业,对占比绝大多数的中小企业缺乏掌握,更无法了解哪些企业具备转产和扩产潜力,难以支撑有效应急调度。

三是应对突发服务需求时,政务云平台保障能力相比互联网公司严重不足,疫情期间四川、海南、青岛等多地因为网民访问口罩预约、健康码等应用流量过大导致云平台崩溃停摆。

(三)横向协同与纵向贯通脱节

此次疫情,政府在运用数据支撑决策指挥方面暴露出统筹不足、协同不力的问题。

一是顶层缺位问题突出,中央层面缺乏强有力的大数据统筹机制,疫情期间各部门大数据支撑各用各的数、各说各的话,彼此无法比对,成了盲人摸象,地方层面尽管近年来大都成立了大数据管理机构,但职能归属五花八门,多数既管不了数据也不具备分析能力,疫情中很难发挥统领作用。

二是纵强横弱趋势不断加剧,在疫情渐趋稳定复工复产期间,很多地方群众反映开具健康证明等在线审批流程繁复、部门流转效率低下,不同地方开具的健康证明和通行证标准不一、认证繁琐等。目前,已有20余个部委提出建设本行业大数据中心,如果不加统筹,未来会形成比网络烟囱”“系统烟囱更为严重的数据烟囱

三是行业部门数据山头愈演愈烈。个别部门本位主义作祟,部分行业死抱着自己的数据不放,占有数据的部门有米不用,有数据需求和分析能力的机构等米下锅

(四)政府服务与群众需求脱节

习总书记指出,网信事业要发展,必须贯彻以人民为中心的发展思想。当前,我国数字治理发展思路还没有从以政府为中心切换到以人民为中心,政府服务平台的运营缺乏针对性和持续性,难以满足民众需求。数据分析表明,疫情前期民众服务需求重点是防疫宣传,中期是病例详情,后期则是复工复产;但各地政府公共服务平台很少能够及时回应群众关切,服务界面缺乏友好性,不注重群众体验。多地网民反映,当地政府健康证明等服务功能晦涩难用打不开,用户体验远不如微信健康码等互联网平台;同时,服务推送缺乏主动性,不贴近用户习惯。绝大多数卫生管理部门的微博账号或微信公众号仍采用以发布信息为主的单向传播模式,缺乏与网民的互动和交流,如在微博账号发布的内容下,许多网民在评论区针对疫情相关问题进行咨询和追问,但得到回复的内容却是寥寥无几。有研究团队指出,疫情期间各级政府虽然发布了很多数据,但数据条理性、可用性方面还有很大的提升空间,例如绝大多数表格均为图片格式,想要开展数据应用还需花费人工录入的成本;再如有些省份在疫情初期多次修改每日疫情通报的标题及内容组织形式,致使人工收集数据或程序批量解析都会受到困扰。

四、构建国家数据资源储备体系的总体设想

进入数字经济时代,数据已经成为类比农业经济时代的粮食、工业经济时代的能源相当的基础性战略资源和新型生产要素,对国家治理体系现代化建设起着至关重要的作用。2020331日,习近平总书记在视察杭州城市大脑时提出收放自如、进退裕如的国家治理能力建设目标。应当紧扣这一目标,认真总结经验教训,以此次疫情防控为契机,针对暴露出的四个脱节问题,在建立国家数据、算力资源的有序收放储机制,提升数据要素资源配置科学性方面集中发力,抓紧启动建立政企一体、平战联动、统分结合、管用分离的国家数据资源储备体系。其基本定位包括三个方面:一是应对重大风险挑战的基础保障,确保全社会数据资源在重大突发事件爆发、国家安全受到威胁时形成如臂使指的应急指挥调度体系。二是推动国家治理现代化的有力抓手建设,以数据资源储备作为社会经济稳定发展和国家宏观调控的常态化手段,营造多元主体协同共建、共享、共治的社会治理新格局。三是推进经济高质量发展的核心动力建设,加速政企数据融合对接,促进数据生产要素流通集聚,加快与实体经济深度融合。

在具体实现上,要结合落实习近平总书记2016年提出建设全国一体化国家大数据中心的有关要求和《关于加快构建全国一体化大数据中心协同创新体系的指导意见》(发改高技〔20201922号)等文件精神,将战役中提出的数据长城拓展至平时,以备战时快速切换至应急状态:依托促进大数据发展部际联席会议等工作机制,由政府牵头,广泛吸纳具有核心数据能力的企业,共同打造以数据长城计划为抓手的数据资源储备体系。其核心要点包括四个方面。

(一)资源配置坚持政企一体

针对当前政府数据与社会数据脱节割裂的问题,构建政企数据采、储、传、管、用一体化技术支撑体系,鼓励各地方各部门和企业加快推动政企数据平台对接,建立完善数据长城计划的企业准入、对接、备案和会商机制。整合数据沙箱、密态计算、数据安全屋等技术,实现以用见分离为特征的政企双方数据联合校验和模型对接,在保障政企双方数据安全和权属完整的同时实现数据资源价值共享,从而有效消除数据孤岛问题。

(二) 业务定位坚持平战联动

针对当前日常管理和应急响应两张皮的问题,建立以平时聚要素、促发展,战时抓应急、保稳定为主线的数据算力资源收放储体系,有效满足社会治理、应急管理、公共服务和产业转型需求,培育新模式新业态。推动国家数据资源储备体系建设应从工程思维战场思维转变,建立数据靶场机制,定期或不定期组织数据演习,复现或模拟公共卫生、自然灾害、金融危机等重大突发事件数据资源调度与决策,提升政府应急指挥与多元主体协同响应能力,确保在战时迅速切入应急状态。

(三) 应用模式坚持统分结合

针对政府部门横向协同和纵向贯通脱节的问题,应组建顶层数据资源管理的专门机构,强化数据统筹调度、技术规范统一,紧扣政府行政关键环节,构建大决策、大监管、大服务、大应急综合应用平台,完善综合应用平台与各部门业务系统的接口调度机制,推动业务融合联动,锤炼数据资源战略储备体系的应急响应与社会治理能力,提前发现并清除潜在风险点和薄弱环节。

(四)运营机制坚持管用分离

针对政府服务与民众需求对接不畅的现状,积极探索官助民办的新模式,建立企业主导、政府赋能的数据资源市场运营机制。企业负责数据平台建设与日常运维,在产品应用中发掘需求,有效提升面向社会服务的能力,化解当前我国政务信息化建设运营普遍可持续性不足的局面。政府负责抓标准、抓监管、抓安全、抓决策,在监管和安全等关键环节做好规范引导,在公共平台搭建、公共数据开放和财政资金补贴等方面为企业赋能。

五、国家数据资源储备体系的实现路径

国家数据资源储备体系的核心思想是以推进实施数据长城计划为牵引,强化政务数据与企业数据对接,从而形成社会治理和突发应对的强大合力。结合上述总体设想,国家数据资源储备体系的实现路径可归纳为图2所示的三横两纵框架,即建立基础资源调度、数据可信对接、数据协同运营三层体系,每个体系包括平台和机制两个方面,纵横联动、统筹推进,满足多主体、多场景下的日常运行和应急响应需求。

 (一)建立有核无边的基础资源调度体系

数据长城计划的基础设施建设是保障体系联通、资源整合的关键。依托全国一体化国家大数据中心体系中数网”“数纽工程建设,构建有核无边数据长城基础资源调度体系,应从网络、算力和数据三类基础资源入手。

在网络资源方面,遵循用旧建新、清理整合原则,建议以国家电子政务内外网已形成的网络、安全等现有基础设施为核心,在连通各类网络的基础上,根据实际需求进行补充和完善,保障政府内部各类数据源的网络接入。同时,针对互联网、物联网等政府外部数据源的特点,增补必要的网络接入、安全防控等设施,构建保障数据长城高效安全运行的基础网络平台。

在算力资源方面,建立数据资源准入与云合规认证体系,鼓励满足一定条件的政社已建、在建、已批复数据中心纳入数据长城建设体系,连通调度各类数据中心、平台和应用,搭建跨系统、跨行业、跨地域的算力资源协同调度平台,最终形成一张支撑跨层级纵向汇集、跨部门横向共享的国家算力资源调度网。

在数据资源方面,对于满足数据准入认证条件的企业,可通过数据长城计划,将自身数据资源体系纳入国家数据资源储备体系,有效提升面向社会提供服务的能力。对于纳入数据长城计划的部分数据,尽管企业处于个人隐私保护和商业秘密等考虑可不向政府开放原始数据,但应在满足监管需求的同时,建立相关数据资源体系的常态化备案机制,便于在重大突发事件期间政府有关部门有效利用政企数据开展决策分析和形势研判。

(二)建立政企一体的数据可信对接体系

数据长城计划的数据可信对接体系建设是破解数据壁垒、释放数据活力的前提。针对当前政企数据对接存在政企数据自主开放、平台融合应用、方案落地实施等问题,探索建立政企一体的数据可信共享交换体系,在安全可信的前提下,以技术手段为主打通-数据双向流动通道,重点解决全国一体化国家大数据中心体系中数链工程关于促进政企数据对接融合的任务要求。

第一,打通政对企通道,完善国家公共数据开放体系。数据开放是打通政府数据流向企业数据通道的有效路径,有助于带动社会公众开展大数据增值性、公益性开发和创新应用。目前,针对传统数据开放模式仅能开放小部分不涉及公民和企业信息的可公开非敏感数据集、数据开发利用价值不高的问题,很多地方政府和企业开始积极探索尝试数据可用不可见的开放新模式,较典型的如浪潮数据沙箱、联通数据能力开放平台、阿里数据密态计算、UCloud数据安全屋等技术。建议依托国家公共数据开放体系建设,在依法加强安全保障和隐私保护的前提下,通过开放数据集、数据接口、数据沙箱等多种方式,定向开放部分对于国家安全、民生服务、社会治理和产业发展具有重要意义的数据集。加强地方政府、高校院所、出版传媒和产业机构广泛合作,以公共数据开放为切入,吸引行业专家、研究人员和创新创业团队共同参与大数据分析工作,引导企业、行业协会、科研机构、社会组织等主动采集并开放数据,形成大数据开发利用智力众包平台。

第二,打通企对政通道,建立社会大数据采集汇聚体系。在可用不可见和数据安全隐私保护原则的前提下,依托数据长城基础资源调度体系,搭建社会大数据采集汇聚平台和国家数据本体特征库平台成为打通企业数据与政府数据通道的双赢之策。此次疫情期间,互联网公司、电信运营商、大数据企业等掌握的人流、物流、资金流、信息流等要素运行动态数据为疫情防控指挥提供了数据支撑,反映出社会数据强大的应用潜力。因此,在前端应积极鼓励企业接入国家数据资源储备体系,依法依规推进第三方数据源的统一获取和合作机制建设,搭建社会大数据采集汇聚平台,广泛汇聚就业招聘、投融资、专利著作、招投标、新闻论坛等社会化数据,为服务国土资源、防灾减灾、环境保护、农林水利、交通运输等国民经济重要领域的广域精细化应用提供科学全面的数据支撑。同时,依托第三方数据中心准入和认证机构,检验社会化数据采集体系在功能和安全等方面的合规性,把好数据质量和数据安全关,打造绿色健康数据生态。多源异构数据的分析利用离不开高效的数据组织关联,因此,在后端应围绕人、车、地、物等核心本体搭建国家数据本体特征库平台。推动各地方各部门和数据长城计划入围企业依托该平台,通过数据本体特征合约定制、前置生成、分布式采集、有效性校验等技术手段,建立常态化的数据特征合作机制,形成大数据资源体系,为实现用数据说话、用数据决策、用数据管理、用数据创新提供要素支持。

(三)建立平战结合的数据协同运营体系

数据长城计划的数据协同运营体系建设是构建政企协同治理体系、营造应用服务生态的重要手段。充分运用5G、大数据、人工智能、物联网、虚拟现实、增强现实等新技术,围绕支撑党中央国务院重大战略的决策部署和重大任务的推进实施,以数脑工程为抓手建设满足平战结合需求的数据协同运营体系。

在日常运维中,数据长城计划可参考国家工程实验室等机制,探索企业主导、政府赋能的数据资源常态化运营模式,由相关入围企业负责建设和日常运营管理。鼓励各类科研机构、企业和个人等数据使用方从各领域用户的需求出发,主动将自身数据与政府业务数据对接共享,结合应用场景和数据资源获取情况,落地为应用产品,经测试、审核通过后即可集中展示在数据应用集市上,并大力推广对促进经济和社会发展有益的数据应用,以市场需求激发企业产品研发动力,有效提升面向社会服务的能力,切实解决数据价值无法充分发挥、数据来源匮乏问题,实现政府与社会供需双方合作双赢的良好局面,促进多行业数据融合协作式发展。同时,引入数据靶场机制,确保战时迅速切入应急状态。着眼未来重大事件突发状况,前瞻筹划实战化、逼真化数据靶场模拟演练环境,在重大事件突发状况和政府行政关键环节组织数据演习,以便在战时迅速切换为政府主导模式,为重大突发事件期间开展决策研判和调度指挥提供强有力数据支撑。一是围绕公共卫生、自然灾害、金融危机等重大突发事件,不定期复现或模拟应急场景,组织跨系统、跨行业、跨地域的数据演习,检验国家数据资源储备体系在各类应急场景和需求下的平台调度能力、数据共享交换能力和应用服务能力;二是紧扣政府行政关键环节,依托大决策、大监管、大服务、大应急综合应用平台,完善综合应用平台与各部门系统的接口调度机制,定期对人流、物流、信息流等应急防御核心数据资源的快速调度汇聚、关联分析、决策支撑等环节进行压力测试,在数据演习中不断锤炼各个环节的应急响应与决策支撑能力,提前发现并清除潜在风险点和薄弱环节。

六、总结

通过探讨构建国家数据资源储备体系的国际形势需求和国内社会治理要求,梳理了抗击新冠疫情期间我国数字治理体系暴露的痛点问题,结合前期研究与实践基础,从技术创新和制度创新双管齐下的角度,提出了以数据长城计划为核心来构建国家数据资源储备体系的总体设想和实现路径,即在可用不可见和数据安全隐私保护原则的前提下,实现政企数据联合校验和模型对接,有效满足日常运行中的政府社会治理、公共服务和市场化增值化服务需求与重大突发事件发生时的应急响应需求。文中表述尚有不严谨之处,有待进一步深入研究,以期为加快构建全国一体化国家大数据中心和国家数据资源储备体系提供一定的借鉴。

 

(作者:国家信息中心 陈东、赵正、童楠楠、王建冬,山东大数据局 都海明,刊载于《电子政务》2021年第6期)