当开放数据遇到开源生态:开放政府数据平台建设模式比较研究
引言
自2015年《国务院关于印发促进大数据发展行动纲要的通知》提出, 要在“2018年底前建成国家政府数据统一开放平台”以来, 如何建设和管理数据开放平台成为一个各方关注的问题。截至目前, 一些省市级的数据开放平台已先后建成并提供了许多宝贵的前期探索经验, 参见表1。但如表1统计, 我国现有的地方政府数据开放平台多采用专用模式, 即:针对特定机构需求、采用少数企业专用技术体系开发。这一模式曾在世界范围内被普遍采用, 具有可靠性易于验证、易于实施和管理、项目风险低等优点, 但也存在开放性不足、不利于广泛参与和创新的问题。因此, 在近年来的国际开放数据平台建设潮流中, 专用模式已逐渐被开源模式取代。
表1 国内省市级数据开放平台建设情况一览
国内一些学者, 如:鲍静等等提出, 采用“共享与开放的技术支撑与规范”是国际上的一种常见做法, 值得学习借鉴。2017年, 《国务院办公厅关于印发政务信息系统整合共享实施方案的通知》也明确指出, 要“有效推进政务信息系统整合共享, 切实避免各自为政、自成体系、重复投资、重复建设”。
什么是开放数据平台建设的开源模式?开源模式是如何提出并逐渐成为主流的?发达国家如何借助开源模式发展开放数据平台?如何从理论上解释开源现象?本文尝试基于世界各国数据开放平台建设现状进行综合案例研究以回答上述基本问题。希望本文对国外相关经验的总结能起到抛砖引玉的作用, 为我国数据开放平台建设提供一些可供借鉴的资料。
1、世界各国国家级数据统一开放平台的建设现状——基于60国数据
作为参考, 本文首先统计了全球60个国家的国家级数据开放平台建设情况。选择依据是Open Data Barometer开放数据指数。该指数由非营利性组织“互联网基金会”统计。因60名以外多为欠发达地区, 未有专项建设计划, 故未纳入比较。
1.1 建设国家数据统一开放平台是致力于数据开放的国家的共同选择
在60个国家中, 已建成数据统一开放平台的国家为47例 (占78%) , 尚未建成的为13例, 其中我国计划于2018年底前建成。可见建设国家数据统一开放平台是世界各国致力于开放数据的共同选择、符合世界发展潮流。
1.2 多数国家选择开源模式建设国家数据统一开放平台
据统计, 本文调查的60个国家中, 已建成数据开放平台的有47国, 其中绝大多数采用开源模式, 共34例 (占72%) 。选择部分开源的为2例, 选择非开源的为11例。其中围绕CKAN开源系统建设的最多, 为28例 (占60%) , 其他分别为:DKAN (4例) 、u Data (1例) 、OGPL (1例) (见图1) 。其中, Socrata的部分技术工具和源代码仅对政府用户开放, 并非面向所有社会公众开放, 因此本文将基于Socrata的开放数据平台定义为部分开源。
开源模式 (Open-source Model) 是指不依赖少数机构的封闭技术体系, 而是围绕某一开源系统为基础建设开放社区生态, 强调所有系统工具面向全社会免费开放共享、社会各界协同创新的分布式建设和治理模式。其中, 开源系统是指遵守开放源代码协议的可自由分发、修改和重用的软件系统。运用开源模式建设开放数据平台, 意味着不仅开放数据, 同时也开放所有用于数据平台建设的系统工具, 使任何社会机构和群体可以极低成本构建自己的开放数据平台。以英国为例介绍开源模式在国家数据开放平台建设中的应用发端和历程。
图1 47国国家数据开放平台所用系统及案例数
1.3 英国政府如何建设国家开放数据平台:开源模式的提出和实践
英国开放政府数据平台是世界上最早提供政府数据开放的国家级平台之一, 于2009年底内部测试, 2010年初面向社会开放, 首批开放2 879个数据集。英国建设过程具有一定代表性, 开放数据之前已建成政府安全内部网 (相当于我国的“电子政务内网”) 及各部门电子政务系统。需要解决的关键问题是“数据孤岛”问题, 使“内网”各部门系统的数据互联互通并以统一的交互方式向“外网”提供。当时提出了两种模式:
第一种是基于内部闭环的专用模式, 即:各分支机构仅以满足自身业务需要为要求, 所有数据经内部闭环定期汇集到新增的开放数据中心平台、统一处理后向公众开放。此模式集中治理数据, 无须制定公开标准, 可以委托少数企业封闭开发, 技术保密性较好, 可控性较强。但相应的问题是:从技术治理角度而言, 中心平台负担过重, 易导致中心失效;从社会治理角度而言, 减少了各部门和社会机构的协作机会, 不利于全社会普遍参与, 与开放精神不相吻合, 易导致更新不及时、利用率低等问题。
第二种是发动社会资源开放协作、分布式治理的开源模式, 即:中心平台不负责直接管理所有数据, 而是凝聚共识、制定标准、免费提供通用工具帮助分支机构自建符合标准的对外开放数据平台, 形成元数据可跨系统同步、原始数据可互操作的分布式开放数据平台群落。全国中心平台仅负责通过一个中心编目系统管理分布式数据平台的元数据, 各分布平台的原始数据各自管理、自行更新。在收到用户请求时中心平台根据元数据描述从分布系统实时调用对应的数据集, 从而建立全国数据互联、服务互通的统一数据门户。学术界长期以来认为, 开源模式理论上可以降低中心平台的工作负担、减少重复建设, 且有利于开放创新和提高服务水平。但由于涉及多级政府和社会主体, 实施难度更大。最终在学术界的倡议下, 英国政府采纳了开源模式, 并主要实施了4项措施来保障新模式的执行:
(1) 采取主要领导负责制。推进工作由时任首相戈登主持, 具体工作由内阁办公厅直接负责, 保证主导力量具备顺利实施相关项目的权威性。具体推进采用自上而下的模式:首先建设国家平台, 在此过程中制定统一标准、完成顶层设计、开发必要工具。在国家平台取得一定成效后向地方推广。
(2) 聘请英国计算机科学家Tim BernesLee为项目实施的负责人。Tim Bernes-Lee是世界万维网 (World Wide Web) 的发明者和万维网基金会的发起人, 因推动互联网关键技术开源而享有盛誉。他的加入为英国政府提供了开源模式实施的必要经验, 并获得了全世界开源技术社区的关注和支持。
(3) 与剑桥大学教授Rufus Pollock发起的开源公益组织“开放知识基金会”合作开发用于政府数据开放平台建设的CKAN开源系统。与包括公益组织在内的社会力量合作而非单独开发, 有助于吸纳社会资源、降低政府部门支出、提高项目的开放性和透明度, 有利于形成全社会共同参与的开源生态系统。
(4) 制定鼓励开放标准和开源系统的政策, 推动开源生态建设, 如:在2010年发布的“开源、开放标准和重用:政府行动计划”中提出鼓励开源思维, 指出此举不但将促进政府内部创新, 也有利于刺激外部市场增长从而对IT产业和整体经济产生外溢效应。在2016年发布“技术代码实践标准”进一步指出, 应优先考虑开源软件, 并且如无特殊原因应将所有政府新获取的软件开放源代码。
英国选择开源模式取得了成功, 并成为不少国家的效仿对象。以Open Data Barometer排名前20的国家为例, 18例采用了英国开源系统CKAN。其中, 美国政府在2013年放弃了原有系统, 基于CKAN重建了其国家开放数据平台。英国公务员局局长John Manzoni提出, “政务系统开源是英国政府最正确的决定之一, 是国家软实力的体现”。
2、发达国家省市级数据开放平台的建设现状——以英美两国为例
考虑到地方 (省市级) 数据开放平台从规模、需求和经费层面都可能与国家级平台存在差异, 我们选择美国全部50个州和GDP排名前50个城市的建设情况进行了研究。选择美国的原因是:国土面积、行政区划与我国相似, 且是最早建设数据开放平台的国家。为了考察地域差异的影响, 我们也补充了英国前20个城市的建设情况作为比较。英美两国同期开始建设, 都是公认发展较好的国家, 可比性较强。未选择两国全部城市的原因是, 排名超出选择范围的城市都尚未建设开放数据平台。
2.1 美国省市级数据开放平台建设多采用Socrata为基础的开源平台
在美国50个州中, 目前有18个州建设了统一数据开放平台 (data.gov公布是40个, 但是我们经过实际确认, 其中大部分仅提供政策文件公开或仅地理数据, 故未列入) 。在这18个州中:1个采用了DKAN, 13个采用了Socrata, 4个采用了非开源的专用系统, 见图2 (左) 。在前50大城市中, 有33个建设了数据开放平台, 其中:3个采用CKAN, 3个采用DKAN, 21个采用Socrata, 2个采用Junar, 4个采用专用系统, 见图2 (右) 。
2.2 英国市级数据开放平台CKAN和Socrata采用率基本相当
作为对比, 在英国前20大城市中, 有12个建设了数据开放平台, 其中:5个采用了CKAN, 5个采用了Socrata, 2个采用了自制系统。但英国大中型城市都采用CKAN, 仅小型城市采用Socrata, 导致CKAN的实际用户数量和影响力仍高于Socrata。
图2 美国已建成的地方数据开放平台所用系统及占比
从英美两国地方政府的选择来看, 地域因素确实对其决策产生了一定影响。英国地方政府倾向于CKAN (由英国非盈利组织开发) , 美国地方政府明显倾向于Socrata (由美国企业开发) 。结合法国也大力推动本国的u Data开源系统建设来看, 发达地区已共同认识到建设本地开源生态系统对开放数据事业和数据经济的可持续发展具有较大价值。为了这些长期收益, 有实力的地区宁愿选择短期内见效慢、投入大的方案。这就出现了中央-地方多种开源系统并存的可能性。以下以美国为例, 介绍开源系统整合在国家-地方多级数据平台网络方面的应用情况。
2.3 美国国家和地方政府如何建设开放数据平台:利用开源系统整合多级开放数据网络
美国推动开放数据平台建设与英国同期, 主要由奥巴马政府推动。2009年, 美国国家开放数据平台data.gov上线, 成为世界上第一个此类平台。但该平台仍采用传统的专用系统模式, 从各分支机构收集上传数据统一开放, 初期开放的数据集较少, 仅有47个。从2010年开始, 多个州市地方政府也开始建设本地开放数据平台, 大多购买本国Socrata公司的技术服务。2011年, 由于英国开源模式的成功, 美国和印度政府提出计划合作发展一个名为“开放数据平台” (OGPL:Open Data Platform) 的开源系统。但后来由于英国CKAN系统的良好发展势头, 到2013年美国放弃了OGPL计划, 转而基于CKAN重建。
2013年5月9日, 奥巴马政府签署13642号行政命令进一步推动数据开放, 并明确了具体执行步骤。该行政令实际将具体开放数据的权利和责任下放到地方和分支机构, 但由中央政府制定标准、推广开源系统工具和执行过程监督以统筹进行, 避免各自为政。此行政令被认为激活了机构活力, 具有里程碑意义。此后两年内美国中央政府机构新增开放数据集超过5万个, 37个地方政府机构新增开放数据集3万个, 其中1万个地方数据集采用中央政府建立的统一元数据标准并将元数据同步更新至中央平台。2015年, 由于开源系统工具和开放机读接口标准的推广, 地方平台和分支机构到中央平台的元数据更新已经可以每天自动完成而无需人工处理。
因此, 美国的开放数据平台不像英国那样有比较清晰的自上而下发展历程, 而是中央和地方同时开始探索。在顶层设计尚未明确的情况下, 地方政府已经开始先行先试。这一现象与我国过去几年的发展有相似之处。但美国政府外包服务市场起步较早, 已发展得较为成熟。得益于高度市场竞争, 美国大部分地方政府实际采用了同一技术系统, 即:Socrata, 相当于依靠市场力量部分统一了标准。Socrata相比同期的CKAN实际在云服务技术上有优势, 可以大幅度降低管理成本, 对政府几乎没有技术要求, 因此不仅受到美国地方政府青睐, 在英国也被一些规模较小的城市采用。但Socrata最初不开源, 在2013年美国政府重建国家数据开放平台时未被选中。为此, Socrata在2014年也不得不宣布开源, 但为商业利益考虑, 部分系统仅面向政府用户开源 (因此被本文定义为部分开源) 。此外, 另一家美国企业Nu Civic于2013年开发了完全开源的数据平台系统DKAN与之竞争, 被加州等地先后采用。自此, 美国实现了中央平台采用CKAN, 地方和其他机构采用多种开源系统竞争, 但基于开放元数据标准和开源机读接口执行自动化数据整合、全社会共同参与的多级开源开放数据网络, 如图3所示 (数据使用python从开源系统托管平台government.github.com抓取, 由gephi可视化) 。一些典型项目包括:美国政府的data.gov、波士顿公共图书馆的开放元数据项目、布里斯托大学的开放科研数据项目等。图3中可见, 英 (左上角节点群) 、美 (右上角节点群) 两国内部都形成了规模较大、互动频繁 (互动频次由连线的宽度表示) 的政府机构-社会组织-企业构成的开源网络, 彼此之间也建立了一定的联系, 构成了一定规模的国内和跨国开源生态系统。
图3 英美等国政府开源生态系统的网络互动关系
3、为何开源模式在全球开放数据平台建设中取得成功:一种社会—技术系统理论的观点
英美等国案例体现了开源模式的优势。这一优势无法单纯从技术因素角度来解释, 如早期开源的CKAN在云计算技术方面不如当时尚未开源的Socrata, 但反而取得更好效果。近年来的研究成果表明, 社会因素在复杂信息系统建设过程中扮演了重要角色, 部分学者提出应采用社会—技术因素综合分析的理论框架进行研究, 认为开放数据平台不是一个单纯的技术平台, 而是一种多社会—技术资源互动的生态系统 (Socio-technical Ecosystem)。
社会—技术系统理论是面对复杂系统设计和实践提出的一种研究范式。Bostrom和Heine等提出, “技术系统与过程、任务以及将输入转变为输出的技术因素有关”, 而“社会系统与人的因素 (态度、技能、价值观) , 人的关系网络, 回报机制以及权力结构有关”, “技术系统与社会系统往往会发生交互作用”, 共同构成社会—技术系统。
Trist等总结了这一范式与过去单纯强调技术的研究范式的主要区别 (见表2)。
社会—技术系统研究范式在提出后较长时期内并未引起信息系统建设领域的足够重视, 原因主要为:一是信息系统建设多以技术人员主导, 二是早期信息系统都较为简单, 并不包含足够复杂的社会结构。这一情况直到社交网络、维基百科等大规模Web2.0信息系统诞生后才有所改变。本文认为开放数据平台作为一种提供社会性公共服务的广域复杂信息系统, 正适用于社会—技术系统的理论模型, 且与本文案例研究所形成的证据链可以相互支持以解释各国实践经验。
表2 两种研究范式的对比
3.1 开放数据平台建设不是单纯的技术问题, 需要考虑到广泛社会—技术资源的开放参与
过去的组织机构信息化过程往往存在唯技术论倾向。近年来的研究表明, 这种不完整的分析框架和工作思路易造成项目失败。例如, Meliha研究了欧洲公共管理机构中的知识管理系统模型, 发现社会因素和技术因素共同作用于组织知识管理系统发展, 且前者在公共知识产生领域的影响往往更大。Reyes等研究了大量政府信息系统建设的失败案例, 指出许多失败不是来自技术因素, 而是社会和组织因素, 建议将信息系统建设视为一个社会—技术动态互动的过程不断根据反馈进行迭代优化以提高实施的成功率。
世界各国开放数据平台建设现状也吻合社会—技术综合分析的框架。例如, 美国建设开放数据平台起步早于英国, 在信息技术研发方面也有一定优势。但到了2013年, 建设成效却明显不如英国, 最终借鉴了英国经验重建其开放数据平台。其原因就在于美国政府早期将之视为单纯的技术问题, 采取大包大揽的封闭建设模式, 不重视社会子系统的作用。当时, 部分研究人员就指出这一模式并非最佳选择。如:David Robinson在《政府数据与看不见的手》一文中提出“政府无须也不应大包大揽, 应当理清自己的特长和职责, 并针对不足引入第三方协助, 包括:私人机构、公益组织或商业组织等”。英国从起始阶段就更重视社会因素, 以发展开源系统为联系纽带尽可能吸纳第三方社会技术资源, 取得了明显效果。再如, 非洲开放银行与Knoema公司合作, 借助后者的技术资源开发了非洲开放数据平台, 希望推动非洲开放数据工作, 但由于与当地社会系统脱节, 收效甚微。
这些案例表明, 发展开放数据平台不是一个单纯的技术问题, 也不应是政府单方面的行动, 而是一个需要多种社会—技术资源开放参与的系统优化过程。开源模式的本质是摒弃技术决定论的旧范式, 转而采用社会—技术系统综合优化的新思维, 如英国“开放标准原则 (Open Standard Principles) ”和“政府信息技术战略 (Government ICT strategy) ”指出:开源有助于政府与社会组织、科研机构、企业、个人合作, 从而有利于构建一个开放参与的良好生态环境。
3.2 开放数据平台建设是多种社会—技术因素的互动优化, 因地制宜打造开源系统生态是成功的动力
社会—技术系统理论认为, 多种社会—技术资源在系统中不是简单的堆叠、各自为政, 而是存在不同角色之间的互动网络关系和组织优化过程。如Frank等的研究表明, 社会和技术资源赋能者是社会—技术系统中的关键角色, 他们之间的网络组织和互动是系统发展的主要推动力量。在开放数据平台建设过程中, 政府首要领导、关键技术专家、社会学家、社会机构和企业的负责人往往扮演着赋能者的角色, 将多样化的赋能者引入系统并建立沟通顺畅、相互信任的社会—技术资源网络生态是项目成功的动力。
但由于各国各地区的情况不尽相同, 导致一个地区成功的社会—技术资源网络未必能在另一个地区完全复制。例如, 尽管英美两国最终都采用了开源模式, 实现了中央-地方-社会—企业的多级社会—技术资源构成的开源合作网络, 还相互借鉴了彼此的经验, 但美英两国的发展路径不尽相同。相对而言, 英国路径是自上而下推进, 政府与公益组织是主要赋能者;美国路径则是中央和地方同时推进、相互适应, 政府与商业机构是主要赋能者。主要赋能者的差异也是美英两国政府开源政策的差异。英国的开源政策更强调面向公众开放, 而美国的政策更强调版权、安全和隐私。如英国的数字服务标准 (Digital Service Standard) 提出要开源所有政府新建的数字服务系统。而2016年美国制定的联邦源代码政策 (Federal Source Code Policy) , 仅要求每个国家机构在其每年新定制开发的软件中开源至少20%的代码。另外, 英国政府的所有开源系统和工具均面向公众开放, 而美国政府则设立了政府开源软件统一门户网站code.gov以管理内部开放问题。经本文统计, 目前该网站上托管的开源软件涉及国际开发、商业、农业、教育、国防等25个机构的114个项目, 其中有41个项目 (37%) 仅限政府部门内部开源, 需要联系主管部门才能获取源代码, 并不对公众开放 (即部分开源) 。
目前看来, 英国的建设现状更开放、统一及有序, 而美国的建设现状则更好地照顾了企业利益和商业运作。因此在具体发展过程中, 在借鉴成功经验的同时, 还必须结合本地具体情况制定政策、确定主要赋能者、优化社会—技术资源、构建互动网络生态。
4、建议和讨论
4.1 采用开源模式建设数据开放平台
各级各地政府的数据开放平台从功能上看高度相似, 各自封闭开发是一种效率较低的选择, 存在以下缺点:第一, 重复开发, 浪费资金;第二, 数据格式、标准难以统一, 不利于数据互联互通;第三, 不利于社会—技术资源整合, 技术迭代慢、内容更新少、利用率低。多国实践现状表明, 开源模式有助于解决上述问题。例如, 美国政府首席信息官Tony Scott总结:美国政府各部门每年用于购买定制软件的开销高达60亿美金, 采用开源系统通过政府内部共享源代码可大幅降低成本, 促进政府的信息技术创新并有利于开源软件社区发展形成技术外溢效应。本文建议优先采用开源模式建设数据开放平台。
具体实现路径有两种可能: (1) 选择已有的国外开源系统为基础, 如:CKAN和DKAN; (2) 选择自行研发并发展本地开源生态系统。路径1的优点是:国外现有开源系统已比较成熟, 在多国实践中得到验证, 全球开源社区发展完备, 功能更新速度快。故此路径实施难度低, 投入成本小, 是目前世界上大多数国家的主流选择。路径2的优点是:虽然投入大、见效慢, 但可以通过政府投入建立本地技术体系, 推动数据技术研发, 促进开源生态建设和人才培养, 长期收益更大。目前, 英、法、美等国均推动本地开源生态系统建设。
4.2 基于云平台部署数据开放平台
云平台是一种大规模可开放使用的标准化计算基础设施, 具有初期投入低、可扩展性好、易管理等特点。从社会—技术系统分析框架出发, 云平台不仅是一种重要的技术资源, 而且有利于为政府—企业—社会组织的开源合作网络提供统一的基础设施, 促进交流合作。从各国各地区实践案例来看, 得到了广泛采用并取得了良好效果。建议优先考虑以云平台为硬件基础设施部署数据开放平台。从国外的实践来看, 国家级平台及少数大型机构平台建设政府云, 而大多数中小型机构采用政企合作、购买服务的模式在企业已有的公共云上托管数据开放平台是一种常见选择。
云服务一般可分为三个层次:基础设施即服务 (Iaa S) 、平台即服务 (Paa S) 、软件即服务 (Saa S) 。目前国内的云平台服务商大多仅为公共部门提供前两个层次, 距离国外企业提供完整三个层次的云服务仍有差距。完整的云服务与开源模式结合, 可以更好地降低技术门槛和初期投入。不但有助于公共部门降低成本, 也有助于技术外溢和数字经济创新。
4.3 培育和依托本地开源社区生态
开放数据平台需要吸纳大量社会—技术资源来不断更新改良其功能并利用数据开发出更多有益于全体人民的服务。这项工作不可能仅由政府或少数企业来完成。因此发动群体智慧, 引入关键的社会—技术赋能者, 培育开源软件社区生态, 让人民服务人民, 是开放数据平台建设过程中公认的最佳实践。一些成功模式如英国的my Society.com和美国的codeforameria.org, 在各地帮助建立了上百个团队组成的开源合作网络, 为数据开放和利用做出了很大贡献。
相关学术研究也指出, “建立一个健康的开源社区生态系统对于打造公共部门信息产品的可持续生态以实现长期发展至关重要”。建议我国主管部门出台政策鼓励类似非营利组织和开源社区的组建, 给予一定政策、数据、甚至经费支持。
4.4 尽快建立并明确声明全国统一的数据开放使用授权协议等开放数据标准
我国目前各地平台建设中标准不统一、不规范的情况比较严重, 阻碍了社会—技术资源协同网络的形成。以数据开放使用授权协议为例, 根据对国内已建成平台的调查, 本文发现目前各地平台的数据开放授权协议差异较大。有的平台甚至没有明确的授权协议, 仅以免责声明代替。严格意义上来说, 没有明确授权的开放数据甚至不能称之为开放数据。在权责声明不够清晰的情况下, 潜在的法律担忧将阻碍使用意愿。此外, 在数据混合使用时, 多种的授权协议也容易造成混乱, 引发数据侵权、数据滥用等问题。从国外实践来看, 一般由国家制定统一的“开放政府授权协议”。如无特别声明, 则公共部门自身创建的所有数据可默认适用该授权协议。一些可供参考的案例包括:英国的“公共部门信息开放政府授权协议” (Open Government Licence for public sector information) 、加拿大的“开放政府授权协议” (Open Government Licence) 和美国的政府工作版权协议 (Government Works Copyright) 等。
附录
主要开放政府数据平台的系统简介