首页 工作计划 工作总结 事迹材料 心得体会 述职报告 疫情防控 思想汇报 自查报告 党建材料 策划方案 教案设计 范文大全
  • 主题教育
  • 党课下载
  • 党史学习
  • 振兴乡镇
  • 工作汇报
  • 不忘初心
  • 规章制度
  • 谈话记录
  • 扫黑除恶
  • 共同富裕
  • 脱贫攻坚
  • 整改报告
  • 工作要点
  • 对照材料
  • 调查报告
  • 教育整顿
  • 观后感
  • 申请书
  • 讲话稿
  • 致辞稿
  • 评语
  • 口号
  • 发言稿
  • 读后感
  • 治国理政
  • 学习强国
  • 公文范文
  • 大数据与双边关系的量化研究:以GDELT与中美关系为例

    时间:2023-06-25 12:35:06 来源:正远范文网 本文已影响 正远范文网手机站


    打开文本图片集

    【内容提要】 大数据事件库的出现给量化国家间关系提供了一种新的可能路径。本文利用目前全球最大的事件数据库GDELT来测量1993—2016年的中美关系,并探讨五种不同的计算方法及其问题。本文讨论了如何判断测量的准确性问题,并将结果与清华大学的“中国与大国关系数据库”中同时段的中美关系测量值进行比较,证明基于大数据的测量具有一定的价值。本文同时分析了大数据测量方法存在的问题,并探讨了其解决方法。

    【关键词】 GDELT 大数据 事件 双边关系测量 中美关系

    【作者简介】 池志培,中央财经大学国防经济与管理研究院助理研究员,中央财经大学全球经济与可持续发展研究中心兼职研究员。

    国际关系的研究对象是国与国之间的关系,但由于国与国之间的关系往往是多维和复杂的,因而对关系的判断通常只能依赖于研究者的经验、直觉和理论偏好,这也就意味着不同的研究者对于国与国之间关系的判断差异很大。要解决这个问题,一个方法是对于国家间的关系进行量化研究。量化是当代社会科学研究的趋势,通过准确的数据,我们才能进行跨时段、跨国的比较,从而发现趋势与规律,甚至提供某种预测。但是要将国家间关系转化成单一维度的数字来测量还面临着方法论和实际操作中的巨大困难。

    目前衡量国家间关系的主要方法是分析事件数据。从理论上来说,如果能对国家之间发生的所有事件进行统一的分析,那么应该就能很好地把握它们之间的关系,因为关系必然要通过事件来体现。如果所有的事件都能通过一个统一的测量标准进行衡量,再将这些测量的结果进行汇总,那么就能对关系进行量化。由于双边关系是所有关系的基础,多边关系可以还原成多组双边关系,所以本文的研究将聚焦于双边关系的测量。

    近年来,随着计算机技术和智能硬件技术的飞速发展和普及以及网络社会的形成和算法的进步,人类得以累积了海量数据,即所谓的大数据。虽然不同的学者或者机构对于大数据的定义有所区别,但是对于大数据的一些共性特征,各方还是有一些共识——大数据包含了3个V关于大数据的不同定义,可以参见:Jonathan Stuart Ward and Adam Barker, “Undefined By Data:A Survey of Big Data Definitions,” arxiv.org/abs/1309.5821.关于大数据的简要历史,可参见:Gil Press,”A Very Short History Of Big Data,” Forbes, May 9, 2013, https:///sites/gilpress/2013/05/09/a-very-short-history-of-big-data/#5db944eb65a1.此外,亦有观点认为大数据还需要第四个V,即veracity,指数据的真实性。:量(volume),数据量非常巨大;种类(variety),即数据类型多样,从文本到图像、视频,等等;速度(velocity),即数据产生和处理的速度非常快。本文讨论所涉及的目前全球最大的社会科学数据库GDELT(Global Database of Events, Language, and Tone)就是其中一个,它从全世界超过100种语言的媒体中收集信息,并通过特定的编码体系由计算机自动将其编码成一个个事件,时间跨度从1979年到今天,并持续每天更新。目前已经收集了超过2.5亿个事件的信息,包括事件的发起者、对象、地理位置、事件类型、信息来源等32个变量。就传统国际关系关注的国家之间的关系而言,这个数据库几乎涵盖了所有已经公开的事件。正如维克多·麦尔-荀伯格(Viktor Mayer-Schnberger)所提及的,抽样数据会变得过时,因为我们可以获得全部的数据Kenneth Cukier and Viktor Mayer-Schoenberger, “The Rise Of Big Data:How It"s Changing the Way We Think about The World,” Foreign Affairs, Vol.92, No.3, 2013, pp.28-40.。如果能充分利用这些巨量的事件大数据,那么就应该可以相当准确地对双边关系的现状和趋势作出判断。那么,使用这些海量数据能否得到可靠的结论,与现有的方法相比如何呢?同时,使用这些大数据可能遇到的问题和可能的解决方式又有什么呢?本文将以中美关系为例,通过对GDELT事件数据的使用来探讨这些问题。

    一、 事件数据与双边关系:历史与文献回顾

    虽然大数据事件库是近些年才出现的,但是人类通过记录事件数据来发现和研究社会已经有很长的历史了,一个例子就是对犯罪事件的记录。当代学术意义上的通过事件数据来考察两国之间的关系开始于1960年代,随着社会科学中的行为主义革命而产生。行为主义革命者希望采用能观察到的变量和计量方法来研究社会现象。对于国际关系、外交政策的分析而言,这个能被测量的对象就是事件(event)。关于事件数据库的起源与行为主义革命的关系以及早期发展,可以参见:Stephen J.Andriole and Gerald W.Hopple, “The Rise and Fall of Event Data:From Basic Research to Applied Use in the US Department of Defense,” International Interactions, Vol.10, No.3-4, 1984, pp.293-309; John Lewis Gaddis, “Expanding the Data Base:Historians, Political Scientists, and the Eichment of Security Studies,” International Security, Vol.12, No.1, 1987, pp.5-7; Philip A.Schrodt, “The Statistical Characteristics of Event Data,” International Interactions, Vol.20, No.1-2, 1994:35-53.關于政治学中的行为主义革命的特征及其简要历史,可以参见:Robert Dahl,  “The Behavioral Approach in Political Science:Epitaph for a Monument to A Successful Protest,” American Political Science Review, Vol.55, No.4, 1961, pp.763-772; David Easton, “Introduction:The Current Meaning of ‘Behavioralism’ in Political Science,”in J.S.Charlesworth, ed., The Limits of Behavioralism in Political Science (Philadelphia:American Academy of Political and Social Science,1962), pp.1-25; David Easton, “Political Science in the United States:Past and Present,” International Political Science Review, Vol.6, No.1, 1985, pp.133-152.查尔斯·麦克莱兰(Charles McClelland)最早从他对外交史的研究开始了这种尝试。最初的事件数据的生成采用的是人工手动编码的方式。由于人工编码需要大量的人力,研究者不得不在分析的广度和成本之间作取舍Richard L.Merritt, “Measuring Events for International Political Analysis,” International Interactions, Vol.20, No.1-2, 1994, p.6.。覆盖的来源越多、广度越大,就意味着研究成本的急剧上升,因此研究者不得不选择很有限的几个事件的数据来源。同时,人工编码也容易受个人身体状态(比如疲劳等)和主观判断的影响在关于事件数据库的研究开始以后,研究者对于人工编码存在的各种可能的问题也进行了研究,包括利用同一数据来源来比较不同编码者之间的差异,不同的编码者和数据库的表现差异很大,有从40%到90%不等的可靠性。参见:Philip A.Schrodt and Christopher Donald, “Machine Coding of Events Data,” paper presented at the International Studies Association meetings, Washington DC, April 1990, p.6.,因此,事件分析方法的局限比较明显。早年的代表性数据库有鲁道夫·鲁美尔(Rudolph J.Rummel)的“国家的维度”(Dimensionality of Nations,DON; Rummel, 1972),查尔斯·赫尔曼(Charles Hermann)等的“国家事件比较研究”(Comparative Research on the Events of Nations,CREON; Hermann et al., 1977),爱德华·阿萨尔(Edward Azar)的 “冲突与和平数据集”(Conflict and Peace Data Bank,COPDAB; Azar, 1980, 1982; Azar and Sloan, 1975),查尔斯·麦克莱兰(Charles McClelland)的“世界事件互动测量” (World Event/Interaction Survey,WEIS; Charles McClelland,1976)等。这些数据库被广泛应用于国际关系研究,尤其是关于冲突、动乱和战争的研究。Philip A.Schrodt, “The Statistical Characteristics of Event Data,” International Interactions, Vol.20, No.1-2, 1994, pp.35-6.其中COPDAB和WEIS的数据在经济相互依赖与冲突的研究中时常被使用。Solomon W.Polachek, “Conflict and Trade,” Journal of Conflict Resolution, Vol.24, No.1, 1980, pp.55-78; Mark Gasiorowski and Solomon W.Polachek, “Conflict and Interdependence:East-West Trade and Linkages in the Era of Détente,” Journal of Conflict Resolution, Vol.26, No.4, 1982, pp.709-729; Jon C.Pevehouse, “Interdependence Theory and the Measurement of International Conflict,” The Journal of Politics, Vol.66, No.1, 2004, pp.247-266.在1970年代末和1980年代初,美国的政府机构如国务院和国防部也组织了类似的项目,主要用于冲突预警。

    推荐访问:双边关系 中美关系 为例 量化 数据