可塑性面积单元问题

可塑性面积单元问题(英語:modifiable areal unit problemMAUP)是统计偏差的一个来源,会严重影响统计假說檢定的结果。当将基于点的空间现象度量汇总到区域中时(例如人口密度或疾病发生率),MAUP会影响结果。所得汇总值(例:总计、比率、比例、密度)受汇总单元的形状和尺度的影响。[1]

MAUP distortion example
可塑性面积单元问题和患病率计算失真的示例

例如,人口普查数据可以按照县、区、人口普查区、邮政编码区域、公安辖区或其他任意的空间单元来汇总。因此,数据汇总的结果取决于地图制作者在其分析中对“可塑性面积单元”的选用。基于省、州边界计算人口密度并绘制的人口面量圖与基于县边界计算密度所得出的结果可能截然不同。此外,人口普查区的边界也会随着时间而变化,[2]这意味着对比新旧数据时必须考虑可塑性面积单元问题。

背景 编辑

该问题最早在1934年由Gehlke和Biehl发现[3],随后在Openshaw(1984)的著名论文和Arbia(1988)的书中得到了详细描述。尤其是Openshaw(1984)观察到“许多地理研究中使用的面积单元(区域对象)是任意的、可修改的,并且受制于进行汇总的人的心血来潮和幻想”。[4]当将汇总数据用于空间流行病学英语spatial epidemiology空间统计面量圖作图的聚类分析时,问题尤其明显,在这种情况下很容在没有意识到的情况下对数据作出不恰当的解读。当基于汇总数据从统计中得出推论时,许多科学领域,特别是人文地理学领域都容易忽略MAUP。MAUP与區群謬誤和區群偏差这一主题密切相关(Arbia,1988)。

MAUP引起的区群偏差有两个分別的效应,二者通常在汇总数据分析时同时发生。其中,尺度效应(scale effect)会导致不同聚合水平(径向距离)下统计结果的差异。因此,变量间的关联取决于数据面积单元的大小。通常,面积单位越大,相关性趋于更强。而区划效应(zoning effect)是指将数据在相同尺度(区域形状)下,区域的不同的划分组合方式会导致的相关统计量的变化。[5]

自1930年代以来,研究发现统计结果由于MAUP而存在额外差异。计算组内和组间方差的标准方法忽视了在MAUP研究中随组的变化而产生的额外方差。MAUP可以用作计算多组空间分组的上限和下限以及平均回归参数的方法。MAUP是空间研究(无论是观察研究还是实验研究)中误差的重要来源。因此,单元的一致性至关重要,尤其在涉及时间序列横截面(TSCS)时。此外,应常规执行对替代空间汇总的单元敏感性的稳健性检验,以减轻对所得统计估计值的有关偏差。

解决方案 编辑

现有文献提出了一些减少迴歸分析中汇总偏误的建议。研究人员可能会使用来自个体级别数据的样本来校正方差-协方差矩阵。[6]或者,可以将重点放在局部空间回归上而不是全局回归上。研究人员还可试图设计面积单元以最大化特定的统计结果。[4]另一些人则认为,可能难以为多个变量构建单一的一套最佳的汇总单元,每个变量可能会以不同的方式表现出跨空间的非平稳性和空间自相关。其他人则建议开发统计数据,这种统计数据在跨尺度时以可预测的方式变化,例如可能可以使用分形维数作为空间关系的尺度不敏感方法。还有人则建议将贝叶斯层次模型作为一种综合方法,将汇总的和个体级别的数据结合起来以进行区群推断。

由于无法控制多个空间变量之间的关系,因此基于经验数据的MAUP研究只能提供有限的洞察。要控制个体级别数据的各种属性,必须进行数据模拟。模拟研究表明,变量的空间支持可以影响由空间数据聚合引起的区群偏差的大小。[7]

MAUP敏感性分析 编辑

通过使用单变量数据的模拟,Larsen提倡使用方差比来研究空间配置、空间关联和数据汇总的影响。[8]雷诺兹(Reynolds)提出了由于MAUP引起的统计变化的详细描述,他证明了数据值的空间配置和空间自相关的重要性。[9]斯威夫特(Swift)扩大了雷诺(Reynold)的模拟实验的范围,斯威夫特(Swift)通过模拟回归分析和空间趋势进行了九次模拟,然后重点关注空间流行病学语境下的MAUP。他提出了一种MAUP敏感性分析的方法,该方法证明了MAUP并不只是问题。[7]MAUP也可以用作分析工具,以帮助了解空间异质性和空间自相关。

这一点特别重要,因为在某些情况下,数据汇总会掩盖变量之间的强相關性,从而使该关系显得微弱甚至变成负向的。MAUP也可能导致随机变量出现似是而非的显著关联。多元回归参数比相关系数对MAUP更为敏感。在找到解决MAUP的更多分析方法前,建议使用各种面积单元的空间敏感性分析作为一种方法来估算由区群偏差引起的相关性和回归系数的不确定性。现已有使用ArcPy库进行数据模拟和重新汇总的示例。[10][11]

在交通规划中,交通小区英语traffic analysis zone划分(Traffic Analysis Zoning,TAZ)中伴随者MAUP。要理解交通分析中的问题,主要出发点是认识到空间分析具有空间离散化导致的某些局限。其中划定交通小区时,可塑性面积单元问题和边界问题英语Boundary problem (spatial analysis)直接或间接地与交通分析和规划相关——大多数交通研究需要直接或间接地定义交通小区。在确定交通小区时,应特别注意可调整边界和尺度的问题,因为这些因素会对空间形态的统计和数学特性产生影响(即可塑性面积单元问题)。在Viegas、Martinez和Silva(2009,2009b)的研究中[11],作者提出了一种方法,其中从空间数据研究中获得的结果并非与尺度无关,且聚合的影响隐含在区域边界的选取中。交通小区边界的划定直接影响交通预测模型获得的结果的真实性和准确性。该研究使用不同的网格(大小和原点位置)测量和分析了MAUP对交通小区定义和运输需求模型的影响。这一分析是通过构建集成在商业GIS软件中的应用并进行案例研究(里斯本都市区)来测试其实施性和性能。结果表明,在交通规划模型的交通分配步骤中,统计精度和地理精度之间存在冲突,且它们与信息损失之间存在关系。

參見 编辑

一般主题
具体应用

参考資料 编辑

  1. ^ MAUP | Definition – Esri Support GIS Dictionary. support.esri.com. [2017-03-09]. (原始内容存档于2017-03-12). 
  2. ^ Geography, US Census Bureau. Geographic Boundary Change Notes. www.census.gov. [2017-02-24]. (原始内容存档于2019-03-13) (美国英语). 
  3. ^ Gehlke & Biehl 1934
  4. ^ 4.0 4.1 Openshaw 1983
  5. ^ Fotheringham, A. S.; Rogerson, P. A. The Modifiable Areal Unit Problem (MAUP). The SAGE handbook of spatial analysis. Sage. 2008: 105–124. ISBN 978-1-4129-1082-8. 
  6. ^ Holt D, Steel D, Tranmer M, Wrigley N. (1996). “Aggregation and ecological effects in geographically based data.” “Geographical Analysis” 28:244{261
  7. ^ 7.0 7.1 Swift, A., Liu, L., and Uber, J. (2008) "Reducing MAUP bias of correlation statistics between water quality and GI illness." Computers, Environment and Urban Systems 32, 134–148
  8. ^ Larsen, J. (2000). "The Modifiable Areal Unit Problem: A problem or a source of spatial information?" PhD thesis, Ohio State University.
  9. ^ Reynolds, H. (1998). "The Modifiable Area Unit Problem: Empirical Analysis By Statistical Simulation." PhD thesis, Department of Geography University of Toronto, http://www.badpets.net/Thesis页面存档备份,存于互联网档案馆
  10. ^ Swift, A. (2017). "Crime mapping data simulation", https://app.box.com/s/a84w16x7hffljjvkhtlr72eisj4qiene页面存档备份,存于互联网档案馆
  11. ^ 11.0 11.1 Viegas, José Manuel; Martinez, L. Miguel; Silva, Elisabete A. Effects of the Modifiable Areal Unit Problem on the Delineation of Traffic Analysis Zones. Environment and Planning B: Planning and Design. January 2009, 36 (4): 625–643. doi:10.1068/b34033. 

參考文獻 编辑

  • Arbia, Giuseppe. Spatial data configuration in then statistical analysis of regional economic and related problems. Dordrecht: Kluwer Academic Publishers. 1988. 
  •   This article contains quotations from Modifiable areal unit problem页面存档备份,存于互联网档案馆) at the GIS Wiki, which is available under the Creative Commons Attribution 3.0 Unported (CC BY 3.0) license.
  • Gehlke, C. E.; Biehl, Katherine. Certain effects of grouping upon the size of the correlation coefficient in census tract material. Journal of the American Statistical Association. March 1934, 29 (185A): 169–170. JSTOR 2277827. doi:10.2307/2277827. 
  • Openshaw, Stan. The modifiable areal unit problem. Norwick: Geo Books. 1983. ISBN 0860941345. OCLC 12052482. 
  • Unwin, D. J. (1996). "GIS, spatial analysis and spatial statistics." Progress in Human Geography. 20: 540–551.
  • Cressie, N. (1996). “Change of Support and the Modifiable Areal Unit Problem.” “Geographical Systems“, 3:159–180.
  • Viegas, J., E.A. Silva, L. Martinez (2009a). “Effects of the Modifiable Areal Unit Problem on the Delineation of Traffic Analysis Zones” “Environment and Planning B – Planning and Design“, 36(4): 625–643.
  • Viegas, J., E.A. Silva, L. Martinez (2009a). “A traffic analysis zone definition: a new methodology and algorithm” “Transportation“. 36 (5): 6“, 36 (5): 6 .

延伸阅读 编辑