博客
关于我
MatchingFrontier包简介及R实现
阅读量:804 次
发布时间:2023-02-07

本文共 1916 字,大约阅读时间需要 6 分钟。

MatchingFrontier 包简介

由哈佛大学的 Gary King 和 Christopher Lucas 以及 MIT 的 Richard Nielsen 三位学者共同开发的 MatchingFrontier 包于 2015 年首次发布在 GitHub 上,现已可在 CRAN 上方便下载。该包提供了一种用于因果推断的优化分组匹配效率的算法。

传统的 PSM 方法仅通过倾向得分本身进行匹配,在匹配组与对照组的相似度、模型依赖度、统计效率及偏误等多方面表现欠佳。研究者长期面临偏误与方差之间的权衡困境:通过修剪数据以降低不平衡,从而减少模型依赖度,但同时也会减少样本量,进而增大估计值的方差。

MatchingFrontier 算法通过同步优化不平衡(在处理组与对照组之间)和样本大小,实现了对分组匹配效率的最大化。此外,该包的核心用途在于生产最优的匹配样本,标准的 PSM 分析流程在计算出 ATT 值后已实质上结束。

核心功能

该包主要由以下四个函数模块构成:

  • 构造匹配边界 makeFrontier
  • 估计边界效应 estimateEffects
  • 可视化分析 Visualize the full frontier
  • 生成优化后的匹配样本
  • 使用步骤

    1. 载入所需程序包和数据集

    library(MatchingFrontier)  data(lalonde)  lalonde <- as.data.frame(lalonde)  attach(lalonde)

    2. 数据集简介

    数据集 lalonde 包含以下变量:

    • re78:1978 年实际收入(结果变量)
    • treat:是否参加就业培训(处理变量)
    • age:年龄
    • educ:教育年限
    • black:是否为黑人
    • hisp:是否为拉丁族
    • married:是否结婚
    • nodegree:是否有学位
    • re74re75:1974 年和 1975 年的实际收入
    • u74u75:1974 年和 1975 年是否失业

    样本共计 1185 个观测。

    3. 计算匹配边界

    match.on <- colnames(lalonde)[!(colnames(lalonde) %in% c('re78', 'treat'))]  my.frontier <- makeFrontier(    dataset = lalonde,    treatment = 'treat',    outcome = 're78',    match.on = match.on  )  # 返回结果显示,997 个观测值被移除,最终保留 188 个优化样本。

    4. 估计效应

    my.form <- as.formula(re78 ~ treat + age + black + education + hispanic + married + nodegree + re74 + re75)  my.estimates <- estimateEffects(    my.frontier,    're78 ~ treat',    mod.dependence.formula = my.form,    continuous.vars = c('age', 'education', 're74', 're75'),    prop.estimated = 0.1,    means.as.cutpoints = TRUE  )

    5. 可视化分析

    plotFrontier(    my.frontier,    cex.lab = 1.4,    cex.axis = 1.4,    type = 'l',    panel.first = grid(NULL, NULL, lwd = 2)  )  plotEstimates(    my.estimates,    ylim = c(-10000, 3000),    cex.lab = 1.4,    cex.axis = 1.4,    panel.first = grid(NULL, NULL, lwd = 2)  )  plotMeans(my.frontier)

    6. 生成优化后的匹配样本

    n <- 180  matched.data <- generateDataset(my.frontier, N = n)  # 可选择部分或全部观测本文选择了 180 个观测。

    总结

    MatchingFrontier 包通过创新性的算法解决了传统 PSM 方法在偏误与方差权衡上的缺陷,帮助研究者高效完成因果推断任务。

    转载地址:http://ezyfk.baihongyu.com/

    你可能感兴趣的文章
    NIFI从MySql中离线读取数据再导入到MySql中_无分页功能_02_转换数据_分割数据_提取JSON数据_替换拼接SQL_添加分页---大数据之Nifi工作笔记0037
    查看>>
    NIFI从PostGresql中离线读取数据再导入到MySql中_带有数据分页获取功能_不带分页不能用_NIFI资料太少了---大数据之Nifi工作笔记0039
    查看>>
    nifi使用过程-常见问题-以及入门总结---大数据之Nifi工作笔记0012
    查看>>
    NIFI分页获取Mysql数据_导入到Hbase中_并可通过phoenix客户端查询_含金量很高的一篇_搞了好久_实际操作05---大数据之Nifi工作笔记0045
    查看>>
    NIFI同步MySql数据_到SqlServer_错误_驱动程序无法通过使用安全套接字层(SSL)加密与SQL Server_Navicat连接SqlServer---大数据之Nifi工作笔记0047
    查看>>
    Nifi同步过程中报错create_time字段找不到_实际目标表和源表中没有这个字段---大数据之Nifi工作笔记0066
    查看>>
    NIFI大数据进阶_FlowFile拓扑_对FlowFile内容和属性的修改删除添加_介绍和描述_以及实际操作---大数据之Nifi工作笔记0023
    查看>>
    NIFI大数据进阶_Json内容转换为Hive支持的文本格式_操作方法说明_01_EvaluteJsonPath处理器---大数据之Nifi工作笔记0031
    查看>>
    NIFI大数据进阶_Kafka使用相关说明_实际操作Kafka消费者处理器_来消费kafka数据---大数据之Nifi工作笔记0037
    查看>>
    NIFI大数据进阶_Kafka使用相关说明_实际操作Kafka生产者---大数据之Nifi工作笔记0036
    查看>>
    NIFI大数据进阶_NIFI的模板和组的使用-介绍和实际操作_创建组_嵌套组_模板创建下载_导入---大数据之Nifi工作笔记0022
    查看>>
    NIFI大数据进阶_NIFI监控的强大功能介绍_处理器面板_进程组面板_summary监控_data_provenance事件源---大数据之Nifi工作笔记0025
    查看>>
    NIFI大数据进阶_NIFI集群知识点_认识NIFI集群以及集群的组成部分---大数据之Nifi工作笔记0014
    查看>>
    NIFI大数据进阶_NIFI集群知识点_集群的断开_重连_退役_卸载_总结---大数据之Nifi工作笔记0018
    查看>>
    NIFI大数据进阶_内嵌ZK模式集群1_搭建过程说明---大数据之Nifi工作笔记0015
    查看>>
    NIFI大数据进阶_外部ZK模式集群1_实际操作搭建NIFI外部ZK模式集群---大数据之Nifi工作笔记0017
    查看>>
    NIFI大数据进阶_实时同步MySql的数据到Hive中去_可增量同步_实时监控MySql数据库变化_操作方法说明_01---大数据之Nifi工作笔记0033
    查看>>
    NIFI大数据进阶_离线同步MySql数据到HDFS_01_实际操作---大数据之Nifi工作笔记0029
    查看>>
    NIFI大数据进阶_离线同步MySql数据到HDFS_02_实际操作_splitjson处理器_puthdfs处理器_querydatabasetable处理器---大数据之Nifi工作笔记0030
    查看>>
    NIFI大数据进阶_离线同步MySql数据到HDFS_说明操作步骤---大数据之Nifi工作笔记0028
    查看>>