从GEO数据到小鼠模型:我是如何用scRNA-seq和机器学习在动脉粥样硬化研究中锁定C1Q基因的

张开发
2026/4/21 10:20:41 15 分钟阅读
从GEO数据到小鼠模型:我是如何用scRNA-seq和机器学习在动脉粥样硬化研究中锁定C1Q基因的
从GEO数据到小鼠模型我是如何用scRNA-seq和机器学习在动脉粥样硬化研究中锁定C1Q基因的当我在深夜的实验室第一次看到GSE159677数据集的t-SNE图时那些彩色的细胞簇就像星空中的星座隐约透露着动脉粥样硬化发病机制的奥秘。作为一名长期从事心血管疾病研究的生物信息分析师我深知要在这片星空中找到真正的致病基因需要搭建一座连接组学数据与生物学验证的桥梁。本文将完整复盘这个历时18个月的项目分享如何通过多组学整合分析从公共数据库中挖掘出C1Q基因家族的关键作用并最终在小鼠模型中得到验证。1. GEO数据挖掘从混沌中建立秩序面对GEO数据库中数十个动脉粥样硬化相关数据集时新手常犯的错误是贪多求全。我最初下载了7个数据集GSE159677、GSE28829、GSE43292、GSE41571、GSE100927等但很快意识到需要建立清晰的筛选标准质量控制三重过滤样本量30的研究优先确保统计效力包含明确临床分期的数据集如稳定斑块vs易损斑块平台类型一致避免批次效应灾难单细胞数据特殊处理# 使用Seurat处理GSE159677的典型流程 library(Seurat) sc_data - Read10X(filtered_feature_bc_matrix) sc_obj - CreateSeuratObject(counts sc_data, min.cells 3, min.features 200) sc_obj[[percent.mt]] - PercentageFeatureSet(sc_obj, pattern ^MT-) sc_obj - subset(sc_obj, subset nFeature_RNA 200 percent.mt 25)在整合多个bulk RNA-seq数据集时我放弃了直接合并的念头转而采用分队列验证策略GSE43292作为训练集n64GSE41571和GSE28829作为验证集1n1129GSE100927系列作为验证集2n1044138252. 单细胞分析中的关键转折点使用Seurat标准流程得到24个细胞簇后真正的挑战才开始。通过SingleR包进行细胞注释时我发现巨噬细胞亚群表现出异常的补体系统激活信号。这个偶然发现促使我将分析焦点转向C1Q基因家族。关键操作步骤提取巨噬细胞亚群重新聚类运行FindAllMarkers()筛选差异基因用Scillus包进行通路富集分析提示当发现某个通路在多个亚群中显著富集时建议立即查阅最新文献确认其生物学意义在GSE159677中C1QA/C1QC的表达模式呈现出三个显著特征在促炎型巨噬细胞中表达量最高p1e-15与斑块不稳定程度呈正相关r0.72共表达网络包含SPI1等关键转录因子3. 机器学习的三重奏GBM、LASSO与XGBoost的协同作战从781个差异基因中筛选关键标志物时我设计了一个三重机器学习过滤系统算法参数设置输出基因数交叉验证AUCGBMn.trees500, interaction.depth3150.812LASSOlambda.min0.0170.796XGBoostmax_depth4, eta0.1100.828三种算法共同指向C1QA和C1QC时我知道找到了真正的目标。但更令人兴奋的是这些结果在不同数据集间的稳定性GSE43292训练集AUC0.842GSE41571验证集AUC0.933GSE28829验证集AUC0.938# XGBoost特征重要性分析示例代码 import xgboost as xgb params {objective:binary:logistic, max_depth:4} dtrain xgb.DMatrix(X_train, labely_train) model xgb.train(params, dtrain) xgb.plot_importance(model)4. 从生信预测到实验验证的鸿沟跨越当分析结果指向C1Q基因时我面临两个艰难选择继续深挖数据已有足够发表内容开展湿实验验证高风险高回报最终决定设计三阶段验证实验体外实验ox-LDL处理的RAW264.7巨噬细胞qPCR检测C1QA/C1QC表达2^-ΔΔCt法结果处理组表达量提升3.2-4.8倍p0.001动物模型apoE-/-小鼠高脂饮食喂养12周分离胸主动脉/腹主动脉检测发现C1QA在病变部位特异性高表达临床关联通过公开GWAS数据开展MR分析使用TwoSampleMR包计算OR值发现C1Q与缺血性中风显著相关OR1.118, p0.027注意动物实验设计必须提前与病理学家讨论取材方案我们最初因取材部位不当损失了3只珍贵样本这个项目最大的收获不是发现了C1Q基因的重要性而是建立了一套可复用的研究框架当单细胞数据、机器学习预测和孟德尔随机化三者指向同一结论时这个发现就具备了转化为临床价值的潜力。现在当我在显微镜下看到动脉粥样硬化斑块中C1Q抗体的荧光信号时总会想起那个分析GSE159677数据的深夜——生物信息学的美妙之处就在于能让数据讲述它自己的故事。

更多文章