Python生物信息学⑥绘制热图及火山图

Python生物信息学⑥绘制热图及火山图

Python生物信息学③提取差异基因

通过上Python生物信息学③提取差异基因得到了该数据集的差异分析的两个关键参数,1.差异倍数(foldchange)以及2.差异的P值。本篇目的是得到满足差异倍数和差异P值的基因,同时进行可视化(包括差异分析常见的火山图和热图)。


绘制火山图

(1)第一步制作差异分析结果数据框

genearray = np.asarray(pvalue)

result = pd.DataFrame({'pvalue':genearray,'FoldChange':fold})

result['log(pvalue)'] = -np.log10(result['pvalue'])

(2)第二步制作火山图的准备工作

选定的差异基因标准是 I.差异倍数的绝对值大于1,II. 差异分析的P值小于0.05

result['sig'] = 'normal'

result['size']  =np.abs(result['FoldChange'])/10
 
result.loc[(result.FoldChange> 1 )&(result.pvalue < 0.05),'sig'] = 'up'
result.loc[(result.FoldChange< -1 )&(result.pvalue < 0.05),'sig'] = 'down'
ax = sns.scatterplot(x="FoldChange", y="log(pvalue)",
                      hue='sig',
                      hue_order = ('down','normal','up'),
                      palette=("#377EB8","grey","#E41A1C"),
                      data=result)
ax.set_ylabel('-log(pvalue)',fontweight='bold')
ax.set_xlabel('FoldChange',fontweight='bold')

筛选差异基因

fold_cutoff = 1
pvalue_cutoff = 0.05

filtered_ids = []
for i in range(0, number_of_genes):
    if (abs(fold[i]) >= fold_cutoff) and (pvalue[i] <= pvalue_cutoff):
        filtered_ids.append(i)
        
filtered = data2.iloc[filtered_ids,:]
print("Number of DE genes: ")
print(len(filtered.index))

绘制热图

热图(heatmap)是生物学文章里(尤其是RNA-seq相关论文)经常出现的图片。热图的用途一般有两个。以RNA-seq为例,热图可以:1)直观呈现多样本多个基因的全局表达量变化;2)呈现多样本或多基因表达量的聚类关系。热图一般使用颜色(例如红绿的深浅)来展示多个样本多个基因的表达量高低,既直观又美观。同时可以对样本聚类或者对基因聚类。

sns.clustermap(filtered, cmap='RdYlGn_r', standard_scale = 0)

(1)每一行为一个基因,每一列为一个sample。 (2)绿色代表相对低表达,红色代表相对高表达。 (3)相对接近的样本或者基因会聚类在一起,比如探针名为101695_at的基因在GSM130370相对高表达,而在GSM130366低表达。

参考:

https://www.jianshu.com/p/3d810f41e76d


DrugAI
DrugAI CSDN认证博客专家 DrugAI 数据科学 生物医药
Fight Disease With Code ! Fight Disease With Data Technology !
药学、医学、化学和生物与计算机和AI交叉的爱好者从业者。
相关推荐
©️2020 CSDN 皮肤主题: 博客之星2020 设计师:CY__ 返回首页
实付 99.00元
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值