連續兩次求賢令:曾經我給你帶來了十萬用戶,但現在祝你倒閉,以及生信技能樹知識整理實習生招募,讓我走大運結識了幾位優秀小夥伴!大家開始根據我的ngs組學視頻進行一系列公共數據集分析實戰,其中幾個小夥伴讓我非常驚喜,不需要怎麼溝通和指導,就默默的完成了一個實戰!
他前面的分享是:
Counts FPKM RPKM TPM CPM 的轉化
獲取基因有效長度的N種方
下面是他對我們b站轉錄組視頻課程的詳細筆記前言:
進行RNA-seq入門實戰首先需要有一定的linux與R基礎,推薦跟着B站生信技能樹-jimmy老師學習打牢基礎:
【生信技能樹】生信人應該這樣學linux(更新至第14集)_哔哩哔哩_bilibili【生信技能樹】生信人應該這樣學R語言_哔哩哔哩_bilibili
本節概覽:
Linux下RNA-seq環境創建:
Ubuntu子系統下載安裝、Mniconda3與上遊分析軟件下載R下RNA-seq環境創建
R與Rstudio下載安裝、Bioconductor與R包下載1. Linux環境設置
1.1 Linux系統的創建——Ubuntu
運行Linux系統一般使用服務器或者個人電腦的虛拟機(Virtualbox、VMware)和子系統,下面簡單介紹Windows子系統的安裝配置,詳細說明請參閱Windows子系統WSL的體驗與配置——Ubuntu-22.04
Ubuntu子系統的下載安裝
首先在win10中搜索“ 啟用或關閉Windows功能 ”,進入該程序,勾選“适用于Linux的Windows子系統”;之後去微軟商店搜索Ubuntu下載安裝,一般安裝默認版本或者最新的22.04LTS
用戶權限設置
設置好用戶名和密碼進入Ubuntu後,需要設置一下用戶權限
啟用root需要設置密碼:sudo passwd root
添加用戶至root組:usermod -aG sudo username
切換root用戶:su
退出root:exit軟件鏡像源設置
一般選擇國内的清華鏡像,ubuntu | 鏡像站使用幫助 | 清華大學開源軟件鏡像站 | Tsinghua Open Source Mirror,Ubuntu 的軟件源配置文件是 /etc/apt/sources.list。将系統自帶的該文件做個備份,再編輯(* 注意要先切換為root用戶*才能編輯該文件)
su
cd /etc/apt/
cp sources.list sources.list.bak
vim sources.list
Ubuntu版本 22.04 LTS的設置(注意要找到對應的Ubuntu版本設置)如下:
# 默認注釋了源碼鏡像以提高 apt update 速度,如有需要可自行取消注釋
deb https:///ubuntu/ jammy main restricted universe multiverse
# deb-src https:///ubuntu/ jammy main restricted universe multiverse
deb https:///ubuntu/ jammy-updates main restricted universe multiverse
# deb-src https:///ubuntu/ jammy-updates main restricted universe multiverse
deb https:///ubuntu/ jammy-backports main restricted universe multiverse
# deb-src https:///ubuntu/ jammy-backports main restricted universe multiverse
deb https:///ubuntu/ jammy-security main restricted universe multiverse
# deb-src https:///ubuntu/ jammy-security main restricted universe multiverse
# 預發布軟件源,不建議啟用
# deb https:///ubuntu/ jammy-proposed main restricted universe multiverse
# deb-src https:///ubuntu/ jammy-proposed main restricted universe multivers
更新一下所有軟件
sudo apt update #更新可用軟件包列表
sudo apt upgrade #更新已安裝的包
1.2 Mniconda3下載安裝
一般使用Mniconda3軟件進行創建分析環境和管理軟件,下面簡單介紹Mniconda3的安裝,其詳細使用說明請參閱Miniconda3的安裝、配置和使用
下載與安裝
切換到安裝位置(一般為主目錄~), 下載最新的miniconda3,bash啟動安裝,一直enter、yes就可以了。
wget https://mirrors.ustc.edu.cn/anaconda/miniconda/Miniconda3-latest-Linux-x86_64.sh
#wget -c https://repo.continuum.io/miniconda/Miniconda3-latest-Linux-x86_64.sh
bash Miniconda-latest-Linux-x86_64.sh
設置conda軟件鏡像源
依次輸入以下命令設置軟件鏡像源,并展示鏡像源地址,這裡設置了中科大鏡像:
conda config --add channels https://mirrors.ustc.edu.cn/anaconda/pkgs/pro conda config --add
channels https://mirrors.ustc.edu.cn/anaconda/pkgs/r conda config --add channels
https://mirrors.ustc.edu.cn/anaconda/pkgs/free conda config --add channels
https://mirrors.ustc.edu.cn/anaconda/pkgs/main conda config --add channels
https://mirrors.ustc.edu.cn/anaconda/cloud/bioconda conda config --add channels
https://mirrors.ustc.edu.cn/anaconda/cloud/conda-forge conda config --set show_channel_urls yes
創建分析環境
創建rna流程環境rna_p3,指定python版本為3,同時下載sra-tools 軟件,之後每次要運行rna流程都要進入該環境
conda create -n rna_p3 python=3 sra-tools
conda env list #查看環境
conda activate rna_p3 #進入conda 環境
conda deactivate #退出當前conda環境
上遊分析軟件下載
本次RNA-seq流程涉及軟件如下所示,使用conda install -y 軟件名=版本号依次進行下載即可,可同時下載多個軟件,但不建議同時下載太多,容易報錯質控清洗:fastqc multiqc trim-galore
比對計數:hisat2 subread samtools=1.6 salmon
2. R環境設置
注意,安裝使用R首先需要你的電腦用戶名不能含有中文,否則後期運行程序會很容易報錯,如果用戶名含有中文請進行更改(很難。。。)或新建一個用戶;
Rstudio是R的編譯器,能提升用戶交互體驗,安裝Rstudio前一定要先安裝R2.1 R與Rstudio下載安裝
先在清華鏡像源下載 R,地址:The Comprehensive R Archive Network (tsinghua.edu.cn),
依次進入:Download R for Windows——base——Previous releases;
一般選擇下載R 4.1.3,使用最新版可能會有不适配的問題,使用默認選項一直确定安裝即可安裝好 R後之後,再去Rstudio官網下載Rstudio,地址:Download the RStudio IDE - RStudio
Rstudio中設置清華鏡像源
依次進入:Tools——Global Options——Pakages——Change;選擇鏡像源2.2 Bioconductor與R包下載
新建一個Rscript,運行以下内容,下載Bioconductor和本次實戰所需所有R包等,代碼修改自jimmy老師
###Bioconductor 下載
install.packages("BiocManager")
###設置好清華鏡像
rm(list = ls())
options()$repos
options()$BioC_mirror
#options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/") options(BioC_mirror="/bioconductor/")
options("repos" = c(CRAN="https:///CRAN/"))
options()$repos options()$BioC_mirror
###安裝需要的包
BiocManager::install(c("GSEABase","GSVA","msigdbr","clusterProfiler" ),ask = F,update = F)
BiocManager::install(c("GEOquery","limma","impute" ),ask = F,update = F)
BiocManager::install(c("org.Hs.eg.db","org.Mm.eg.db"),ask = F,update = F)
BiocManager::install(c("DESeq2","edgeR" ),ask = F,update = F) BiocManager::install("enrichplot",ask = F,update = F)
BiocManager::install("devtools",ask = F,update = F) BiocManager::install("WGCNA",ask = F,update = F)
BiocManager::install("data.table",ask = F,update = F) BiocManager::install("tximport",ask = F,update = F)
BiocManager::install("tidyverse",ask = F,update = F) BiocManager::install("DOSE",ask = F,update = F)
BiocManager::install("patchwork",ask = F,update = F) BiocManager::install("RBGL",ask = F,update = F) #Vennerable依賴包
BiocManager::install("pathview",ask = F,update = F)
BiocManager::install(c("STRINGdb","ggraph","igraph"),ask = F,update = F)
install.packages("Vennerable", repos="") #安裝Vennerable包
install.packages("statmod") #其他一些基礎包安裝
options()$repos
install.packages(c("FactoMineR", "factoextra"))
install.packages(c("ggplot2", "pheatmap","ggpubr","ggthemes",
"ggstatsplot","ggsci","ggsignif"))
install.packages("rvcheck") (.packages()) #查看當前加載運行包
#更新所有包
rvcheck::update_all(check_R = F, which = c("CRAN", "BioC", "github"))
永久設置bioconductor鏡像
#bioconductor | 鏡像站使用幫助 | 清華大學開源軟件鏡像站 | Tsinghua Open Source Mirror
file.edit('~/.Rprofile')
輸入以下内容:
# 清華源的鏡像
options(BioC_mirror="https:///bioconductor")
以上就是進行RNA-seq流程前的全部準備了,下一步就可以開始進行上遊數據下載、格式轉化和質控清洗等步驟啦
參考資料
GitHub - jmzeng1314/GEO (強烈推薦學習)
【生信技能樹】生信人應該這樣安裝軟件_哔哩哔哩_bilibili
【生信技能樹】生信分析入門環境搭建_哔哩哔哩_bilibili
文末友情宣傳
強烈建議你推薦給身邊的博士後以及年輕生物學PI,多一點數據認知,讓他們的科研上一個台階:
- 數據挖掘(GEO,TCGA,單細胞)2022年5~6月場,快速了解一些生物信息學應用圖表
- 生信入門課-2022年5~6月場,你的生物信息學第一課
有話要說...