當前位置：首頁 > 教育 > 正文

芯片探針序列的基因組注釋

啟示号
教育
3年前
414

這是我第二次在标題上寫重磅！價值一千元的代碼，雖然下面的技能或者說代碼對我來說是非常簡單啦，但是在有需求的粉絲看來真正的價值不可估量。

第一次是：

純粹的R代碼技巧，怕粉絲看不懂，我已經花了一個星期做鋪墊：

1

2

3

4

5

6

前面我提到過有些芯片，各種地方都是找不到其設計的探針對應的基因的，但是探針序列一般會給出，比如：
HumanLncRNAExpressionArrayV4.0AS-LNC-H-V4.020,730mRNAsand40,173LncRNAs8*60K

以前我會簡單的回答，其實就是芯片探針的重新注釋，重點是

probe sequences 探針序列下載

uniquely mapped to the human genome (hg19) by Bowtie without mismatch. 參考基因組下載及比對

chromosomal position of lncRNA genes based on annotations from GENCODE (Release 23)坐标提取，最後使用bedtools進行坐标映射

三部曲罷了，不過感覺會linux的朋友不多，我還是用R來一波這個操作。
首先下載序列
這裡我選擇在GEO官網的GPL平台下載 : https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL21827
rm(list=ls())##魔幻操作，一鍵清空~
options(stringsAsFactors=F)
#注意查看下載文件的大小，檢查數據
f='GPL21827_eSet.Rdata'

library(GEOquery)
#這個包需要注意兩個配置，一般來說自動化的配置是足夠的。
#Settingoptions('download.file.method.GEOquery'='auto')
#Settingoptions('GEOquery.inmemory.gpl'=FALSE)
if(!file.exists(f)){
gset<-getGEO('GPL21827',destdir=".")##平台文件
save(gset,file=f)##保存到本地
}
load('GPL21827_eSet.Rdata')##載入數據
class(gset)
length(gset)
gset
colnames(Table(gset))
probe2symbol=Table(gset)[,c(1,4)]
all_recs=paste(apply(probe2symbol,1,function(x)paste0('>',x[1],'\n',x[2])),collapse='\n')
temp<-tempfile()##編程技巧，把變量寫入臨時文件~
write(all_recs,temp)

這個技巧我在生信菜鳥團博客發布過：http://www.bio-info-trainee.com/3732.html 芯片概況如下：
然後對人類的參考基因組構建索引并且比對
主要是參考基因組下載會耗費時間，還有構建索引耗時也很可觀！
library(Rsubread)
#推薦從ENSEMBL上面下載成套的參考基因組fa及基因注釋GTF文件
dir='~/data/project/qiang/release1/Genomes/'
ref<-file.path(dir,'Homo_sapiens.GRCh38.dna.toplevel.fa')
buildindex(base,reference=ref)
##是單端數據，fa序列來源于上一個步驟輸出的gpl的探針
reads<-temp
align(index="reference_index",readfile1=reads,
output_file="alignResults.BAM",phredOffset=64)
propmapped("alignResults.BAM")

構建大約耗時一個小時，具體如下：

比對速度很快，因為探針序列隻有6萬多，如下：

在linux下得到比對後的bam文件也很簡單的。
讀入人類基因組注釋文件
也是需要一點點R技巧，可以參考我在生信菜鳥團的博客：http://www.bio-info-trainee.com/3742.html 使用refGenome加上dplyr玩轉gtf文件
library(Rsubread)
#推薦從ENSEMBL上面下載成套的參考基因組fa及基因注釋GTF文件
dir='~/data/project/release1/Genomes/'
gtf<-file.path(dir,'Homo_sapiens.GRCh38.82.gtf')
if(!require(refGenome))install.packages("refGenome")
#createensemblGenomeobjectforstoringEnsemblgenomicannotationdata
ens<-ensemblGenome()
#readGTFfileintoensemblGenomeobject
read.gtf(ens,useBasedir=F,gtf)

class(ens)
#countsallannotationsoneachseqname
tableSeqids(ens)
#returnsallannotationsonmitochondria
extractSeqids(ens,'MT')
#summarisefeaturesinGTFfile
tableFeatures(ens)
#createtableofgenes
my_gene<-getGenePositions(ens)
dim(my_gene)

#lengthofgenes
gt=my_gene
my_gene_length<-gt$end-gt$start
my_density<-density(my_gene_length)
plot(my_density,main='Distributionofgenelengths')
##重點是要成為對象
library(GenomicRanges)
my_gr<-with(my_gene,GRanges(seqid,IRanges(start,end),
strand,id=gene_id))

如果是linux的shell腳本，一句話就可以搞定其實。
坐标映射
把自己制作好的bam文件的坐标，跟提取自gtf文件的坐标信息對應起來，使用GenomicRanges包自帶的函數即可。

值得注意的是把bam文件讀入R，并且轉為grange對象需要一點點技巧，我在生信菜鳥團博客寫過：http://www.bio-info-trainee.com/3740.html
library(Rsamtools)
bamFile="alignResults.BAM"
quickBamFlagSummary(bamFile)
#https://kasperdanielhansen.github.io/genbioconductor/html/Rsamtools.html
bam<-scanBam(bamFile)
bam
names(bam[[1]])
tmp=as.data.frame(do.call(cbind,lapply(bam[[1]],as.character)))
tmp=tmp[tmp$flag!=4,]#60885probes
#intersect()ontwoGRangesobjects.
library(GenomicRanges)
my_seq<-with(tmp,GRanges(as.character(rname),
IRanges(as.numeric(pos)-60,as.numeric(pos)+60),
as.character(strand),
id=as.character(qname)))
gr3=intersect(my_seq,my_gr)
gr3
o=findOverlaps(my_seq,my_gr)
o
lo=cbind(as.data.frame(my_seq[queryHits(o)]),
as.data.frame(my_gr[subjectHits(o)]))
head(lo)
write.table(lo,file='GPL21827_probe2ensemb.csv',row.names=F,sep=',')

當然，坐标映射本身也是滿滿的R技巧啦。

■■ ■

你可能想看：

什麼是芯片架構？芯片架構的重要性

美國的芯片巨頭英偉達宣布将從日本軟銀手裡以400億美金的價格收購全球最大的半導體IP提供商ARM公司，我們需要先講一下英偉達跟ARM這兩家公司。讓它的市值在20年正式超過美國芯片老大英特爾，AMD這種...

狗和人類的基因相似度高達95% ，意不意外？為什麼會這樣？

狗和人類的基因相似度到底有多高，當我們選取一種動物的基因與人類的基因進行相似度對比的時候，事實上我們用于進行相似度對比的基因還不足整個DNA序列的2%，基因相似度指的僅是編碼蛋白質基因的相似程度，人與...

circbase數據庫環狀RNA序列獲取方法 | 環狀RNA社區

小編邀請技術部的劉建甯老師繼續為大家實例講解circRNA的引物設計。我們以環狀RNA數據庫circbase（http:為小夥伴詳細介紹從circRNA序列獲取到引物設計的全過程。在Search上方的...

陰瑜伽之脾胃經絡序列

循行部位起于足大趾内側端（隐白穴），沿内側赤白肉際，上行過内踝的前緣，沿小腿内側正中線上行，上行沿大腿内側前緣，沿食道兩旁，起于鼻翼旁（迎香穴），挾鼻上行，旁行入目内眦，向下沿鼻柱外側，在颏唇溝承漿穴...

磁共振參數卡簡介之3D成像序列特殊參數

相較于2D成像序列使用選層梯度進行層面選擇，然後使用相位編碼梯度和頻率編碼梯度進行層面内空間位置的定位；并且在成像過程中需要通過增加層面方向的過采樣來減少層組與層組之間的邊緣模糊僞影及層組間負間隔的方...

磁共振參數卡簡介之2D GRE序列特殊參數

使得GRE序列導緻的射頻能量的累積即SAR較小；為了更好地了解梯度回波序列GRE的成像特點，恩斯特角的大小與組織T1弛豫時間和掃描序列的重複時間TR相關，Series參數定義在多層掃描時射頻脈沖激發的...

Parallels Desktop（16） for M1 送激活碼了「隻對m1芯片arm蘋果電腦」

m1芯片的蘋果筆記本是否可以裝虛拟機，那就是硬件問題不是靠軟件可以解決的，你怎麼更新他也弄不出能刷地鐵公交卡的功能，蘋果電腦選擇了m1芯片，安卓手機也可以刷上蘋果系統？前面咱們有一片公衆号文章已經做過...

預測30年後AI智商10000，孫正義想控制九成芯片市場

要說商界誰最愛AI（人工智能），更下決心想要占領九成芯片市場，會比今天的人類聰明很多很多”未來希望有90%以上的芯片設計能出自其去年收購的英國芯片設計企業ARM之手，人工智能比人類更聰明的事情一定會在...

一家日本的食品公司，偶然間發現的工業材料，成了芯片制造的命脈

芯片的制造是最為複雜的工業過程”很多人都以為光刻機是芯片制造過程中最大的難題，目前在全球範圍内有能力制造出芯片的廠商并不在少數，但有能力生産出14nm以下工藝的芯片廠商，配合上台積電的制程工藝就能夠生...

電池将是即芯片後的萬億級戰略産業

目前全球半導體行業規模在4000億美元左右，随着新能源領域應用比例提高和萬物互聯時代的到來，全球最大的消費電池企業；全球最大的電池原材料企業：而高端電池的行業壁壘也是非常高，電池行業也有成為半導體行業...

淺談現代集成電路28nm芯片制造工藝B(後端BEOL)

（防止硼磷矽玻璃中B/P析出影響襯底器件），澱積界面氧化層（IL）和高K介質HfO29.1.6澱積覆蓋層TiN/TaN氮化钛/氮化钽.見圖159.1.7澱積p型功函數氮化钽層約40Å。見圖169.1....

現代集成電路芯片制造工藝流程

晶圓材料-隔離—澱積多晶矽—芯軸—鳍硬掩膜（”

淺談現代集成電路28nm芯片制造工藝A(前端FEOL)

襯底的電子以量子形式穿過栅介質進入栅極，（量子隧穿）栅極漏電導緻功耗增加，單純縮小厚度不能滿足器件性能的要求了，于是采用提高氮氧化矽含氮量以增加介電常數k，開始使用高k介質HfO2代替SiON來改善栅...

一文看懂2019全球AI芯片産業鍊全局

全球AI芯片領域仍未形成牢固的技術壁壘，傳統芯片廠商、科技巨頭、應用層廠商及初創企業紛紛開始涉足其中，AI芯片在構架、功能和場景上存在較大差異，就能發現AI芯片産業鍊的格局，專用集成電路）和類腦芯片（...

陳根：全球首個2nm芯片面世，能耗減少75%

其核認為集成電路上可以容納的晶體管數目在大約每經過18個月便會增加一倍，繼續依賴縮小工藝制程獲取性能和經濟效益提升已困難重重，人工智能、大數據、5G等領域的計算需求在海量增長，IBM發布全球首個2nm...

Word批注妙用，給文章加注釋，既方便實用又不影響排版

批注内容默認顯示在文檔的右側。先用鼠标選中要添加批注的文字。然後再點擊【新建批注】即可：即可為選中的文字新建批注：選中要添加批注的文字，再點擊【新建批注】。也可以為選中的文字新建批注：點擊【新建批注】...

怎麼就成瀕危物種了？滿大街都是銀杏樹！基因測序揭露驚人事實

公園裡、道路旁的銀杏樹下已經能看到掉落的銀杏果，樹齡240年在歐洲很多城市經常可以看到樹齡高達一兩百年的銀杏樹，日本花園中的巨大銀杏在隋唐時期的中日僧侶交流中帶到了日本，1609年德國的植物學家Eng...

基因編輯技術的發展曆史梳理

Barbara McClintock因其發現了轉座子基因獨享了當年的諾貝爾獎。這對于基因表達調控、參與對病毒感染的防護、控制活躍基因具有重要意義，首次實現了ES的外源基因的定點整合（胚胎幹細胞，這一...

古詩詞中常用詞彙注釋

尺素、錦書、雙魚、魚雁、鴻雁、魚中素：比喻文人鬥方風騷。暗喻男女聚合或男女合歡之意。指唐代盛行的曲調《金縷衣》或《金縷曲》。唐.　杜秋娘《金縷衣》詩：季節時令詞：我國傳統元宵節是指農曆正月十五夜：孟春...

一文教會你查找基因的啟動子、UTR、TSS等區域以及預測轉錄因子結合位點

獲取正鍊或負鍊的啟動子序列時要注意方向。是信使RNA（mRNA）分子編碼區(CDS)兩端的非編碼片段，3’-UTR從編碼區末端的終止密碼子延伸至多聚A尾巴（Poly-A）的末端，中講述了如何基于高通量...

Cell Reseach：caspase11切割gasderminD引發“細胞焦亡” - 基因編輯專區 - 生物谷

這些炎性caspase的激活能夠促進細胞焦亡事件的發生，炎性caspase究竟是如何調節這些細胞事件至今仍然有待解決。該蛋白的切割能夠引發細胞焦亡事件的發生。他們發現這一突變體小鼠不能夠正常發生細胞焦...

史記司馬相如列傳原文,全文賞析,翻譯注釋

故其親名之曰犬子。從遊說之士齊人鄒陽、淮陰枚乘、吳莊忌夫子之徒，相如見而說之，梁孝王令與諸生同舍，臨邛令缪為恭敬，相如初尚見之，吉愈益謹肅，二人乃相謂曰，臨邛令不敢嘗食。臨邛令前奏琴曰，相如辭謝，故相...

文心雕龍辨騷第五原文,全文賞析,翻譯注釋

奇文郁起，奮飛辭家之前，小雅怨诽而不亂，班固以為露才揚己。屈原婉順，離騷之文，《離騷》和《天問》裡都曾講到昆侖山：鹥。【譯文】自從《國風》《大雅》《小雅》的歌聲漸漸停息。從前漢武帝喜愛《離騷》等篇。命...

《千字文》全文及注釋大全

日月盈昃。【解釋】天是青黑色的。宿（xiù）〈古〉我國天文學家将天空中某些星的集合體叫做【解釋】寒暑循環變換

将苑擊勢原文,全文賞析,翻譯注釋

必先探敵情而後圖之。營伍失次，甲兵堅利，譯文古代善于用兵的将領，一定會首先打探敵人的情況然後再采取相應的對策。凡是敵人處于下列情況：軍隊長期征戰失去銳氣，百姓對戰争怨聲不斷；士兵不熟悉軍中的各項法令；...

史記項羽本紀原文,全文賞析,翻譯注釋

其季父項梁，梁父即楚将項燕，項氏世世為楚将，項梁嘗有栎陽逮，乃請蕲獄掾曹咎書抵栎陽獄掾司馬欣。吳中賢士大夫皆出項梁下，會稽守通謂梁曰，梁部署吳中豪傑為校尉、候、司馬“梁曰。急引兵西擊秦：未嘗聞汝先古之...

'文件序列技巧 gene

上一篇
專題分享：流程與業務架構

下一篇
識人：閱曆深的人藏不住，一開口便能看出來

芯片探針序列的基因組注釋

有話要說...取消回複

最新文章

李辛最新采訪 | 孩子身心問題背後的原因（下）

針家心悟：針灸如何取穴（純幹貨）

有哪些非常實用的職場道理，是當了領導以後才明白的

世界地理分區之歐洲篇

陳益峰：飛鵝地，王氏正二品武将的老祖墳

狗子從小頂白菜，頂草莓，結果頂着頂着頂出一個冠軍

直覺主義——數學概念是自主的智力活動

張本美和欲重金聘請張繼科執教

熱門文章

威士忌高階關于 OB 與 IB，一次給你說透！

為什麼五點鐘要起床答案讓人吃驚！（現在知道還不晚）

美麗中國-2870：中國最大的内陸河，塔裡木河

老張老李侃門球之140篇

這個穴位可以治療多種胃痛腹痛，還可以減肥

診餘雜記（師傳經驗）

二十四山開門放水作竈真訣開門放水作竈直訣——子山

門球技巧隻需五個字讓你打好門球