相关信息
收集分析中经常用到的command命令
wget
下载文件wget -O filename -c http://path
-O
设置下载路径和文件名字
-c
断点续传
-b
后台下载
axel
下载文件axel -n threads -o filename http://path
-n
设置线程数
-o
设置下载路径和文件名字
如果下载中断可以再执行下载命令即可恢复上次的下载进度。
curl
下载文件curl -o filename http://path
-o
设置下载路径和文件名字
-C
断点续传
fasta
文件提取1-22、X、Y、MT染色体的序列## 从 ensembl下载的序列取
seqkit grep -i -r -p '^[\dXY(MT)]+$' raw.fa > new.fa
## 从 ucsc下载的序列取需要添加chr
seqkit grep -i -r -p '^chr[\dXY(MT)]+$' raw.fa > new.fa
fasta
文件,保留chr1-22,X,Y,M的信息,并修改染色体名称## 从 ensembl下载的序列取
seqkit grep -j 20 -i -r -p '^[\dXY(MT)]+$' input.fa.gz | sed 's/>/>chr/g' | sed 's/chrMT/chrM/g' > input.filter_config.fa
GTF
文件,保留chr1-22,X,Y,M上的注释信息,并修改染色体名称## 从 ensembl下载的序列取
awk -v FS='\t' -v OFS='\t' '{if ($1~/^[0-9]+/||/#!/||/^[XY]+/||/^(MT)/) print $0}' input.gtf | sed 's/^/chr/g' | sed 's/^chr#/#/g' | sed 's/^chrMT/chrM/g' > input.filter_changed.gtf
## 查看测了多少染色体
samtools view H3_3.mLb.clN.sorted.bam | cut -f 3 | uniq
## 计算reference 序列长度
samtools faidx reference.fa
## 计算每个位点的深度
samtools depth H3_3.mLb.clN.sorted.bam > depth.txt
## 比对到参考基因组的位点的平均测序深度
awk '{sum+=$3} END {print "Mean sequencing depth: ", sum/NR}' depth.txt
## 统计基因组所有位点,包括未测到的位点的平均测序深度
samtools depth -aa H3_3.mLb.clN.sorted.bam > all_depth.txt
awk -F "\t" 'BEGIN{a = 0} {if($3 > 0) {a += $3}} END {print a/NR}' all_depth.txt
## 单末端测序量:reads长度 * reads个数
## 双末端测序量:单端reads长度 * 单端reads个数 * 2
## 计算read数据可用以下命令
fq=H31.R1.fastq.gz
read_len=100
read_num=$(zcat $fq | wc -l )
## GB
cexuliang=$(echo "scale=10;${read_num}* 2/4 * ${read_len} /1000000000" | bc)
samtools depth -aa H3_3.mLb.clN.sorted.bam > all_depth.txt
awk -F "\t" 'BEGIN{a = 0} {if($3 > 0) {a++}} END {print a/NR}' all_depth.txt
#!/bin/bash
echo ${BASH_SOURCE[0]}
echo ${BASH_SOURCE}
start=$(date +%s)
sleep 5
end=$(date +%s)
take=$(( end - start ))
echo Time taken to execute commands is ${take} seconds.
du -d 1 -h
ps -ef | grep 用户名 | grep 程序关键词 | awk '{print $2}' | xargs kill -9
jupyter notebook --no-browser --allow-root --port=8889
# 服务器端口映射本地端口
ssh -L port:localhost:port username@server.ip
# 如果分登录节点和运行结点,需要在登录节点再次映射
ssh -L port:localhost:port nodexx
# jupyter 设定端口
jupyter notebook --no-browser --allow-root --port=port
mart <- biomaRt::useMart("ENSEMBL_MART_ENSEMBL", dataset = "hsapiens_gene_ensembl", host = "useast.ensembl.org", port = 80)
attributes <- c(
"hgnc_symbol",
"chromosome_name",
"band",
"strand",
"start_position",
"end_position",
"ensembl_gene_id"
)
## 根据filters筛选values,这两个参数必不可少
result <- biomaRt::getBM(attributes = attributes, filters = "chromosome_name", values <- list(c(1:22, "X", "Y")), mart = mart, uniqueRows = T)