bioinfo

fastq_dump使用

Jeason

454字约2分钟

biosoftware

2023-04-15

fastq-dump是SRAtoolkit中使用频率很高的命令,用于从SRA文件中拆解提取fastq文件。具体用法如下:

Usage:
  fastq-dump [options] <path> [<path>...]
  fastq-dump [options] <accession>

Use option --help for more information

fastq-dump : 2.9.6

一般使用 fastq-dump的方式为

fastq-dump -s /path/to/xxx.sra

但是默认的参数往往结果并不理想,在此它会默认把结果全部保存在一个文件里,并且得到的结果并不是压缩文件,会对储存造成一定的困扰。因此在使用 fastq-dump时,需要注意参数的设置。主要有以下两点:

  1. read拆分

默认情况下 fastq-dump不对reads进行拆分, 对于很早之前的单端测序没有出现问题.但是对于双端测序而言,就会把原本的两条reads合并成一个,后续分析必然会出错。

常用的参数有三类:

  • --split-spot: 将双端测序分为两份,但是都放在同一个文件中
  • --split-files: 将双端测序分为两份,放在不同的文件,但是对于一方有而一方没有的reads直接丢弃
  • --split-3 : 将双端测序分为两份,放在不同的文件,但是对于一方有而一方没有的reads会单独放在一个文件夹里

在不确定是单末端还是双末端测序时,建议一律使用 --split-3

  1. 输出方式

fastq-dump默认输出的是未压缩文件,所以可以对文件进行压缩设置,减少储存空间:

  • --gzip, --bzip2: 压缩方式
  • -Z | --stdout : 输出到标准输出
  • -O|--outdir: 输出到指定文件夹

最后,通用的命令行可以写作:

fastq-dump -s /path/to/xxx.sra --split-3 --gzip -O /path/to/result