Executando muitas amostras
Executar o pipeline em algumas amostras é relativamente simples, mas quando precisamos executá-lo em centenas de amostras pode ser um pouco complicado digitar todos os comandos. Para esse propósito, é uma boa ideia escrever um script de wrapper para lidar com a execução.
Como exemplo, vamos supor que você tenha os seguintes arquivos:
Primeiro, precisaremos criar uma lista dos prefixos de amostra que você gostaria de executar. Para fazer isso, podemos executar o seguinte comando.
Isso colocará todos os prefixos de arquivo em um arquivo chamado samples.txt. Podemos então usar em paralelo para executar nosso comando tb-profiler para cada amostra no arquivo como este. Antes de executar o tb-profiler, devemos criar as pastas onde ele armazenará os arquivos bam, vcf e os resultados. Temos que fazer isso porque, caso contrário, as várias instâncias do tb-profiler executadas em paralelo irão todas tentar criar as mesmas pastas ao mesmo tempo e você terá um erro.
Agora estamos prontos para executar tb-profiler em paralelo.
Você pode ajustar o parâmetro -j
para permitir que mais trabalhos sejam executados em paralelo. Eu defini isso para 2, mas se você tiver um HPC ou computador poderoso, você pode aumentá-lo.
Last updated