NEWEST /   

FindPeaksを使ってみる

コレ
http://www.bcgsc.ca/platform/bioinfo/software/findpeaks

ダウンロードして解凍するだけ。
Inputには、MaqフォーマットかELANDフォーマットのファイルが使用できます。

ELANDフォーマットファイルは、まず染色体毎に分割します。

% time java -jar SeparateElandReads.jar input_file.eland ./

カレントディレクトリに、各染色体毎の.gzファイルが作られます。
次が本番。

% time java -jar FindPeaks.jar -name test -dist_type 1 200 -minimum 1 -eff_size 1.8655e9 -output ./ -input ./*.part.eland.gz

マニュアルでは「-eff_size」でなく「-eff_frac」というオプションを使っていますが
バージョン3.1.9.2 のusageでは「-eff_sizeを使え」と言ってきます。
(当然の気もしますが・・・)
32bpまでのマッピングではゲノムサイズの70%をカバー ということらしいので、
mouseゲノムサイズ×0.7 の数値を入れます。

続きます


| BioInformatics::Software | 03:28 PM | comments (0) | trackback (x) |

SOAPの結果ファイルをELAND風に書き換え

perlスクリプトです。
ヒットが一カ所のものしか拾いません。
実行時、SOAP結果を引数に付けて下さい。
標準出力に結果を書き出すので、リダイレクトでファイルにするなりしてください。

例:
%soap2eland.pl test.soap.out > test.eland.out

#!/usr/bin/perl
while(<>) {
split;
if ($_[3] == 1) {
print "$_[0]¥t$_[1]¥t";
print "U0¥t";
print "1¥t0¥t0¥t";
print "$_[7]¥t";
print "$_[8]¥t";
$dir = $_[6] eq '+' ? 'F' : 'R';
print "$dir¥t";
print "¥.¥t¥n";
}
}


| BioInformatics::Software | 01:22 PM | comments (0) | trackback (x) |

NEWEST / PAGE TOP /   


ARCHIVES

<前月 2008年12月 次月>
  1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30 31    

CATEGORIES

OTHER