GCG/blastホモロジー解析で使用するためのローカルデータファイルの作製方法
    赤字はターミナル上に入力するところです。)

方法 1 データベースを構成するファイル、および解析するファイルが同じディレクトリに存在する場合

方法 2 データベースを構成するファイルと解析するファイルが同じディレクトリに存在しない場合

****************************************************************************
方法 1 データベースを構成するファイル、および解析するファイルが同じディレクトリに存在する場合

 1.データベースを構成するファイル名を書いたテキストファイルを準備する。

    中身は下記のような書式で書きます。 一行に一ファイル名にしてください。
    このファイル名は何でも構いませんが、例えば data.list とでもしておきます。
    もちろんここで記述するファイル名は、同じディレクトリにあるものです。
    ls でファイルを表示し、コピーしてきてエディタなどで書き直すと良いでしょう。
 

    ..                   <===  ピリオド2つです。
        aa0001h.seq
        aa0002h.seq
        aa0003h.seq
        aa0004h.seq
        aa0005h.seq 
           :
        aa0120h.seq
 
 

 2.deta.list ファイルを FTP Explorer などを使って、列挙したファイルのあるディレクトリに移します。

 3.gcgtoblastコマンドを使ってデータベースを作ります。

   gcgtoblast リターン

 4.GCGToBLAST combines any set of GCG sequences into a database that you can
   search with BLAST.

    GCGTOBLAST of what input sequence(s) ?     と聞かれますので、

   @data.list リターン     <== ファイル名の前に @マークを付けるのを忘れないように!

 5. What should I call the database ?   と聞かれますので、データベースの名前を付けてください。
     
   aims-3rd リターン  (スペースはだめ、特殊な文字も入れない方が無難です。)

   データベースを構築するファイルを処理し、
     GCGTOBLAST complete:

             Sequences:
              Symbols:     などを表示して、プロンプトに戻ります。

 6.ls  してみると、
   aims-3rd.csq, aims-3rd.nhd, aims-3rd.ntb の3つのファイルができているはずです。
   
 7.では、blast で検索します。その際に、データベースをオプションで指定します。
    -infile2= データベース名 という記述になります。
      例えば、aa0005h.seq でホモロジーサーチをする場合

   blast -infile2=aims-3rd aa0005h.seq リターン

   デフォルトで処理すると、aa0005h.blastn に結果が出ます。

   アミノ酸配列を用いて処理すると、blastp という多分?拡張子になると思います。

    
 8.結果の表示を見て、対応するファイルを2つに分けてしまう、途中がXXXXXXで表示される
   His tag などのHHHHHH が認識されないという場合は、blast の後に、-nofil と書き加えて
   試してみてください。

   blast -nofli -infile2=aims-3rd aa0005h.seq リターン
 

****************************************************************************
方法 2 データベースを構成するファイルと解析するファイルが同じディレクトリに存在しない場合

 1.ホモロジー検索の対象(相手)となるデータベースを作るため、それらのファイルが入っている
   ディレクトリに移動し確認する。
   データベースを作製する際には、*.seq あるいは *.pep のように、拡張子が同じものをまとめて
   選択するので、データベースに入れたくないものは別のディレクトリに移しておくこと。
   拡張子が違うものは認識しないので、どちらでもよい。

 2.pwd リターン

   例えば、
   /USERS1/icms/miura/gcg/sequece/bacseq
   と、現在のディレクトリーが表示されます。 

 3.ホモロジーサーチを実行するワーキングディレクトリに移動します。 自分が調べたいファイルが
   あるところ、すなわち blast test.seq、あるいは blast test.pep 等として解析処理したい
   ディレクトリです。

 4.gcgtoblast /USERS1/icms/miura/gcg/sequece/bacseq/*.seq リターン

   2で調べたディレクトリおよびファイルを指定しています。
   *.seq は、bacseq ディレクトリ内にあるseqファイル全部の意味です。
   通常DNAの場合 *.seq タンパクの場合 *.pepとなります。

 5.What should I call the database ?
   と聞かれるので、自分で適当なデータベース名を付けてください。
   例えば、bacseqdata と名前を付けるのであれば、

   What should I call the database ? bacseqdata リターン

   何やらごちゃごちゃとシークエンスファイルを処理することでしょう。

 6.ls でファイル名を確認すると、
   bacseqdata.ahd   bacseqdata.atb   bacseqdata.bsq
   の3つのファイルができたはずです。

 7.fetch blast.sdbs リターン

 8.mule リターン

 9.cont + X   続けて cont + F

10.Find file: ~/gcg/test/
   (ここには現在のディレクトリが書かれているはずです。)
   それに続けて

   Find file: ~/gcg/test/blast.sdbs リターン

   すると、下記の文章がでると思います。

-------------------------------------------------------------------------
blast.sdbs May 10, 94

blast.rdbs, blast.ldbs, and blast.sdbs together identify the databases that
appear in the search set menu of BLAST.  Any of these can be provided by the
user as a local data file.

This file contains the databases available only at your site.  These may
include databases which individual users have compressed using GCGTOBLAST.

The first field is the base name of the database as it could be identified
on the command line of BLAST.  If the database is not in the directory whose
logical name is BLASTDB, then include the directory name in front of the
base name for the database.

The second field tells the type of sequences in
the database, 'p' for protein, 'n' for nucleotide.

Everything following these two fields is descriptive.

A '!' in front of the first field will suppress the display of that entry.

Database  Type Description  ..
-------------------------------------------------------------------------

11.カーソルを最終行  Database  Type Description  ..  以下に移動し、
       解析を行うディレクトリすなわち現在のディレクトリおよびデータベース名を
   書き込んでおきます。例えば
    --------------------------------------------------------------
       上 略
    Database  Type Description  ..

    /USERS1/icms/miura/gcg/test/bacseqdata n
    --------------------------------------------------------------
   最後の n は、nucleotide、 protein ならば p を、スペースを入れて書きます。

12.cont + X   続けて cont + S    ( saveされます。)

13.cont + X   続けて cont + C        ( exitされます。)

14.これで準備完了!あとは解析。

    blast test.seq リターンで test.seqのblastによるホモロジー解析が行えます。
   (タンパクであればもちろん blast test.pep です。)

   Please choose one (* 1 *): とデータベースを選択するように指示されますので、
       一番下に新たに加わったデータベース 23を入力すればあとは処理してくれます。

15.結果の表示を見て、対応するファイルを2つに分けてしまう、途中がXXXXXXで表示される
   His tag などのHHHHHH が認識されないという場合は、blast の後に、-nofil と書き加えて
   試してみてください。

     blast -nofil test.seq    
 

戻る


kmiura@@fujita-hu.ac.jp   (←@を一つ消してください)

Last update:03/07/2006