GCG使用に際してその他いろいろ、、、、



1. GCGで使うファイル形式
2. ディレクトリーを作って階層構造にし、ファイルを整理しましょう。
3. 各自使用の端末コンピュータとのファイルのやりとり。
4. 他のマシンから移動したファイルの変換。
5. GCGで解析したファイルの印刷
6. ローカルデータベースを作製し、GCG/blastでホモロジー解析する方法
7. Pileupで系統樹を作製する方法



1. GCGで使うファイル形式

 まず使用するファイル形式ですが、GCGで解析するためにはGCG formatのファイル形式になっている必要があります。GenBank等からデータファイルを取得した場合は、ファイル形式を変更する必要がありますが、それについては4.を読んでいただくこととし、ここではseqed などのコマンドでシークエンスデータを入力した時やファイルを転送し、新たなファイル名をつける際の注意について説明します。

 GCG解析処理上での基本のファイル名の形は、例えば abcde.○○○ (abcde と○○○ の間にピリオドが入っています。 ) となります。 ピリオドをはさんで前半は自分の好きな名前を、後半は拡張子と呼ばれるファイルの種類を示す文字を付けます。文字はアルファベットの a から z までと数字(0は避けた方がよい)、- は使用可能ですが、記号の中には使えないものもあります。スペースもエラーとなりますので使えません。トラブルを避けるため、通常はアルファベットと数字のみにしておいた方が無難だと思います。大文字、小文字は別のものと認識しますのでどちらを使われても構いませんが、混在すると入力が面倒になりますし、GCGのコマンドは小文字でしか認識しませんので、小文字のみを使用されることをお勧めします。文字数に関してはありませんが、あまり長くても入力が面倒ですので、前半部は8文字程度以内、後半部の拡張子は3文字程度にされる方が使いやすいと思います。拡張子は、それを見ることによりGCGの何のファイルかわかるようになっています。seqedでシークエンスを入れるものとしては、塩基配列とアミノ酸配列がありますが、それぞれ seq と pep にしておく方が良いでしょう。seqファイルなどを元に解析すると、結果は新たなファイルとして保存されます。 test.seq をmap というコマンドで処理しようとすると、「 What should I call the output file (* test.map *) ? 」 と聞いてきます。そのままリターンすると test.map に保存されます。このようにGCGがデフォルトで指示してきたものは、そのまま受け入れる方が良いと思います。ただすでに同じファイル名があると上書きされますので、前のを残しておきたい場合は、 test2.map などのようにピリオドの前を変えるようにしてください。



2. ディレクトリーを作って階層構造にし、ファイルを整理しましょう。

 1.でも書きましたが、GCGでデータ解析を行いますと、次々に新たなファイルができてきます。例えばabcd.seq という塩基配列の制限酵素地図を調べますと、abcd.map というファイルができますし、アミノ酸配列に変換しますと、abcd.pep というファイルができます。つまり解析処理をする段階で、特に自分で名前を付けずにデフォルト行った場合は、拡張子(ピリオドをはさんで右側)だけが変わって新たなファイルが保存されます。そのため使いだしますとあっという間に多くのファイルが一つのディレクトリー内に存在することになります。
 そこでデータを整理するためには、例えば研究内容に応じて、ディレクトリーを分けておく方が便利だと思います。ディレクトリーはWindows や Mac でのフォルダと同じものです。 UNIXのコマンドのページに書かれている mkdir, cp, mv, cd などのコマンドを使ってディレクトリーを作成し、ファイルを整理しましょう。
 ファイルの扱い方に関しての質問などは、ニュースグループ fujita.general にて相談してください。

3. 各自使用の端末コンピュータとのファイルのやりとり。
 GCGで解析したデータを、自分のマシンに持っていく、あるいは自分のマシン上の塩基配列をGCGで解析したい。といったときには、ファイルを転送することができるソフト、例えばWindows95ですと、WIN FTP, あるいは FTP Explorer, MacですとFetchなどのソフトを使って移動します。 
   WIN FTP の使い方は、    ここ
   FTP Explorer の使い方は、 ここ     にあります。
   Fetch の使い方は、     ここ、           

接続するホストは、ftp.fujita-hu.ac.jp 、Login は User名Password は各自のパスワード自分のフォルダに接続することができます。あとはフォルダ、ファイルを選択して、ダウンロードあるいはアップロードしてください。


4. 他のマシンから移動したファイルの変換。
 Fetchコマンドで fujita net 上にあるデータベースから落としたファイルはそのままGCGで解析できますが、DNAシークエンサーで決めた配列を解析したい場合、あるいは、最新のGenbank のファイルなどを使いたい場合は、そのままではGCGの解析はできません。そのためにはGCG format と呼ばれるファイル形式に変換する必要があります。

 まず各自の端末マシン、あるいはDNAシークエンサーの制御マシンからのシークエンスデータをGCGで解析する場合ですが、ファイルの変換をしなければいけません。まず転送するファイルが、配列情報だけのテキストファイルの場合について説明します。この場合は、転送後 reformat というコマンドで処理するとGCGで認識され、解析できるようになります。abcd.seq というテキストファイルでしたら、reformat abcd.seq と書き、リターンでOKです。

 次に例えばGenbank Database (Entrez) から最新 のデータを取得し、それをGCGで解析したい場合についてですが、上記のreformat コマンドではダメです。Genbank のデータをテキストファイルとして保存し、それを転送するところまでは同じですが、ファイルを変換するためには、fromgenbank というコマンドを使用します。 efgh.txt というファイルを転送したとしますと、fromgenbank efgh.txt でリターンすると、元々Genbankで登録されたファイル名で新たにファイルが保存されます。abcdefg1.seq などのファイルが確認できると思います。そのファイルは、GCGので認識され、解析できるようになります。ファイル名が好みでない場合は、mv コマンドを使って名前を変えましょう

 SwissProtPIRからのデータ変換にも別のコマンドが必要です。SwissProt のデータは、fromembl を使い、PIR のデータには、frompirを使います。 どちらも上記 fromgenbank と同じように行うと、新たなファイルが保存されます。ファイル名が長くなっていることも多いので、自分で名前を変えましょう。
 


5.GCGで解析したファイルの印刷
 GCGで解析したファイルは、cat コマンド、あるいは more コマンドでターミナル上に表示、プリントしたい範囲をマウスで選択し、そのソフトのプリント機能で「選択した部分」というところを選んだ後、印刷します。ターミナルのスクロールできる範囲が狭いと印刷したいところが表示できない場合もありますが、その時はターミナルソフトの設定を変えてみましょう。
 またファイルが非常に大きい場合は、2.に書いてある方法でファイルをダウンロードし、適当なソフトを用いて開き、プリントしましょう。解析データはテキストファイルですので、エディタでもワープロソフトでも開きます。フォントは固定幅フォントを選び、サイズも12以下のものを選ぶときれいに見えると思います。

 GCGで解析した結果の中で、mapplot コマンド、dotplot コマンド、plotstructure コマンド、plotfold コマンドからの結果などのように、プロッターに出力するものはすぐにはプリントアウトできません。自分のコンピュータからプリントアウトすることは可能ですが、出力するプリンタがPostscript プリンタであること、また特別なソフトの準備や設定が必要です。詳しくは、こちらをご覧ください。 ここを読んでもわからない方は、ニュースグループ fujita.general にて相談してください。
 


6.ローカルデータベースを作製し、GCG/blastでホモロジー解析する方法
 シークエンスにより得た多数のデータやデータベースから抽出した多数のファイルに対して、一つの配列のホモロジー解析をする場合、ローカルデータを作製した後、blastコマンドを動かす必要があります。
詳しくはこちらをご覧下さい。

 ローカルデータベースを作成し、それに対して複数のファイルのホモロジー検索を自動で行うことができます。
一 対 多 ではなくて、多 対 多 のホモロジー検索ということになります。
詳しくはこちらをご覧ください。


7.Pileupで系統樹を作製する方法
 類似の配列をもつものを、マルチプルアラインメントするコマンドはpileupですが、その際にあらかじめPSファイルを取得できるように設定しておくことで、系統樹を得ることができます。まず設定に関しましては、こちらの2をご覧下さい。
設定後、例えば pileup -psinclude *.pep リターン で、そのディレクトリ内にあるpepファイル全てを対象にした解析が行われます。 マルチプルアラインメントされたデータは、pileup.msfファイルとして、系統樹は pileup.PSファイルとして保存されています。 pileup.PSファイルのプリントについては、上記5および詳細説明をご覧下さい。


戻る


kmiura@@fujita-hu.ac.jp   (←@を一つ消してください)

Last update:03/07/2006