コンピュータで生物を理解するの履歴
なんで生物をコンピュータで理解する必要があるのか、ということをまず。
まだまだ博物学
博物学というのは
「こういう生き物がいる」
「こういう臓器がここにある」
「この細胞はこういうことをしてる」
というような現象の羅列。
生物は長い間博物学にとどまっていた。知らない事だらけだからとにかく集めようって。
でも、博物学は、「考える」パワーが足りてない。
法則じゃないから。
引力ていう法則を発見したら、ジャンプしたときどんぐらいで落ちるかを考えられる。
物理学はそういう演繹的パワーがある。
でも生物学では、未知の薬を飲んだらどうなっちゃうのかっていうのが分からない。
「やってみないとわからない」
にとどまってしまう。
「やんなくてもわかる」ようにしたい
だから生物学はとにかくやってみて現象を集めるということをしていたんだけど、
お金も時間もかかる。
たとえば遺伝子の機能を調べるのに、その遺伝子がないマウスをがんばって作って、
そのマウスの挙動を調べる「ノックアウト」って手法なんかがある。
マウスの身になると辛いが、研究者もそのあたりはもちろん分かっていながらも、
未来のためにマウスに協力していただいている。
でも「ああしたらこうなる」を考えられたら、
マウスも死ななくて済むし、新しい薬も考えられる。
なんとかできないものかな。
生物も結局物質なので
僕もあなたも電子と原子核からできています、という考え方があって、
人間をそういうものとして理解すればいい!というアプローチがある。
粒子の軌道の法則をみつけたシュレディンガーも死ぬ前に「これで生物わかるぜ」と言った。
だけど、そのためには、当たり前のことなんだけど、
僕らがどんな電子や原子核からできているのか
ということを正確に測定する必要があった。
X線や電子線をつかった結晶構造解析などが進んでいるが、これまた非常に時間がかかるのであった。
さらに、そこから計算するといっても、
ひとつのタンパク質の構造をシミュレーションするだけでも莫大な計算量で、
現行のコンピュータ能力ではまだまだ限界があった。
考える粒度をあげていけば
ということで、本当にミクロすぎるアプローチは、正確だがまだまだ険しい道のりだった。
だから、考える粒度を上げればいいだろうと思う。
例えばパソコンがなぜ動くのかということを考えるときに、
キーボードがプラスチックでできていてそのポリマーの結合状態がうんぬん、ということは
あまり重要ではないだろう。
マザーボードがあってハードディスクがあって、という機能ごとに考えていけばいいじゃんと。
じゃあ原子レベルまであげる
電子、原子核の次に小さい単位は原子であり、原子という機能毎に考えるという、
素人目に見たら「全然粒度あがってないだろ」というアプローチがある。
だがこれもまだ1つの細胞のシミュレーションすらできないし、
各分子がどういう位置にあるかという情報も必要になってくるため、
そういう測定も求められてくる。やっぱり難しい。
じゃあタンパク質、分子レベルで
そう。たとえばタンパク質はアミノ酸が連なってできているわけだが、
このひとつのアミノ酸を最小単位として考えるようなアプローチもあったりする。
ほかにも、タンパク質や分子を最小単位として考えるアプローチもある。
そうすると、とたんに構成要素が多くなって、これまた大変だ。
今までは最小単位が原子とかで、せいぜい20種類ぐらいだったが(生体内のは)
タンパク質となると万の桁であるし分子なんてもう星の数程ある。
これらの「関係」を考えるとその2乗のオーダーで存在する訳だから、
それらを全部測定しないといけないなんて至難の業だ。
結局、新しい事を実験なしで発見するのは難しい。
測定の力
つまり...だいたい分かってきたと思うけど、
生物学はいつも実験、測定によって知見を得てきたわけだ。
全体的な流れで見ると測定技術に依存して生物学は発達している。
夜中にガールフレンドとドライブデートしながらPCR法を発見したサーファーの
キャリーマリスは生物学に偉大な貢献をしたわけだ。
統計、情報の時代
で、測定技術が発達して、いろんな情報が得られるようになった。しかも大量に。
そこで統計学、情報学の出番である。
統計的にみてやる
法則がわかんなくても、数の偏りからなんらかの意味を見いだすのが統計学。
そう、生物データをそういうふうにして知見を得る事ができる。
いまなんかだとすべてのタンパク質がある細胞でどのぐらい生産されているのかという
情報が分かるので、そこから、どういう生体の経路が動いているかということが
わかるようになっている。
コンピュータサイエンス
たとえば今は我々のDNA配列をブチブチに切断したあとそれを読むという技術がある。
そのブチブチをつなぎ合わせるには情報学的アプローチが必要だ。
De brujinグラフなんかを用いて配列を推定したり、
「これがヒトゲノム配列だ」というものと照合するalignmentという方法を使ったりしてる。
つまり
基本的には「ああしたらこうなる」を理解したかったが、
それはまだまだコンピュータリソース依存、測定精度依存だった。
しかし、それでも測定技術がどんどん向上してデータが大量に得られたので、
それを処理するためにはコンピュータが不可欠になっている。
いつの日かコンピュータで生物現象を演繹できる時代がくるんだろうか....