サイエンスキャッスル研究費
中高生向けお知らせ
先生向け情報
口頭発表ダイジェスト
研究のヒント

バイオインフォマティクス研究が拓く、未来の医学研究への道【サイエンスキャッスル2023関東大会ダイジェスト】　

2024.05.31

次世代研究者達が躍動する中高生のための学会「サイエンスキャッスル」の様子や、現場の熱気をダイジェストでお届けします。今回は、サイエンスキャッスル2023関東大会の口頭発表演題にて最優秀賞を受賞した、角野陽奈美さん（三田国際学園高等学校2年）の発表の様子です！

※所属・学年は発表当時のもの

バイオインフォマティクスの魅力を伝えたい

こんにちは。三田国際学園高等学校の角野陽奈美と申します。私が好きなものは食肉と培養肉とタンパク質です。普段はアニメを見たり、東京大学で肉を作る研究をしています。
私の野望は「人類の叡智を統合し、科学技術を発展させること」です。今回のサイエンスキャッスルは、口頭とポスター発表を併せて合計131演題程あるそうですが、その131演題を独立させておくのはもったいない、それらをビッグデータとして捉えて、科学技術の発展に貢献したいと思っています。ビッグデータにおいて、生物学の情報を使うものを「バイオインフォマティクス」と言います。そのバイオインフォマティクスの魅力に魅せられて、私は本研究を始めました。この発表でその魅力を皆さんに伝えられれば嬉しいです。

未知のアミノ酸変異から疾患の発症を予測！？

私たちの生体情報がDNAで構成されているというのは、よく知られている話だと思います。DNAは転写・翻訳という過程を通しアミノ酸の配列を決めますが、そのアミノ酸の配列が置き換わってしまうことを「ミスセンス変異」といいます。

ミスセンス変異が起きてしまうと、アミノ酸配列がフォールディングした状態、つまり、タンパク質の構造や機能が変化することが知られています。ここに、例えば「お酒を飲みすぎた」「タバコを吸いすぎた」などの生活習慣要因が重なることで、私たちの疾患は発症したりしなかったりします。

現在、ミスセンス変異は遺伝子検査で診断することができます。これは、既存のデータベースに変異を照会し、そのデータを基に診断を行うという手法で行われていますが、「知られていない未知のアミノ酸変異については対応できない」という問題点があります。
そこで、本研究の目的をアミノ酸の変異と疾患発症の関連性を探り、未知のアミノ酸変異から疾患発症を予測することに定めました。
類似研究として、タンパク質の構造状況に特化した予測器など、一定の観点から行われているものは複数ありますが、いずれも完成形ではなく、他の見方やさらなる研究が必要とされています。

研究1：たんぱく質が機能する場所によって、疾患との関連が異なる

本研究では、主に3つのデータを用いて疾患関連予測を行いました。まず1つ目の仮説として、「タンパク質が機能する場所（局在）によって、疾患との関連が異なるのではないか」という仮説を立てました。本研究では、以下に示している、核、ミトコンドリア、細胞膜、細胞質、分泌質、小胞体、ゴルジ体という細胞小器官でタンパク質を分類し、それぞれ疾患との関連を調べました。

本研究で作り出した指標Pdというものをご説明させていただきます。Pdとは、「1つのアミノ酸変異が疾患発症に寄与する割合」のことです。例えば、あるアミノ酸XxxからYyyの変異が起こった場合、疾患と関連している数を全体の数で割ることで求められます。これを指標とし、先ほどの局在先ごとにこのPdの値を示したヒートマップを作成することで疾患関連を可視化しました。

以下がその結果となっています。先ほど紹介した7つの局在先のなかから、ここでは特に差が見られた2つを示します。Fig2がミトコンドリア、Fig3が核です。ミトコンドリアは疾患との関連性が高く、核は疾患との関連性が低いことがここから見受けられます。そしてFig4が、先ほど示した7つの局在先とその他の箱ひげ図でPd値の分布を示しています。ここから見ても分かるとおり、局在先によって疾患との関連性が異なることが分かったというのが、本研究の結果の一つです。

先ほどピックアップしたミトコンドリアと核、どちらも生命活動の根幹をなす細胞小器官ですが、ミトコンドリアに局在するタンパク質は変異に対する耐性がなく、核に局在するタンパクは耐性があると考えられます。この考察の一つとして、核には転写因子が多く局在するのですが、それらはDNAやRNAに結合するまで固有の立体構造を持たないため、疾患の発症要因の一つである構造変化が起きにくく、耐性を獲得したのではないかと考えています。

研究2：疾患発症を正しく予測する機械学習モデルの構築

続いて、「タンパク質のアミノ酸配列の保存性」「局在情報」「アミノ酸の変異の情報」「生物変化の情報」、そして先行研究でのモデルで多く使われている「構造情報」を用いて、未知のアミノ酸変異から疾患発症を予測する２つの機械学習モデルを構築しました。左に示しているものは【モデル1：構造情報を用いていない機械学習モデル】で、右に示しているのが【モデル2：構造情報を用いた機械学習モデル】です。未知のアミノ酸変異から疾患発症を予測したものの精度をTable2とTable4に示しています。モデル1では約82%の精度、構造情報を用いたモデル2は約81%の精度で、未知のアミノ酸変異から正しく疾患発症を予測できるという結果が得られました。

ここで驚くべきこととして、先行研究では構造情報を追加した方が精度が高くなっているのにもかかわらず、私が構築したモデルでは両者の精度が変わらなかったという予想外の結果が出ました。考察として、本研究ではタンパク質の二次構造を採用しており、タンパク質のアミノ酸配列から水素結合の推定アルゴリズムを用いて算出しています。しかし、構造がわかっていないタンパク質に対しては二次構造を算出できないためデータ数が減ってしまい、学習データにバイアスが生じた可能性があります。そのため、この点に関してはもう少し追加解析が必要で、今の時点で断定はできないと考えています。また、本研究のモデルの精度を先行研究と比較しました。Fig6が本研究のモデルのROCカーブ、Fig7が先行研究のROCカーブを示しています。数値が高いほど精度が良いことを表しており、本研究では約0.9、先行研究の最大は約0.87でとなっています。学習データは違いますが、本モデルも先行研究と遜色ない精度を持っていることが指摘されました。

医学の研究のための研究、そして臨床への応用へ

最後に、今後の展望をお話しします。まずバイオインフォマティクスの研究として、細胞内局在はどのように疾患発症と関連するのかということについて、今回作ったヒートマップの細分化、例えば今回はタンパク質の局在の情報しか使っていないのですが、複数の局在先への情報の付与や局在の機能との比較を行っていきたいと考えております。
また、本研究には2つの研究意義があると思っています。1つは研究のための研究。例えば医学の基礎研究や創薬研究のための研究です。もう1つは臨床への応用です。これら2つの目的に対して、構造情報を用いない予測モデルのブラッシュアップを行っていきたいと考えております。以上となります。ご清聴ありがとうございました。

質疑応答

飯田泰広（神奈川工科大学）：
発表ありがとうございます。お伺いしたいんですけれども。ミスセンス変異が入っている場所というのは、ランダムに考えているものなんですか、それとも活性部位に入っているということですか。

角野陽奈美：
活性部位に入っているものも、入っていないものもあります。ただ、活性部位に照らし合わせた解析を行ったところ、活性部位に入っているものがとても多いわけではなかったです。

飯田泰広（神奈川工科大学）：
臨床データを参考に研究しているんですか？

角野陽奈美：
はい。実際にアミノ酸の変異と疾患の関連が調べられているデータです。変異の情報と疾患を発症したか発症していないかというデータが集まっているデータベースを使っています。

西山哲史（株式会社リバネス）：
気になったのが、最初に話していた局在ごとのデータベースに登録されている変異の中で、局在ごとにバイアスがないかどうか。例えば、ミトコンドリアに関するデータの場合、そもそもその中で疾患の割合はどのくらいなのかといったように、大元のデータセットに関してバイアス入ってないかどうか、お聞きしたいなと。

角野陽奈美：
はい、ご質問ありがとうございます。確かにミトコンドリアに関しては総数がかなり少なく、具体的に数を述べさせていただきますと、核と細胞膜と細胞質は約1万5千個くらいのエントリーがあって、ミトコンドリアだと5千くらいのエントリーなので、確かにここで総数が違うため、バイアスがかかってしまったという可能性は確かに考えられます。

西山哲史（株式会社リバネス）：
そこはしっかりと再度検証が必要ですね。

角野陽奈美：
バイアスを考慮して、より細分化することで全体の数を揃えていきたいと考えております。

森下直樹（日本ハム株式会社）：
非常に面白い発表ありがとうございました。最終的なゴールについてなのですが、未知の疾患を予測するという話だったので、そのタンパク質の局在が分かる、アミノ酸が何に変化したかということが分かると、どれくらい疾患の発症率があるのかというのが予測できる。そういうモデルを作りたいというような考えで合っていますか？

角野陽奈美：
はい、その通りです。ご質問ありがとうございます。ここでも書いているのですが、構造情報を用いずに細胞内局在の情報を用いるという方法を、今後ブラッシュアップしていきたいと思っています。

花岡健二郎（慶應義塾大学）：
かなり専門的な発表だったので専門的な話をしようと思うんですけど、最終的にこう予測した後に、やはりサイエンスとしては検証しないといけなくなると思うんですけど、その辺については実際どういう実験をしたらいいのかという考えありますか。

角野陽奈美：
そうですね。ここに書いてある基礎研究や創薬研究の補助につながってくるかと思うんですが、例えば本研究で変異の場所を予測したとして、その場所に変異を起こすと本当に疾患になるのかというのを、実際にマウスを使った実験等を行って検証する必要があります。そうすると、例えば稀少疾患の発症メカニズムの解明につながるのかなと考えています。

花岡健二郎（慶應義塾大学）：
もし、大学とかに進んで、そういうことができる設備を手に入れたら、ぜひやってみたら面白いんじゃないかと思いました。

（※敬称略）