Connect with us
ウェルグリーン・アイ株式会社
― WGIのAIテキストマイニング技術とAI解析技術による発現制御因子同定 ―
◆ 以下の文章中の「Task」のあとのアルファベット(例:
Task A
)は、
問い合わせフォーム
の「依頼内容」の記号(A~Q)に対応しています。
従来のシス因子予測法の問題点
従来、ゲノム内に高頻出するDNAモチーフの探索により、シス因子の探索がなされてきました。しかし、高頻出するモチーフの大半はシス因子ではないため、
従来法の予測結果の大半が偽陽性
です。
さらに、従来法では、高頻出するDNA配列パターンのアライメントから予測したシス因子配列をシーケンシャルロゴ(
下図
)によって表すことが広く行われています。
しかし、
下図
の場合、3サイト目(AまたはT)と4サイト目(GまたはT)にDNA多型があります。
シーケンシャルロゴ
を用いた時点で、この多型を示す2つのサイトから4つの組み合わせ(ハプロタイプ)があり得ることになります。
しかし、アライメントに用いられた配列群が
どのハプロタイプを保有するかの情報がシーケンシャルロゴでは失われます
。
この配列情報の損失は、ゲノムDNAデザインや転写因子予測などを非効率化するため、好ましくありません。
An Example of a Sequence Logo Representing the Predicted Cis-regulatory Elements
WGI独自のAI技術に基づく転写因子・シス因子の高精度予測(Task B, C, I)
WGIでは、発現制御因子(転写因子、シス因子)の情報を集積しています。
AIテキストマイニング(LA2K)技術
により取得した発現制御因子の知見(知識情報)では、因子を同定・推定した実験手法(プロモーター欠失解析、レポーターアッセイ、ChIP-seqなど)なども併記しているため、情報の信頼性も把握できます。
WGIでは、さらに、配列パターンに対するAI駆動型の配列解析技術を整備・活用し、シス因子配列と転写因子を予測可能としています(予測精度は生物種に依存します)。
◆WGI独自のAIテキストマイニング(LA2K)技術による発現制御因子の知見(知識情報)集積
WGIでは、
AIテキストマイニング(LA2K)技術
(Task B)、および、
マニュアルキュレーション
(Task C)により、遺伝子の発現を制御する転写因子・シス因子の情報を集積しています。
本情報には、発現制御因子を推定・同定した実験手法の情報(プロモーター欠失解析、レポーターアッセイ、ChIP-seqなど)なども含まれるため、因子情報の信頼性を評価できます。
◆WGI独自のAI駆動型配列解析技術による発現制御因子情報の集積
WGIでは、DNA配列パターンに対する独自のAI駆動型の解析技術を整備・活用し、遺伝子の発現を制御する転写因子・シス因子の情報を集積しています。
AI技術での予測精度は、生物種に依存します。
◆多数の遺伝子の生物学的関係性や生物学的機能、種内・種間ホモログなどの情報の統合化
遺伝子ネットワーク
(
下図
)や遺伝子-化合物(代謝産物)ネットワークなどを用いることで、ゲノムワイドな遺伝子の関係性であっても遺伝子や化合物の間の関係性を迅速・容易に把握可能となります。
ホモログ(
遺伝子ファミリー
)情報の活用により、遺伝子探索などが加速化されます
An Example of the Gene Network within a Species