◆ 以下の文章中の「Task」のあとのアルファベット(例:Task A)は、 問い合わせフォームの「依頼内容」の記号(A~Q)に対応しています。
営利・非営利・分野を問わず、プロジェクトの成否は、競合プロジェクトと比較して、 より優位性・新規性・独自性のある成果を、より高速・低コストで導出できるかが鍵となります。 そのため、プロジェクトの戦略立案段階から完了に至るまで、目的や実施内容が類似する他のプロジェクトの情報を継続的に収集・比較解析することが求められます。 そして、収集情報に基づき自身のプロジェクトの実施内容の妥当性を評価し、必要に応じて方針転換などを臨機応変・迅速に行うことが不可欠です。
A2K技術を用いることで、注目用語(プロジェクトの関心領域、例:地球外有機物、乳がん抑制遺伝子)に関連する英文テキストの網羅的な収集と
英文の基本構造解析(SVO、SVCなど)が自動実行され、注目用語を含む文の要約結果が高精度・高速にリスト化されます。
利用可能な大量の英文テキスト(Web上の情報や電子ファイル)を機械的に一括処理するため、必要とする情報を包括的・効率的に収集・集積できます。
A2Kの出力結果は「A2K Description」と呼ばれる形式で記述され、
Subject、Action、Processの3要素で構成されます。
たとえば、宇宙物理学研究者が「hayabusa」「ryugu」「organic」の3つの用語に着目した場合、多数の文書がA2K解析の対象となりますが、
その1つの文書(こちら)のテキストは約8500単語(11ページ)で記述されています。
この文書の場合、A2K解析により、文書全体がわずか約150個のA2K Descriptionに要約され、研究者自身が論文全体を読解するマニュアルレビュー(文献調査)と比較して、
情報収集に要する時間と労力を著しく削減できます。
A2K Descriptionの抽出例を示します。たとえば、この文書は以下の英文を含みます:
“Hayabusa2 spacecraft collected surface regolith particles from Ryugu in two separate touchdown events, which were stored in collection chambers A and C of the spacecraft’s sample catcher.”
この文に対して、以下のA2K Descriptionが得られます:
Subject: "Hayabusa2 spacecraft" » Action: "collected" » Process: "surface regolith particles from Ryugu in two separate touchdown events"
A2K/LA2K技術は計算機処理であるため、専門家によるマニュアルレビューと同じ精度で文章読解ができません。
たとえば、ある文書(こちら)は以下の英文を含みます:
“However, all CI chondrite samples show evidence of extensive aqueous alteration on their parent asteroid(s)10,11,
and although the presence of extra- terrestrial organic molecules has been demonstrated in these meteorites12–14,
the question of how much of this alteration may be due to terrestrial contamination and weathering has not been resolved15–17.”
この文に対して、A2K解析を適用した結果、以下のA2K Descriptionが得られます:
Subject: "the presence of extra- terrestrial" » Action: "has been demonstrated" »
Process: "in these meteorites12–14"
この結果では、Subject: "the presence of extra- terrestrial"において、organic moleculesが欠落しています。
また、Process: "in these meteorites12–14"の末尾の文字列(12-14)は論文中に記述されている引用文献番号であり、要約する上では不要な文字列です。
このように、単語の末尾に数字が存在する場合、その数字(xyz1の1など)が引用文献番号を表すのか、遺伝子名などの固有名詞の一部であるのかなどの判断は、専門家にとっては容易ですが、計算機には困難です。
今後、このような構造解析の誤りは、学習データやA2K解析エンジンの改良により解消されると期待されます。
A2K Descriptionの出力リストに含まれる誤りは、テキストマイニングの専門家(キュレーター)によるマニュアル・キュレーションにより修正し、
出力リストを高品質化できます。
ここで、調査対象となったすべての論文を解析する場合、A2K Description出力結果が膨大となることも多く、結果全体の高品質化が困難となります。
そこで、WGIでは、膨大な出力リストを高品質化するために、
WGIの熟練キュレーターが、手作業のみならず、Linuxを用いた言語解析により冗長な出力結果の除去や誤りの修正などを迅速・正確に実行しています。
このWGIのマニュアル・キュレーションのサービスにより、高品質なA2K/LA2K解析結果を提供できます。
一般的に、情報収集の作業は、Web検索などでテキストや文書を収集し、
プロジェクト推進者(専門家、研究者、技術員)がそれらのテキストを読解する文献調査(マニュアルレビュー)を通して行われています。
ここで、計算機と解析手法の発展により、テキストを計算機が読解する自然言語処理(NLP:Natural Language Processing)技術が利用可能となっています。
しかし、一般的なNLPツールの多くは、計算機処理により多数の文書を高速処理ができますが、その精度や出力形式に問題があります。
たとえば、注目用語に関する情報の要約を抽出することができず、注目用語を含む英文全体を出力するに留まっているため、ユーザーは注目用語の関連情報を瞬時に把握できません。
そこで、WGIでは、遺伝子機能情報を高効率・高精度に収集することを目的とし、AI駆動型テキストマイニング技術(A2K技術)を開発しました。
以下、マニュアル・キュレーションとA2K技術、LA2K技術を比較した表を示します。
RNA-seqビッグデータに対するWGI独自の解析手法による高精度遺伝子探索が可能です。
オンライン上に蓄積するRNA-Seqデータは、学術的に価値がある一方で、
RNAのサンプリング条件(実験条件)の記述がデータ登録者に委ねられているため、
実験条件が同一・類似であっても、登録者間で異なる用語で記述していることも多く(例:cold treatment, low temperatureなど)、
公共データベースから目的の実験条件のRNA-seqデータを網羅的に検索することが困難です。
公共データベースでは、RNA-seqデータとは別に、実験条件の記述・登録がなされており、
実験条件の情報には、RNAサンプルの由来(実験材料、生育時期、部位、実験処理など)やシークエンシング手法などが含まれます。
この実験条件の記述も登録者に委ねられているため、記述の質と量は玉石混交であり、
ダウンロードしたRNA-seqデータを正確に比較解析するには、事前にすべてのデータの実験条件の調査が必須となります。
しかし、公共データベースから多数のRNA-seqデータを取得・解析して論文化している場合、
この詳細な実験条件を調査することなく、DEG探索などを実行しているケースが多数あります。
実験条件を顧みることなく実施した遺伝子探索は、科学的根拠が不明確であり、妥当な研究手法とは言えません。
たとえば、イネの短日条件と長日条件のRNA-seqデータをデータベースからダウンロードし、2つの実験条件間での遺伝子発現量を比較する場合、
短日条件と長日条件のデータが異なる実験プロジェクトに由来するといった理由などから、条件間でRNAのサンプリングの時期・時刻・部位・気温・湿度、さらに、実験材料(系統・品種・雑種後代)が異なる(ゲノムが異なる)場合があります。
日長条件以外の条件が異なると、日長条件の影響を正しく解明できません。
公共データベースの多数のRNA-seqデータを利用した従来研究の多くは、各RNA-seq実験の詳細な実験条件を顧みることなく解析を実施しているため、
結果の妥当性が不明です。
しかしながら、ダウンロードした多数のRNA-seqデータの実験条件の記述をすべて読解・調査することは、時間的・労力的・コスト的に困難です。
そこで、WGIでは、オンライン上のRNA-Seqデータを収集した後に、各Runの実験条件の記述に対するマニュアル・キュレーションにより、
各RNA-seqデータに対して実験条件を表すオントロジーを付与すると共に、実験材料、RNAサンプリング条件を記述しなおすことで、
RNA-seqビッグデータをメタデータ化し続けています。
このオントロジーを用いたRNA-seqビッグデータのメタデータ化により、同一の実験条件が異なる用語で登録されていた場合でも、
付与されるオントロジー用語は同一となるため、メタデータを用いることで目的の実験条件のRNA-seqデータの
網羅的・正確な抽出が初めて可能となります。
オントロジーに加えて、RNAサンプリング条件などの情報も用いて、比較解析に用いるRNA-seqデータを正確・迅速に選抜できます。
解析対象とするRNA-Seqデータの決定により、遺伝子発現行列(各行に遺伝子、各列にRun、要素に遺伝子発現量)を取得できます。
プロファイルが類似する遺伝子群は、関与する生物学的プロセス(開花促進、ストレス応答など)が同一である遺伝子群、
または、同一の転写因子によって発現制御される遺伝子群などと推察できます。
たとえば、受精において配偶子融合時に機能する遺伝子が1つ解明されている場合、その遺伝子と発現プロファイルが類似する遺伝子群を探索することにより、
配偶子融合において共働する候補遺伝子群を同定できます。
同様に、代謝解析においても、ある代謝産物を生成する酵素遺伝子が既知である場合、その遺伝子の発現プロファイル情報を用いて、未解明の共働する酵素遺伝子群の探索が可能となります。
既知の遺伝子が存在しない場合でも、プロファイルが類似すると判定された同一グループに属する各遺伝子の機能情報や発現部位・時期などの情報、
また、シス因子・転写因子といった発現制御情報を相互参照することにより、その遺伝子グループが担う生物学的機能の予測などを加速化できます。
一般的に、ある遺伝子群が担う機能を推定する場面では、GOエンリッチメント解析が広く用いられています。
しかし、各遺伝子のGO termの予測は配列の類似性に基づくため信頼性に欠けます。
さらに、ある遺伝子群に統計的に有意に高頻出(エンリッチ)するGO termを定義する際に、ゲノム内の全遺伝子のGO termの頻度分布との比較が広く行われています。
しかし、生物学的に、高等生物種のゲノム内の全遺伝子が単一細胞内で同時発現することはありえません(栄養成長・生殖成長、雌雄特異的な生殖活動などで発現遺伝子が異なる)。
比較したい遺伝子群と同数の遺伝子群をゲノム内から無作為抽出する手法などもありますが、分子遺伝学分野における遺伝子発見の進展が限定的であるという現状をふまえると、
遺伝子発見のための手法として有効な手段とは言えません。
このことから、GOエンリッチメント解析結果は、参考情報にはなっても、遺伝子機能推定や遺伝子探索の決定的な根拠としては不適格です。
プロファイルが相反する遺伝子群は、負のフィードバックの関係にある遺伝子群と推察されます。
また、プロファイルが相反する遺伝子群が、同一の代謝前駆体を基質とする異なる酵素をコードしている場合、
酵素活性(遺伝子発現量)の高い酵素ほど前駆体化合物を優先的に消費するため、
酵素遺伝子間に酵素活性の差異がある場合には、前駆体の利用においてトレードオフ(相反関係)が生じる可能性があります。
このようなプロファイルの相反性に関する情報は、負のフィードバック機構の解明や、同一の前駆体に作用する酵素遺伝子群の同定などに有効です。
従来、相関係数によって、プロファイルが類似・相反する遺伝子群が推定されてきましたが、
発現プロファイルに外れ値をもつ遺伝子も多く、相関係数の値では正確な同定ができません。
結果として、相関係数を元に推定された遺伝子群には偽陽性が多く含まれます。
WGIでは、独自の最先端のデータサイエンス x AI手法を活用し、RNA-Seqデータから、発現プロファイルが類似・相反する遺伝子群を高精度に探索するサービスを提供しています。
さらに、多数の遺伝子の関係性を容易に俯瞰するための遺伝子ネットワークの構築や、遺伝子機能の推定を促進する多面的な情報を提供します。
たとえば、RNA-Seq解析結果を、高信頼度な遺伝子機能情報(生物学的機能の知識情報(詳細はこちら)、
転写因子情報(詳細はこちら)など)、遺伝子ファミリー情報(詳細はこちら)と統合活用することにより、
より高速・高精度な遺伝子探索が可能となります。
ホモログ遺伝子は、遺伝子の発現制御機構や生物学的機能が類似する場合が多く、遺伝子探索に有用な情報となります。
従来、配列相同性検索により遺伝子ファミリー(ホモログ遺伝子分類)が構築されてきましたが、タンパク質機能ドメインの共有性を検証しない手法であるため、正確な遺伝子分類は不可能です。
WGIでは、タンパク質機能ドメインの組み合わせやドメインの位置情報などを考慮したドメイン保存性を表す指標を構築し、
それらの指標に基づく種内・種間のタンパク質コード遺伝子群の大規模ファミリー分類を実施してきました。
同一ファミリーに属する遺伝子の発現制御機構や発現プロファイル、生物学的機能の知識情報などを相互参照することにより、遺伝子の機能推定や遺伝子探索が加速化されます。
この情報活用では、膨大な情報を効率的にハンドリング可能とするネットワーク解析が極めて有効な手段であり、
WGIでは、あらゆるオミックス情報や知識情報を統合したネットワークを構築し、汎用的なフリーソフトウェアで編集可能なフォーマットでネットワーク情報を提供します。
WGIでは、LA2K技術とマニュアル・キュレーションによる転写因子・シス因子に関する情報収集に加えて 転写因子・シス因子を同定するためのAI技術(精度は種に依存)も整備しています。 これらの遺伝子発現制御に関する情報を用いることで、たとえば、ゲノム編集によるノックアウト系統を高効率で作出するためのgRNA配列デザインなどが容易となります。
WGIでは、オフターゲットがない、または、極めて少ないgRNAデザインのための解析パイプラインを整備しています。 さらに、改変対象とする遺伝子が複数個存在する場合、複数の遺伝子に対して同時に変異を誘導し、かつ、オフターゲットがない(または少ない)gRNAデザインも可能です。
テキストマイニングとバイオインフォマティクスに関わるあらゆるご相談・解析を安価にて承ります。
テキストマイニングやバイオインフォマティクスの専門知識が無く、どこから手を付けて良いか分からない、
どの解析手法を用いるべきか分からないといったお悩みを解決いたします。
研究立案・推進時などの解析方針についてアイディア提供・スキル提供、単発型の情報解析、
データベース・知識ベース構築、LIMS/FIMS構築、研究室内でのバイオインフォマティクス解析基盤の導入支援・人材育成、顧問(月間~年間など)、講習・講演、
テキストマイニングやバイオインフォマティクスに関わるあらゆるご要望・研究推進を支援いたします。
バイオインフォマティクスを専門・活用する分野での大学院進学について、専門知識の修得や進学準備をサポートいたします。
使用言語は、日本語および英語となります。
納期や研究計画、ご予算などのご要望に応じて最大・高品質なサービスをご提供いたします。
納品は、解析結果などを電子ファイルとしてオンラインで提供いたします。
お支払いは、銀行振り込みとなります。