WGIロゴ
Connect with us

ウェルグリーン・アイ株式会社

― WGIのマニュアル・キュレーションにより、AIテキストマイニング(A2K/LA2K)結果を高精度化・高信頼度化 ―

◆ 以下の文章中の「Task」のあとのアルファベット(例:Task A)は、問い合わせフォームの「依頼内容」の記号(A~Q)に対応しています。

A2K/LA2K技術は計算機処理であるため、専門家による文献調査(マニュアルレビュー)と同等の精度を保証するものではありません。
◆A2Kの誤読事例

たとえば、ある文書(こちら)は以下の英文を含みます:
“However, all CI chondrite samples show evidence of extensive aqueous alteration on their parent asteroid(s)10,11, and although the presence of extra- terrestrial organic molecules has been demonstrated in these meteorites12–14, the question of how much of this alteration may be due to terrestrial contamination and weathering has not been resolved15–17.”

この文に対して、A2K解析を適用した結果、以下のA2K Descriptionが得られます:
Subject: "the presence of extra- terrestrial" » Action: "has been demonstrated" » Process: "in these meteorites12–14"

この結果では、Subject: "the presence of extra- terrestrial"において、organic moleculesが欠落しています。
また、Process: "in these meteorites12–14"の末尾の文字列(12-14)は論文中に記述されている引用文献番号です。 単語に数値が連続する場合、引用文献番号であるのか、遺伝子名などの固有名詞の一部であるのかの判別が困難です。

  • A2K技術の誤読では、このように、SubjectやProcessが名詞になっていないなど、容易に把握できるエラーが大半です。
  • WGIが提供する要約結果には、A2K Descriptionだけではなく、その原文も併記しています。
  • 出力結果に含まれる原文を参照することで、ユーザーは容易・迅速に正しい目的情報を取得できます(A2K/LA2K解析の対象は利用可能なテキスト情報に限ります)。
  • A2K技術の誤読は、学習データやA2K解析エンジンの改良により解消されると期待されます。

上記の文は以下の論文から引用・再構成しています: Gregorio et al., 2024, Nature Communications. DOI: 10.1038/s41467-024-51731-w
本内容は、Creative Commons Attribution 4.0 International (CC BY 4.0) ライセンスのもとに再利用および構造的再構成されたものです。

◆マニュアル・キュレーションにより、A2K/LA2K結果を高精度化・高信頼度化(Task C)
◆WGIの熟練キュレーターによるA2K Descriptionの高品質化

A2K Descriptionの出力リストに含まれる誤りは、専門家(キュレーター)によるマニュアル・キュレーションにより修正・高品質化できます。 WGIの熟練キュレーターは、手作業のみならず、Linux上での言語解析を適用し、膨大な出力リストを迅速・正確にハンドリングできます。 そのため、WGIのマニュアル・キュレーションのサービスにより、手作業よりも高速・正確に、冗長な出力結果の除去や誤りの修正などを実行し、 高品質な要約情報と統計処理結果を提供できます。

◆WGIのマニュアル・キュレーションによるA2K/LA2K解析結果の高品質化の事例

A2K解析の誤読例として、文書(こちら)のAbstract内の以下の文の場合を示します。
“Based on these observations, we conclude that overexpression of SiDHN gene can promote cold and drought tolerance of transgenic tomato plants by inhibiting cell membrane damage, protecting chloroplasts, and enhancing the reactive oxygen species scavenging capacity.”

現在リリースしているA2Kのバージョンでは、文中から以下のハイライト部分をA2K Descriptionとして抽出します。 しかし、文中における真の知識情報は、推定されたSubjcetとActionではなく、Processに内包されています。
“Based on these observations, Subject: we Action: conclude Process: that overexpression of SiDHN gene can promote cold and drought tolerance of transgenic tomato plants by inhibiting cell membrane damage, protecting chloroplasts, and enhancing the reactive oxygen species scavenging capacity.”

WGIのマニュアル・キュレーションのサービスでは、A2K/LA2Kのこのような誤読を手作業とLinuxを活用した高効率な言語処理より網羅的に検出し、次のように正しいA2K Descriptionに修正します。
“Based on these observations, we conclude that overexpression of Subject: SiDHN gene can Action: promote cold and Process: drought tolerance of transgenic tomato plants by inhibiting cell membrane damage, protecting chloroplasts, and enhancing the reactive oxygen species scavenging capacity.”

*ここで、Processに「cold and」を含めるか、または、この文から「cold tolerance of transgenic tomato」をProcessとする別のA2K Descriptionを抽出するかは、要約の方針によって異なります。

このように、誤読の可能性を含むA2K/LA2K解析結果に対して、WGIの熟練キュレーターによるエディティングを施すことで、信頼性の高い知識情報の要約を得ることができます。 その結果、プロジェクトの迅速な推進と卓越した成果の達成に直結する、現場で即時に活用可能な基盤情報を整備でき、競争力を強化できます。

— 上記の文は以下の論文のアブストラクトより引用しています:
Guo X, Zhang L, Wang X, Zhang M, Xi Y, Wang A, Zhu J. (2019)
Overexpression of Saussurea involucrata dehydrin gene SiDHN promotes cold and drought tolerance in transgenic tomato plants.
PLoS ONE 14(11): e0225090. https://doi.org/10.1371/journal.pone.0225090

本引用は、 Creative Commons 表示 4.0 国際ライセンス(CC BY 4.0) の下で提供されたオープンアクセス論文からの抜粋です。