MIT の科学者が生物学研究用の AI モデルを生成できるシステムを構築
前の画像 次の画像
機械学習の専門知識がなくても機械学習モデルを構築することは可能ですか?
マサチューセッツ工科大学生物工学部の医療工学および科学のテルメール教授であり、健康における機械学習のためのアブドゥル・ラティフ・ジャミール・クリニック(ジャミール・クリニック)の生命科学学部長であるジム・コリンズ氏は、多くの同僚とともに、この取り組みに取り組むことを決意した。同様の難題に直面したときにこの問題が発生します。 彼らが提案したソリューションに関するオープンアクセス論文「BioAutoMATED」が、6 月 21 日に Cell Systems 誌に掲載されました。
科学や工学の研究室にとって、機械学習研究者の採用は時間と金銭的コストがかかるプロセスになる可能性があります。 機械学習の専門家がいても、適切なモデルを選択し、そのモデルのデータセットをフォーマットして微調整することは、モデルのパフォーマンスを劇的に変える可能性があり、多くの作業がかかります。
「あなたの機械学習プロジェクトでは、データの準備と変換に通常どれくらいの時間を費やしますか?」 機械学習 (ML) の基礎に関する 2022 年の Google コースに質問します。 提供される 2 つの選択肢は、「プロジェクト時間の半分未満」または「プロジェクト時間の半分以上」です。 後者を推測したなら、それは正しいでしょう。 Google は、プロジェクト時間の 80% 以上がデータのフォーマットにかかると述べていますが、これには機械学習の観点から問題を組み立てるのに必要な時間さえ考慮されていません。
「データセットに適切なモデルを見つけ出すには何週間もかかるでしょう。これは、機械学習や生物学を使用したいと考えている多くの人々にとって、非常に法外なステップです」と博士課程 5 年生のジャクリーン ヴァレリは言います。コリンズ研究室の生物工学の博士であり、論文の最初の共著者である。
BioAutoMATED は、特定のデータセットに適切なモデルを選択して構築できる自動機械学習システムであり、データの前処理という骨の折れるタスクを処理して、数か月に及ぶプロセスをわずか数時間に短縮することもできます。 自動機械学習 (AutoML) システムはまだ開発の比較的初期段階にあり、現在の使用は主に画像とテキストの認識に焦点を当てていますが、生物学の下位分野ではほとんど使用されていないと、最初の共著者でありジャミールクリニック博士研究員のルイス・ソーンクセン博士が指摘しています'20年。
「生物学の基本言語は配列に基づいています」と、MIT 機械工学科で博士号を取得した Soenksen 氏は説明します。 「DNA、RNA、タンパク質、グリカンなどの生物学的配列には、アルファベットのように本質的に標準化されているという驚くべき情報特性があります。 AutoML ツールの多くはテキスト用に開発されているため、それを [生物学的] シーケンスに拡張することは理にかなっています。」
さらに、ほとんどの AutoML ツールは、縮小されたタイプのモデルのみを探索および構築できます。 「しかし、どのモデルがデータセットに最適であるかをプロジェクトの開始時点から実際に知ることはできません」と Valeri 氏は言います。 「1 つの包括的なツールの下に複数のツールを組み込むことで、個々の AutoML ツールが単独で達成できるよりもはるかに大きな検索スペースが可能になります。」
BioAutoMATED の教師あり ML モデルのレパートリーには、バイナリ分類モデル (データを 2 つのクラスに分割)、多クラス分類モデル (データを複数のクラスに分割)、回帰モデル (連続数値の適合または数値間の主要な関係の強度の測定) の 3 つのタイプが含まれます。変数)。 BioAutoMATED は、選択したモデルを適切にトレーニングするために必要なデータ量の決定にも役立ちます。
「私たちのツールは、より小規模でまばらな生物学的データセットやより複雑なニューラル ネットワークに適したモデルを探索します。」とヴァレリ氏は言います。これは、機械学習の問題に適しているかどうかわからない新しいデータを扱う研究グループにとって利点です。 。
「生物学と機械学習の交差点で斬新で成功した実験を実施するには、多額の費用がかかる可能性があります。現在、生物学中心の研究室は、実験を行う前に、大規模なデジタル インフラストラクチャと AI-ML の訓練を受けた人材に投資する必要があります」と Soenksen 氏は説明します。彼らのアイデアが実現する準備ができているかどうかを確認してください。 私たちは生物学の専門家にとって、こうした障壁を低くしたいと考えています。」 BioAutoMATED を使用すると、研究者は初期実験を自由に実行して、さらなる実験のために別のモデルを構築するために機械学習の専門家を雇う価値があるかどうかを評価できます。