機械学習工学研究会夏合宿2022でMLインフラ運用WGを終了しました

2019年から土橋さん (@masaru_dobashi) と共同幹事をしていた、機械学習工学研究会 (MLSE) の「本番適用のためのインフラと運用WG」を、6月30日~7月2日に開催したMLSE夏合宿で終了しました。

2022年MLSE夏合宿での議論

今回の夏合宿では、過去開催してきた討論会やカンファレンスで上がっていた、本番適用をするための課題をリストアップし、現在も課題となっている部分を中心に議論をしました。

議論に使ったMuralはGitHubにexportしてあります。

https://github.com/mlse-jssst/InfraOpWGProceedings/blob/master/20220702_SummerCamp/MLSE_InfraOPWG_SummerCamp_Output.pdf

黄色以外の色のものは当日追加したトピック、左下の赤で囲まれた部分はさらにそのまとめになります。

活動をまとめていて気づいてきたのは、多くのMLOpsツールを提供するベンチャーやクラウドベンダーによって、自動化をするためのOSSやマネージドサービスはそろってきているものの、組織やプロジェクトのフェーズごとに必要なものが違ってくるということでした。

フェーズによるML基盤の変遷としては、Karteの基盤の変遷の話を思い出しました。

少人数でのML基盤としてはCADDiのマネージドな環境を駆使した基盤も参考になると思います。

また、組織やチーム作り自体が大きな障壁になりうる話も頻繁に聞いており、これは研究者的なモデル開発をする人と運用をするdeveloperをチームとしてどう構成すればいいのか、どうやってナレッジや成果物を共有すればいいのか(研究開発部門が子会社など)、チーム作りの課題が浮き彫りになりました。

あとは、機械学習やデータを活用したプロダクトづくりの文化の醸成も、銀の弾丸がない中で各社試行錯誤していることがうかがえました。これは、プロジェクトのKPI設計をビジネスサイドに理解してもらう難しさや、作り切りでOKだった従来型のソフトウェア製品とは違った変化に対応し続ける必要がある機械学習システムの「運用」の理解を得る難しさが課題に挙げられました。

振り返ってみて

企業の事業部門に在籍しながら3年というスパンで学会仕事をするのは、なかなか大変だったなというのを改めて実感しました。COVID-19による社会情勢の変化、海外移住(夏合宿のような長時間イベントは時差的に厳しい)など個人の状況の変化、会社のチームの異動(上司が変わるたびに説得をする必要がある)と、長期的に継続する社外活動というのは思うようには進まないものだなという当たり前のことを感じました。

もう一回程度、事例共有カンファレンスがしたかったですが、最近ではMLOps勉強会でそういった話が日本語でも展開されているので、そちらにも期待です。

今後について

今後は、(我々も事前にすり合わせたわけではないのですが)ちょうど杉山さんをはじめとする皆さんがこの夏合宿から開始した、機械学習オペレーションWGに引き継がれていきます。今後の活動が楽しみです。

過去の活動の様子

Aki Ariga
Aki Ariga
Principal Software Engineer

Interested in Machine Learning, ML Ops, and Data driven business. If you like my blog post, I’m glad if you can buy me a tea 😉

  Gift a cup of Tea

Related