企業がユーザを守るための学術データ公開

人工知能学会(以下JSAI)で発表された論文が、Pixivのデータを「晒した」ということで盛り上がっています。詳細は、以下のtogetterを見ていただければと思いますが、ざっくり言うとPixivで公開されていた女性向けランキングトップ10の二次創作小説(R-18)に対して「有害表現」を分類するという目的で、作者名とURLを論文に書いて炎上したということになります。

なお、以下のまとめの片方はコンテンツ提供側に、片方が学術的な立場に偏ったものになっています。今回、これに対して一つの解決策になるかもしれないと思い、自分の考えを書きます。

企業によるデータ公開の嬉しさ

私は、前職で主に大学などの公的な研究機関向けに自社のコンテンツを学術目的で提供するという取り組みを行っていました。詳細は、以下のブログを読んでいただければと思いますが、論文を書くためのデータを提供しますよ、という話でした。

【2017/05/27追記】
こちらでコメントいただいたのですが、PixivさんはfastTextの学習済みモデルを公開していますが、学習済みのモデルは利用できる用途が非常に限定されるので、多くの研究者にとってはあまり嬉しくありません。
【/追記】

前提としては、(Webサービスにはよくある話ですが)投稿していただいたコンテンツは会社に帰属するという規約ではあるものの、ユーザさんに対して不利益があってはいけない、という立場でデータ公開をしていました。

研究者へのメリットとしては、以下のような物を狙っていました。

  • 通常中の人しか手に入らない、まとまった量のデータが手に入る
  • 後発の研究に対して再現性を担保されている(標準的なデータセットたりうる)
  • チャンスが有れば、共同研究の糸口になる(資金獲得のルートを手に入れる)
  • クローラを書く時間を、研究に当てられる

特に一点目については、IT系の特定の大企業が情報を独占しており、それが外に出ることがまずない、という指摘がなされていますし、それも原因でアカデミアからどんどん優秀な研究者がGoogleやFacebookなどの企業に吸い込まれているという話もあります(個人的には、ユーザに有益なサービスを提供する事がデータを集める重要なポイントだとは思いますが)。以下の記事からも、データは新しい石油だという事がわかります。

もはや企業規模で判断できぬデータ時代の独占(写真=AP)
_グーグルなど「データの巨人」が小説『1984年』で描かれた管理社会をほうふつさせる世界を創り出している。大量のデータを武器に市場の動きを細かく把握。新興企業が参入できなくなる状態を危惧する声が出始め_mw.nikkei.com

一方、提供をしていた企業側としての狙いは以下のようなものでした。

  • 自社に関係のある研究を加速することで学術界に貢献をする・優秀な学生にリーチする
  • 最先端の技術を自社コンテンツに適用したものを、いち早く応用につなげる
  • コンテンツID、ユーザ名などをマスキングすることで、論文に対して直接的な情報を出さなくても良い
  • 自社のユーザが不利益を被るようなものをpublishさせない

この中でも特に最後のポイントについて書きたいと思います。

ユーザを守るためのデータ公開

あまりこの点については触れられることはなかったかもしれませんが、クックパッドでは論文投稿の前にドラフトを送ってもらうことを約束してデータ公開をしています。これは何のために行っているかというと、法的・広報的にNGなものがないか、ということもありますが、ユーザに対して不利益が生じることはないか、という事を確認するために確認をしていました。

例えば、「機械学習を使って、人の直感にあったマズイレシピランキングができました」という発表がもしあったとして、それに対して当然投稿者は不快な感情をいだきます。こうしたものに対して交渉するために、チェック機構が存在します。もし、手法が学術的に価値があったとしても「本当にマズイレシピでなければいけないのか。美味しいレシピランキングでも成立するのでは」などというように、本質に触れないポイントで改善の余地があるかもしれません。コンテンツ提供者にとって、投稿物は自身の表現の一つであり、プラットフォーム側は最大限それを尊重しなければいけません。学術向けにデータ公開することで、本丸である大切ユーザが離れては本末転倒です。

データ公開による利用側・提供側のコスト

こうした確認をするために投稿の数週間前に、原稿を送ってくださいと言っていたのですが、これは投稿者側にとっては負担が大きいです。ギリギリまで改善するのが当たり前な大学の研究者にとっては、そのとおりだと思います。これについては、データ公開企業の確認者はさらにギリギリの〆切の中改善案を提案しなければいけないことや、大企業の研究所では投稿の数週間前に、社外発表申請のためにドラフトを社内申請しなければいけないということもあるのを知っていただければと思います。

もう一つ、公開データを利用したい研究者に対する負荷として存在するのが、「研究科長の印鑑を押すこと」です。これは、良く「たかだかデータセット手に入れるために印鑑いるのだるいわー」と言われていたのですが、あくまで一種の契約を結ぶので、トラブル発生時に研究者(学生の場合もあります)に対して責任を問うのではなく、企業として組織同士で話せるようにという配慮の元、そういう条件を課していました(法務の人も交えてそういう立て付けにしました)。

結局、どういう形がいいのか?

ここは、はっきりいって企業側が最低限のコストを払えるかにかかってきます。体力がない企業にとってはできないというのは間違いありません。ですが、トレードオフを認識した上でも、ユーザを守るために敢えて利用条件を付与した上で公開するという方法もあるのではないか?と思い、今回の記事を書きました。

学術界としては野良でクローリングするよりも、公開データを使ったほうが再現性も保証されるので共通のベンチマーク対象になり、望ましいということがあります。そして、そちらを使うのが当たり前になるという効果が狙えます。

また、今回の論文をデータ公開されて自分が確認をしていれば、著者と事前に議論をして不快に思われる部分をどうにかできたんだろうなぁと思います。

JSAIについては、いつぞやの表紙問題も含めこういった炎上案件に対しては迅速に適切に対処してくれる学会だと思っています。無理はしないように、適切に対処されることを望んでいます。

Aki Ariga
Aki Ariga
Principal Software Engineer

Interested in Machine Learning, ML Ops, and Data driven business. If you like my blog post, I’m glad if you can buy me a tea 😉

  Gift a cup of Tea

Related