第2回キャリアアップ講座「データサイエンティストのお仕事 -データサイエンティストは会社でどう働いているのか」を開催しました。
各地の大学で文部科学省認定のコースができたり、その名前を冠した学部・学科ができるなど「データサイエンス」とそれを実践する新しい職業「データサイエンティスト」が注目されています。
しかし、その実態は……というと、多くの大学生・高校生は知らないかもしれません。
7月23日(土)、ICTクラブ高梁に、現役データサイエンティストをお招きして、企業で働くデータサイエンティストと、ビジネスで活用されるデータサイエンスの実態についてご講演をいただきました。
講演者は、株式会社サイバーエージェント技術本部Data Tech Labで、データマイニングエンジニアとして活躍する森下壮一郎先生。森下先生は、同社に入社する前は、東京大学・電気通信大学・理化学研究所で、パターン認識などを研究されてきました。
機械学習とディープラーニング。講師は、森下壮一郎先生(株式会社サイバーエージェント)
データサイエンティストは「サイエンティスト」と言いながら、大学よりむしろ、大部分が企業で活躍しているそうです。データサイエンスはビジネスと密接に結びついた学問であり、データサイエンティストは企業の課題やニーズに沿ったデータの収集・分析などを行って、その結果をビジネスに生かすための報告書にまとめるのが、重要な仕事だということです。
データサイエンティストになるためには、大きく3つの分野の専門知(専門的知識やスキルなど)を求められるとのこと。まず、統計科学の専門知。そして、計算機科学の専門知。最後に、ビジネスにかかわる特定分野の専門知です。特定分野の専門知としては、たとえば、経済学や心理学、マーケティングなどの知識が求められます。森下先生によると、いろいろな分野出身のデータサイエンティストがいて、これじゃなくてはいけないという道はないそうです。
では、どのようにこうした専門知を身につければいいでしょうか。森下先生の周りでは、情報系の修士課程までは学んでいる方が一般的になってきているそうです。情報系に限らず、心理学、経済学系でも、まずは何らかの専門知を身につけて、そのうえで、他の分野について独学で学ぶというのが、森下先生が知っているデータサイエンティストの経歴では多いそうです。
情報学科で専門科目を履修した場合の他分野の修得の仕方。
一般的にデータサイエンティストに与えられる課題は、ある程度手順が定まっている課題と、手順が定まっていない課題とでいうと、後者が多いそうです。自分で工夫しながら問題を解いていく必要があるそうです。ただ決まった手順で問題を解いていては、ビジネスで必要な知識をデータの山から取り出すことが難しいし、ごく当たり前な知見しか得られない、またはまったく知見が見えていないということもあるようです。
こうした手順が定まっていない課題を解くためには、ひらめきや工夫が必要ですが、まずは手になじんだ道具(統計学・数学の手法)を一つ手に入れるべきだというのが、森下先生のアドバイスです。たとえば、「固有値分解」などはデータがベクトルとして扱えるときに有効な方法ですが、画像や文章については有効ではないことがあります。しかし現代の人工知能(AI)では、「ディープラーニング」と呼ばれる手法で、どのようなデータもベクトルとして扱えるようになっています。ディープラーニングがよく活用される現在においても、一度身につけた「固有値分解」などの手法が活用できることがあると、森下先生は説明します。
この講演を聴講したあと、森下先生がラボの仲間たちと書いた『データマイニングエンジニアの教科書』(C&R研究所)の目次を見ると、確かに、統計学に関する章(2章、6章、8章、9章)に加えて、計算機科学に関する章(3章、4章、5章、7章、10章)、ビジネスの観点からのデータの解釈・見方にかかわる章(11章、12章)と、非常に幅広い分野にわたって学ぶべきことがあることが、あらためてわかります。
ところで、森下先生たちの本の重要な特徴は、データサイエンスの倫理に関する章があることです。データサイエンスは科学だから中立だろうと思われそうですが、実はデータの使い方によっては人間の偏見や社会的差別を助長する面があります。そのうえ、データに基づいているということで、その偏見や社会的差別がまるで中立な事実であるかのように受け取られる危険もあります。そのため、データサイエンスの倫理はとても重要な現代的課題なのです。この視点を取り入れている教科書という点で、森下先生たちの本はとても重要だと思います(最近森下先生たちは、『よくわかるパーソナルデータの教科書』という本も出されたそうです。こちらも注目)。
ビジネスサイクルにおけるデータサイエンティストの役割。
森下先生のご講演に戻ると、データサイエンティストの仕事というと、データの収集(取得)・分析・結果の解釈・報告書作成までと考えられることが多いのですが、実は、データの収集よりも前に、どのような課題や関心があってデータを収集(取得)するかきちんと定義しておかないと、必要なデータが集まらなかったり、余計な個人情報を多数取得してしまったりする可能性があります。前者は明らかに困ることはわかりますが、後者の場合も、個人情報保護法や海外の関連法(たとえば、欧州の一般データ保護規則(GDPR))などが企業活動を規制している現在、余計な個人情報をもつことは、実は企業にとってネガティブなリスクとなりかねません。なので、データの収集(取得)前から、データサイエンティストを加えて、ビジネスの課題や問題意識をはっきりさせる活動(定義)を行わなければならないわけです。
そして、報告書を作り上げたあとも、そのデータの解釈と利用という面でデータサイエンティストの助言や支援が必要なことがあります。データだけを渡されても結局それを活かせず死蔵させてしまう可能性があります。そうすると、データサイエンティストはビジネスについても相当知らないといけないわけですね。
しかし、データサイエンティストも得意・不得意があるので、全部一人でこなすというわけにはいきません。データサイエンティストのチームでの活動・活躍も、こうした得意・不得意を補うのに役立つでしょう。一方で、一般の社会人のデータサイエンスに関する知識や教養が深まることも重要そうです。
講演後の質疑応答で森下先生とお話しして、現在大学でできるだけすべての大学生に数理・データサイエンス・AIの基礎的な教養を身につけさせようとしているのも、多くの社会人がビジネスや社会課題をはっきりさせ、その解決のため、データサイエンティストと共同で働き、データサイエンティストんぽ専門知を活用できるようコミュニケーションできることを目指してのことなのだ…ということがわかりました。
データサイエンスに関する訓練としては、日ごろからニュースを見て、データの分析やその表現が適切か、事実と解釈・主張とを分けているかなどに注意するということが役に立つそうです。これは、高校生からも始められそうですね。
それにしても、非常に幅広い分野の専門知を身につけ、その専門知を日々アップデートしながら、日常的な仕事にもとりくむとなると、データサイエンティストは相当な激務になることもありそうですね。データサイエンティストになるよりも継続するほうが難しいと、森下先生は言います。一生続けられるかどうかというと、新しい職業であることもあってなかなか難しいとのことですが、実際定年間際まで仕事をしているデータサイエンティストもいて、一概には言えないそうえす。何よりも、マネジメント(仕事の割り振りなど)の問題が大きいのではないかということでした。
ここでは伝えきれないほど非常に密度が濃いご講演だったのですが、データサイエンティストは単なる流行の仕事ではなく、21世紀のビジネスで不可欠の職業であることがわかるとともに、(どんな仕事でもそうですが)第一線で働くためには努力と研鑽が相当必要そうだなあと感じました。