コンペティション概略

2019年7月に実施予定の参議院選挙の結果を予測する早稲田大学第一回データサイエンスコンペティションを開催します。コンペティションの概略はこちらのページ、ルールはこちらをご覧ください。5月14日(火)には40号館説明会を開催し、ルールや賞の詳細を発表します。チーム登録は説明会終了後に開始します。

The inaugural Waseda University Data Science Competition will be held this semester, challenging students to predict the results of the Japanese Upper House election due to be held in July. You can read an outline of the competition here, or find the detailed set of rules here. We’ll be announcing more details about the rules and prizes at an information session on May 14th (Tuesday) at Building 40 (the Center for Data Science), after which team registrations will open!

コンペティションの規則

概略

このコンペティションの目的は、みなさんが持っている政治や選挙に関する知識と統計やデータサイエンスのスキルを組み合わせ、2019年の参議院選挙の正確な予測を行い、競い合うことです。

予測には、過去の選挙結果、世論調査、人口動態、経済データ、ニュース報道、ソーシャル・メディアのテキストデータといった一般に利用可能などのようなデータソースも用いることができます。また、選挙予測について提起されている理論や方法を学び、そして独自性のある発想や仮説を革新的に用いることが奨励されています。

予測は投票日前に提出する必要があります。予測が実際の選挙結果にどれだけ近いかに加え、予測モデルの厳密さや独自性、審査員の前で行うプレゼンテーションに対する評価を合わせて受賞チームが決定されます。

提出ファイル

以下の3種類のファイルを投票日前日までに提出する必要があります。

  1. 予測が含まれた2つのCSVファイル(以下参照)
  2. モデル構築に使った分析コード
  3. データと分析方法を説明したスライド(PowerPointかPDFの形式に限る、日本語あるいは英語)

日本の参議院議員は比例代表と選挙区の二つの選挙制度により選出されます。それぞれについて結果の予測を2つのCSVファイルで提出する必要があります。

比例代表:比例代表用のCSVファイルには、主催者側で指定した7つの政党(自由民主党、立憲民主党、国民民主党、公明党、日本維新の会、日本共産党、社会民主党)の予測得票率を保存します。提出ファイルは以下のような形式となります。

party, vote_share
A党, 30.00
B党, 29.99
   …

選挙区:選挙区用のCSVファイルには、選挙区名、候補者名、それぞれの候補者の予測結果(当選者1、落選者0)を保存します。選挙区の中には複数の候補者が当選する(定数が2以上の)ところがある点には留意してください。提出ファイルは以下のような形式となります。

 district, candidate_J, candidate_E, outcome
 Hokkaido, 石田一郎, Ishida Ichiro, 1
 Hokkaido, 山田太郎, Yamada Taro, 0
 Hokkaido, 佐々木藍子, Sasaki Aiko, 1
   …

ここで「candidate_J」と「candidate_E」は、それぞれ日本語(JapaneseのJ)とローマ字(EnglishのE)の候補者名を表します(主催者側から提供されます)。提出ファイルには、当選すると予測している候補の情報だけではなく、全ての候補者について結果予測を保存する必要があります。

重要:”outcome”の列で1の値を取る行の数が(実際に当選する候補者数の)74でなければエントリーが無効になります。

 政党と候補者のリストは、選挙の公示後に主催者側から提供されます(政党は英語、候補者は日本語とローマ字の両方)。

審査

提出された予測の精度は、実際の選挙結果、すなわち確定した議席とどれだけ近いかをもとに評価します。比例代表では、予測された得票率を議席に変換した上で、実際の議席数との差で評価します。得票数から議席数への変換は実際の選挙で使用されている方法に基づいて主催者が行います。選挙区では、当選を正しく予測できた人数をもとに評価します。

 得点に加えて、予測モデルの斬新さ、プレゼンテーションの質を合わせて審査員が評価し、最終順位が決まります。

ルール

選挙結果の予測にはあらゆる公開データ(誰にでもアクセスが可能なもの)が利用可能です。使用したデータについては、主催者の要請に応じてすべての情報を提出しなくてはなりません。分析に用いられたデータが第三者に共有不可能なものである場合、主催者の要請に応じてスクリプトや、その他の資料を提供しなければなりません。

重要:選挙が終わるまで、選挙予測を公開することは認められません。

本コンペティションに参加できるのは、早稲田大学各学部・研究科に在籍中のの学部生・大学院生、早稲田高等学院、本庄高等学院の高校生となります。チームに助手やポスドク研究員を含む場合は別枠で審査されます。教員を含むチームは賞の対象とはなりません。チームの構成員数は2人以上4人以下である必要があります。

各賞を受賞対象となるには、ファイル提出に加えて、授賞式当日に分析手法と予測結果のプレゼンテーションをする必要があります。メンバー全員が登壇する必要はありませんが、少なくとも1人はプレゼンテーションをしなければなりません。

  • 最優秀賞: 賞金10万円
  • 政治經濟學會賞:賞金5万円
  • 他のスポンサーは後日発表

政治經濟學會賞は、政治経済学術院の学生で構成された最優秀チームに送られます。1つのチームが複数の賞を受賞することは可能ですが、最優秀賞と政治經濟學會賞の受賞チームは他の賞を受賞できません。

スケジュール

  • 2019 年 5 月14日(火):説明会
  • 2019 年 6月26日(水):チームエントリー期限
  • 投票日の17日前:選挙の公示
  • 選挙前日:各種ファイル提出期限
  • 2019 年 7 月14日か21日:選挙日(暫定)
  • 2019 年 7月27日(土):発表会、授賞式、懇親会

主催者

  • データ科学総合研究教育センター 小林学、須子統太(社会科学学術院)
  • 政治経済学術院 日野愛郎、多湖淳、上田路子
  • 現代政治経済研究所 Robert Fahey

問い合わせ:データ科学総合研究教育センター cds-pse-compe@list.waseda.jp