論文がちらつくとデータセットが作れなくなる?

 これは良いなと思う言語資源の論文は,まずイントロで述べられている目的と想定されているタスク・作られたデータが合致している。そして,よく練られた方法によってデータが収集され,十分な数がある。更に,評価も適切に行われている。別に必須ではないがここにベースラインの実験が10個くらい載っているともうどうしようもないという感じを受ける。

 データセットを作るために生きているのならばこれが良いのだが,実際には本当に解きたいタスクのためにデータセットを作っている。そうすると,ここまでやるのは非常に面倒くさい。面倒なだけなら良いのだが,やめてしまうというのが最悪である。

 あるタスクを頭に思い浮かべていて,これはデータを作ればなんとかなりそうだという見込みが立ったときに,アノテーションをどうするかという問題が出てくる。自分がそのタスクについてよく分かっているのだから,パパッとやっておしまいにしようと思うのだ。しかし,その時に論文のことが頭をよぎると,何人かアノテータを集めて評価するのか,あるいは,などと考え始めて面倒になり,全て諦めたくなる。

 タスクの性質上人を集めた方が良いものはあるけれど,逆に自分でやっても十分なものもある。というか,自分がタスクを設計しているのだから,自分が正解なのである(だからといって必ずしもタスクがsubjectiveではない)。

 別に論文にしないのであれば,好きなように作って使えば良いのだが,せっかくこれまでになかった,相当規模のデータセットを作ったら広く活用してもらいたいと思うものである。尤も,適当な場所に置いておくだけでそれは可能なのだけれど。

 データを使う側の立場に立ってみると,ある手法を試すために手頃なデータを探しても見つからないということが起こる。この場合論文でなくても何でも良くて,どこかに転がっていないかと思って探すのだが,ないときはない。ではこの手法は誰も使っていないのか,そんなはずはないと思うのである。

 ライセンスや営業秘密等で出せないものは別として,せっかく作られたのに世に出ないで埋もれているデータセットはどのくらいあるのだろうか。

(※本稿は大学院時代を思い出して書いている)