大学院の5年間を振り返る:自然言語処理の研究者を目指して(博士課程)

博士1年生

評価と定義は表裏一体

 修士論文(とCOLINGの原稿)を書いたことで,研究が再定義された。英語論文を執筆する上で役に立つ定型表現を提示するコンピュータシステムを作るためには,moveと対応の取れた定型表現を大量に用意しておく必要がある。このデータセットを作ることが研究テーマの最も重要な仕事であることが分かった。

 その上で,主たる課題は2つ。まず,どうやって定型表現を抽出するか。これは質的な問題である。定型表現というものを定義できないなかで,役に立たない単語列をなるべく抽出しない手法が求められる。なおラベル付きデータはない。次に,どうやって定型表現にmoveのラベルを付与するか。ラベル付きデータがあれば既存の分類器を試せるが,ない。

 これに加えて,評価の問題があることに気づいていた。抽出した単語列が定型表現として有用かどうかは,これまで人手で判断するしかなかった。このやり方だと,例えば手法が100個(パラメータが異なれば別の手法と考える)あるとしたら,100回も人手評価を行わなければならない。実際,先行研究では手法の比較はまともに行われていないかった。定型表現の善し悪しを測る指標が必要だった。

 COLING投稿直後から,この問題に取り組んでいた。この問題は,言い換えれば,定型表現を数学的に定義できるかということでもあった。定型性(formulaicity)とは,何なのか。頻度なのか。構成性(compositionality)なのか。結びつき(association)なのか。色々な指標を計算してはその数値で単語n-gramを並べ替え,眺めるという日々が続いた。他にも色々と思いついたことを試しては失敗し,の繰り返しであった。

 気づいたら年末になっていた。なんとなくそれっぽいものはできていたが,中途半端で,もう少しなんとかならないか,という感じだった。しかし時間も相当経ってしまったこともあり,とりあえず形にしなければならなかったので,論文にして,ACLに投げた。

学振面接

 遡って5月にCOLINGに採択されたので,業績のページに書き加えて学振に出した。DC1の時と比べると,修論の段階で研究の全体像と先行研究との位置づけがはっきりしていたのでだいぶマシになっていたが,抱えている問題の解決方法が全く定まっていない状態だったので,手法の部分が少し曖昧な記述にならざるを得なかった。ただテーマの独創性と有用性はかなり高いと信じていた。いずれにしてもその時点でのベストエフォートである。

 10月の開示は面接だった。ただでさえドキドキするのに,まだ決まらないのかとがっかりした。同時に,ボーダーラインに引っかかったのだから取りに行こうとも思った。12月の面接のときにはACLの原稿をどうしようかで頭がいっぱいだった。

 この年は開示が遅れに遅れ,年末年始は全く気が気でなかった。メールの着信音(ポポンポン)が鳴る度にビクッとしていた。結局1月10日になって,パレスサイドビルでビビンバを食べている頃に開示された。

博士2年生

研究方針の変更

 ACLの結果が来た。3/2/2で落ちた。やっぱり落ちたか~という感じだった。問題はその次。二重投稿*1していたワークショップからも2/4/4/3でrejectされたのだ。ワークショップで落ちるというのは相当酷い論文だということを意味する(とどこかに誰かが書いていたはず)。非常にショックを受けたのだが,それはともかく,研究自体を見直さねばならなくなった。D1の1年間は完全に無に帰した。3年間あるはずの博士課程が2年になってしまったと思った。

 評価指標は作れない。これが得られた感覚だった。ではどうするか?全く白紙であった。丁度その頃NLP界ではBERTが勢いを増していた。何か上手にタスクを設計できれば,うまく学習してくれるのではないか,という淡い期待もあった。だが,それも上手くいかなかった。

フランス

 7月になり,フランスから准教授の先生がサバティカルでやってきた。指導教員との定期的な打ち合わせに参加してもらうことになった。自分の研究内容を簡単に済ませ,打ち合わせは終わった。ところが,打ち合わせの後でその先生と議論になった。学生の居室で,延々と質疑応答をした。その結果,ラベルの付いたデータを作ることになった。あっけないものである。何をしたら良いか分からなくなってしまっていたところに,外から「いやいや,これをやるべきでしょ」と言ってもらえることがどれだけありがたいことか……

 11月下旬にLRECの締切があるので,そこに向けてデータを作ることになった。ちんたらやっていては間に合わないと思い,それまで平日は10時に来て18時に帰るスタイルだったのを,平日休日を問わず10時に来て22時に帰るスタイルに変更した(これをやると体調を崩すので人には勧められない)。アノテーションの仕組みを整え,9月の頭にはラベル付きデータが出来上がった。

 作ったデータは,英文に対して伝達機能*2のラベルが付与されているものである。これを評価用データとして使うことを提案した。10月には論文が書きあがった。

 ここで定型表現の定義と評価を思いついた。論文執筆支援を念頭に置くと,定型表現は伝達機能を体現している部分とみなすのが良いだろう。であれば,抽出された定型表現の候補をfeatureとして伝達機能の分類などをやらせれば,それをextrinsicタスクとみなして抽出そのものの評価ができるはずだ*3。こうして,更に実験を増やすことになった。結果として,10ページを超えてしまったため,2つに分割することになった。片方はLRECに,もう片方はCOLINGに出すことにした。

 年末にサバティカルの先生はフランスへ帰っていった。半年でフルペーパー2つ分の成果が出た(ご本人はご本人でACLに1本投稿して帰っていった)。とてもありがたかった。

博士3年生

新型コロナ

 コロナがヨーロッパを席巻したころ,COLINGの原稿がほぼできあがっていた。英文校正にかける段階になって,COLINGの延期が決まった。締切が4月8日から7月1日になった。これでは話にならない。投稿先をジャーナルに変更することになった。

 ところがジャーナルだと加筆が必要であった。その他色々と議論を加えたり修正を施したりするうちに,5月下旬になってしまった。これならもう1ヶ月待ってCOLINGに出した方が良いのではないかと思ったのだが,分量が増えており出せない。結局この論文はお蔵入りとなった。

投稿ラッシュ

 この頃,定型表現の抽出手法を思いついており,実験結果も悪くなかった。ただ,この頃になると焦りと自信喪失が重なって,何を書いても通らない気がしていた。7月1日締切のCOLINGには間に合わないので,7月17日締切のCoNLLか,20日締切の*SEM*4に出すつもりで進めていた。最終的に7月1日締切のICADLに出すことになった。ICADLは査読が早い。-3/2/2/-2で落ちた。ICADLは電子図書館の会議だが,電子図書館と何の関係もないという理由であった(確かに関係ないよなあ……)。

 もう1つの課題,伝達機能に基づく分類については,ずっと教師なしの方法にこだわって研究していた。伝達機能の空間を上手く作れれば非常に便利だからである。定型表現は伝達機能と結びついているから,出てくる場所や順序に制約があるだろうと考えた。この情報を上手く利用できないかと考えたが,どうしても無理だったので,教師あり学習でやることに方針を変えた。もう9月だった。出せる会議はもうEACLとECIRしかなかったので,どちらかに出すと決めて猛スピード*5で実験をし,EACLに滑り込みで投稿した。

 SwalesというEAPの大御所がいらっしゃるのだが,2019年にある論文を出していた。

Swales, J. (2019). The futures of EAP genre studies: A personal viewpointJournal of English for Academic Purposes, 38, 75–82.

 ここで定型表現の抽出手法に苦言を呈していたのである。単語n-gramなんか抜き出しても役に立たないよねと仰っているようにみえた。

 思うに,これまでの定型表現抽出の研究は,手法の比較を行ってこなかったのである。それは評価を人間に頼っていたからという部分も大きいと考えているが,それに加えてあまり興味が示されなかったこともあったのだろう。

 そこで,ICADLに出していた抽出手法を更に改良し,その上で他の手法と比較し,学術論文に関するワークショップに投げた。

博士論文

 最終盤になって,解くべき2つの課題は一応解けたことになる。この2つの手法を組み合わせると,moveのラベルのついた定型表現のデータセットが作れるのだ。

 例文やフレーズを検索するという話は山ほどある。Google検索で2つの候補のヒット数を見て多い方を使うというものもこの仲間である。この手法の最大の問題点は,知っているものしか検索できないということである。"in this paper we"を入力したら,"propose"を表示してくれるシステムは便利だろうか?私はそう思わない。"in this paper we"を知っている人は,ほぼ間違いなく"in this paper we propose"を知っているからである。"in this paper we propose"を知らない人がどうやって"in this paper we propose"を検索するのか。私の作った枠組みとデータセットはこれを解決する。それを示して博士論文を書き終えた。

 提出した数日後に,先のワークショップからacceptされた。また,博士論文の本審査の日に,EACLにacceptされた。

最後に

 修了したいま,作りたかったものを作れたので満足だという気持ちと,とはいえまだ改良の余地があり,それをやりたいなあという気持ちがある。

 学部4年の時に,大学院ではすぐに論文になりそうなことをやろうと決めていた*6。好きなことをやるにはまず地位を手に入れないといけないという考えがあった。ところが実際にはそれと正反対の研究生活になった。M1の1年間はほぼサーベイしかしていなかったので,何も生み出していないという焦りがあった一方,世界が開けていくような楽しさがあった。

 嬉しかったことは,COLINGに出した論文が言語教育系の論文から引用されたことだ。少しではあるが,届いてほしいところに届いたなと思った。

 5年間は間違いなく長い期間である。しかし,自ら問題を探し,定式化し,それを解くとなるとギリギリであった。それでも,1つの研究プロジェクトを立ち上げて,着地させることができたのは良かった。もう少しうまくできたよなというところはたくさんあるので,今後に生かしていく。

 

(おわり)

*1:ACL系の国際会議では条件が揃えば二重投稿が認められている

*2:分かりにくいので,moveという単語ではなく,伝達機能(communicative function)という単語を使うようにした。

*3:これは後から知ったことだが,構文文法(construction grammar)では,連語のcompositionalityを意味だけでなく機能についても考慮していた。例えば,「なんでやねん」という定型表現は隣にいるツッコミの人を叩くというジェスチャーを誘発する機能があるが,これは各単語から予期できない。

*4:スターセムと読む

*5:実際にはスピードは出せないので,研究時間を増やした

*6:どんなテーマであれ問題を細分化して最も簡単なものをさっさと解こうと考えていた