15th Month @Stanford
December 5, 2024

TL;DR

Lab では、Test-time Computing の研究動向をキャッチアップしながら、 Conference にも参加し、最新の AI SaaS 開発技術の理解をアップデートした。 また、Thanksgiving や Election など、現地で US 文化を学ぶこともできた。

1. Research

11/01 Google Devfest Silicon Valley
11/05 Stanford Graph Learning Workshop
11/17-22 React Summit & JS Nation @NY

Conferences

React Summit では、web-dev スキルの self-teaching でお世話になってきた @theo@jherr の講演を生で聴けて満足度の高いイベントだった。 講演は React19 と Next.js15 の新機能に関するものが中心。特に server action, RSC(React Server Component) に関する機能が強化されたのが非常にインパクトが大きいので、その技術を再確認した。

Form の構築方法が PPR の採用で特に大きく変わりそうで、defacto 手法だった react-hook-form +zod が、server side のコードでは動かないので、再検討が必要になりそうだ。 react-hook-form や tanstack の開発者も参加した Panel Discussion では、server 中心の web app 開発へのトレンドに合わせて、 library の大きな改良を予定しているとのことで、楽しみにして、フォローしていきたい。

Google Devfest は、もちろん AI 中心の発表で、Vertex in Firebase 関連のセッションが自分には特に面白かった。 マネジメントコンソールが非常によく設計されているため、LLMOps として自分の SaaS の UI 設計にも参考にしたいのと、 AI Testing Agent は DevOps が重要なプロジェクトでぜひ採用したいと思った。 (テストを書くのはかなり tiring な作業なので、自然言語で簡単に解決できるのは非常に嬉しい。)

直近の 2 年間くらいは、PPR (Pertial Pre Rendering) が一部利用可能になって以降も、全面的に採用するのは現実的でなかったため、tRPC を中心にして web アプリ を開発してきたのだが。 tRPC の API をたてすぎると、かなり処理が重くなることがわかっており、実際に VIHub でも、それがユーザー体験を下げていて、不満があった。 この Next.js15 のリリースでようやく PPR が現実的に利用可能になってきたので、次以降のプロジェクトでは、こちらを採用して開発したい。

Test-time Computing

引き続き、このホットな技術を追いかけている。 Test-time Computing の方法は、色々なアイデアが提案されている。 ポピュラーなものの 1 つが、LLM で複数の回答候補を生成し、Verifier でそれを検証し、最適な解を選択するというものだ。 回答候補が増えるほど、当然 coverage は増す。そして適当な Verifier によって precision を保つことができる。

ここで肝になるのは、Verifier の設計である。 解答の正誤を検証可能なタスク(数学の一部など)は、Unit-test のような形で 厳密な Verifier の設計ができるため、 この手法は特に有効に機能する。 一方で、多くの問題は単純な Unit-test を記載するのが難しいような問題である。 その場合に、高性能な Verifier をどう実現するするかが課題になる。(Verifier 構築にも LLM を使うのが人気)。 "Generator と同一の LLM に、CoT で回答を細かく検証するように prompting したもの"だけで十分なのか、あるいは、専用の Verifier を設計するべきか、など。

その中でも個人的に面白かったのが OpenAI の提案するProver-Verifier Gameという手法で、 数年前の DeepLearning ブームで大流行りした GAN のような、Generator と Discriminator の設計で、Verifier を設計するというアイデアだ。 この手法では、Generator に Verifier に 正しく検証してもらいやすいような回答を生成する Incentive を与えることができ、 AGI を超えた Super Intelligence の時代の AI でも、人間の可読性に合わせた(人間の知能でも検証可能なレベルの)回答を生成することができるというのも面白い。

月末には 遂に Alibaba から o1 の性能に匹敵する OSS の QwQがリリースされた。 test-time computing の研究が更に進んでいくことが期待される。また Multimodal な OSS モデル(LLaVa-o1)も出てきているので、チェックする予定。

今後の方針

2. Life

11/01 Diwali @Stanford
11/02 Bar Mitzvah @🇺🇸Harrison
11/05 US Election
11/09 Wedding Celemoney @🇨🇳Alan,Safari
11/28 Thanksgiving Party @🇺🇸Tom,Steffi

11/08,13,15 Dinner w/ Friends
11/17-22 @NY

友人の結婚式に Best Man として参加した。 Stanford Memorial Church でのセレモニーは感動的だった。 協力して構築した website が多くのゲストに認知されていて嬉しかった。

US Election 🔗、Thanksgiving、Bar Mitzvah (Jewish)、Diwali (Hindu) など、現地で文化を学ぶ貴重な体験をさせてもらった。