TL;DR
- Research: Lab のビジョンと成果 への理解を深めながら、今後の方向性を具体化した。
- Life: 人脈を構築しながら毎日を楽しんだ。
本質的な問題解決の向き合い方に触れ、刺激を受けるとともに頭を悩ませた。
- データ蓄積の仕組みが構築できていない段階で、データ分析をすることにどれだけ価値があるか。
- データ蓄積についても、分析手段ごとにデータベースを構築するのは非効率ではないか。
- より中央集権的なデータ管理の仕組みで、そこにアナリストがアクセスする方が本質ではないか。
- 自然言語でのデータ分析が可能になり、データ分析の敷居がますます下がっていく時代に、ドメイン知識を持たないアナリストの価値は保てるのか。そもそも必要なのか。
- 最大限価値を提供するために組織はどうあるべきか。
自身の研究テーマをブラッシュアップしながら、これらの問題についても考えていきたい。
1. Chris Re Lab
Chris Re Lab. は Academic 最先端の Stanford CS にいながらも、Industrial にも軸足を置いているユニークなラボである。
- ビジョン : Chris Re は Andrew Ng と Data-Centric-AI を推進してきた業界のリーダーの 1 人であり、Open Source への貢献意識が非常に高い。
- メンバー : ex-Google、ex-Meta、ex-MS-Research 等の 社会人経験者、Bio や Law の学位取得者、など 多様な構成。
- 拠点 : onCampus(Gates) + offCampus(Factory: Chris Re が Founder の VC)。
- 運営 : 毎週 2 日(月、水)、全員参加の In Person Meeting がある。
- ツール : Github, Slack, Google Sheets
- 教育 1 : CS324 で Foundation Model を教えている。
- 教育 2 : MLSys Seminarを運営し Youtube 登録者は 1.6 万人を誇る。
- スタートアップ 1 : ラボ起源のスタートアップが複数存在し、中でも Snorkel が面白い。GAFAM が主要顧客。日本では日立が担いでいる。Data-Centric AI の 技術を活用した、Auto Labeling や Data Curation が代表的なプロダクト。簡単なヒューリスティクス関数を書いて、Week Supervision を提供し、それを Automatic Data Labeling のヒントに使う。ラベルの推定は Graphical Model を解くことで実現できる。
- スタートアップ 2 : OpenSourceLLM の RedPajama Project で有名な Together の 創業者でもある。Alpaca では、Lamma を text-davinci の結果で Instruct Tuning することで、実現していたがライセンスの問題があった。RedPajama では Dataset も含めて開発することで、完全な OpenSource のリソースの提供を目指している。
- 成果 : ICML, NeurIPS, ICLR 等 Top Conference に論文を多数通しながらも実用性の高い研究が多い。直近では LLM の高速化に貢献する FlashAttention が有名で、Pytorch や Tensorflow などほぼ全ての AI ライブラリが FlashAttention を取り込んだ。FlashAttention は Hardware Awareness な Attention の実装アルゴリズム。それに続く関連研究の、H3, Hyena, M2, も非常に Promising で、 自分の理解では、エッセンスは、$O(N^2)$ の Attention を GlobalConv+Dense に置き換えて、FFT で $O(NlogN)$ の計算量で同等のパフォーマンスを出す取り組み。Attention is All You Need ではなかったのかもしれない?。LLM の高速化によって Context-Length の拡大が可能になり、Token 数が多くなりがちなマルチモーダルな入力を LLM で扱えるようになる、AGI の実現という AI 研究のゴールに向けての本質的な研究と言える。これらを土台にたとえば、DNA の塩基配列を LLM に食わせるHyenaDNAや、LegalDocumant の Reasoningをさせる取り組みを実施しているラボメンバーもいる。
- Chris Re Lab. のビジョン
- Data-Centric AI
- Open-Source will win
- from GPT-X to GPT-You
- Chris Re Lab. の興味と直近の成果
- LLM
- Longer Context-Size
- FlashAttention, S4, H3, Hyena, M2
- Context Learning
- AMA
- Data-Centric AI
- Week Supervision
- Snorkel
- Data Validation
- Meerkat
- Application
- Bio
- HyenaDNA
- Law
- LegalBench
2. 研究
# every week
Mon: Lab Meeting at Factory, Menlo Park
Wed: Lab Meeting at Gates, Stanford
Wed: ML Lunch at Gates, Stanford
# Networking w/ Research Discussion
10/20 🇯🇵Morio(Hitachi) on Campus
10/20 🇯🇵Kawaguchi(MUFG) on Campus
10/23 🇯🇵Hoshi(JR-East) at my-Home(BBQ🍖)
10/26 🇯🇵Hirose(ToyotaUSA) on Campus
10/26 🇯🇵Kobayashi(Bridgestone) on Campus
10/26 🇯🇵Mori(Toyota) on Campus
# Gates 282
Roommate: 🇰🇷Ed(Samsung, Visual Inspection AI)
今月の取り組み
- Meeting に参加しながら、Lab のビジョンと成果 への理解を深めた。
- 同じ CS の Visiting Scholar 仲間である、日本人 Visiting Scholar の 6 名の方と連絡先を交換した。(2 名は成井さんのご紹介!)。ルームメイトの Ed とは日常的に対話している。
- First Project Idea である LLM-based Visual Inspection Solution について、実現イメージの具体化とブラッシュアップに取り組んだ。
- Image Embedding としては、CLIP を使うのが現在の主流ではあるが、より性能の高い BLIP や、直近では OpenAI の GPT4V のリリースがあり、検討の余地が残るが、PoC としては CLIP を採用しようかと考え中。
- Visual Inspection Spec. を LLM に入力する方法として 、Few-Shot Example を示して Context-Learning すれば足りるのか、あるいは FineTuning すべきかについても検討した。LoRA を使うと、比較的に手軽に FineTuning 可能だが、こちらは Plan-B として、まずは 前者の方法で PoC を進めたい。(技術トレンドとして Context-Length の拡大があるので、前者が手軽で魅力的に感じる。)
今後の方針
- LLM-based Visual Inspection については、GPT4V API 公開の動向をウォッチしながら、論文・技術調査を継続しつつ、PoC にも取り掛かりたい。
- それと並行して、製造業は、Tech 業界と違って、限られた貴重なデータからいかに価値を抽出するかの重要度がより大きいため、Data-Centric AI の手法でそれを実現する Solution の開発にまで、アイデアを広げたい。
- 例えば、ラベルの品質を向上させるツールとして、マルチラベラーによる高品質なラベルセット構築、Error Label の検出、Data Augumentation など。
- LLM-based Visual Inspection も、Pretrained された General な知識の活用と、Prompting による Prior の注入で、限られたデータセットから最大限の価値を取り出す Solution、という視点で見ると Data-Centric AI の 1 手法とも考えられる。
3. 生活
# every week
Tue: English Debate Class
- 10/03 🇹🇼Stephanie (Love at First Sight)
- 10/10 🇨🇳Alan (Pessimism from Chinese History)
- 10/17 my turn🚀🚀 (Role of Prison) 🇦🇷Matthias (Octagonal Food Label)
- 10/24 🇫🇷Cremontine (Climate Change) 🇯🇵Koganei ("Old Enough!")
- 10/31 🇨🇳Rongkun (The Purpose of Life) 🇺🇸Mary (Pros/Cons of Halloween)
10/08 Test Drive w/ 🇮🇳Monoj
10/13 Buy Car from 🇮🇳Monoj
10/14 Video Call w/ 🇨🇦Clyde
10/14 Game Night on Campus
10/18 Lab Dinner at Palo Alto
10/19 Video Call w/ 🇧🇼Mika
10/21 Haloween Decoration Tour w/ 🇺🇸Liz
10/23 Driving Test at Santa Clara DMV w/ 🇯🇵Nakanishi(OFS)
10/26 Modern Music Concert on Campus
10/27 Driving Test at Santa Clara DMV
10/27 Global Chef Dinner on Campus
10/28 Halloweekend on Campus
10/29 Filoli Garden w/ 🇺🇸Liz
10/29 Jazz Concert on Campus
English Debate Class
On Campus で無料開催される International Student 向け英語クラスに 登録した。私が参加しているのは 火曜日 PM の Debate クラスで、生徒が持ち回りでファシリテーターとなり、背景知識とともに Debate Topic を提供する。生徒は世界各国から来ており、英会話の練習だけでなく、異文化理解を深め、多様な友人関係を構築できる。最高の機会で毎週の楽しみである。
10/17 は 私の担当で、"Norway の世界一自由な Prison" の例を紹介し、Prison の果たす役割 (Punishment or Rehabilitation) をテーマとして提供した。各国での事例を共有しながら意見を交換し、授業は大いに盛り上がった。
Game Night
1 Quarter に 1 回程度の頻度で on Campus で開催されるボードゲーム好きにはたまらんイベント。
Title Transfer at DMV
米国ではインフレ+供給不足で価格が高騰しており、数年落ちの中古車が新車と同じ価格で販売されている(新車はしばらく待たないと手に入らない)。ガリバー USA のような 中古車販売店に頼るのが簡単ではあったが、個人売買なら Sales Tax (~10%) が節約できることを知り、後者にトライした。詐欺を切り抜け、ドタキャンに落ち込みながらも、最終的に Facebook Marketplace で手頃な車を見つけることができた。契約書の自作、KBB と CarFax を使った値切り交渉、DMV での Title 変更登録、など経験しながら、なんとか手に入れることができた。(2015 Nissan Altima 59k-miles)
Lab Dinner at Palo Alto
Dinner に参加した。Tech なニュース(AI の Regulation など)について話し合ったり、自分がもし Bilioneer だったら何をしたいか、など盛り上がった。旅行先のアドバイスや、カリフォルニア以外での生活体験を紹介してもらった。
Haloween Decoration Tour
Stanford で知り合った Liz が Haloween Decoration Tour をしてくれた。日本で見る Christmas Illumination よりホラーだが豪華で動きのあるオブジェクトが多く、ただの住宅地がテーマパークのようだった。同時に、この地域の Rich さが感じ取れた。(Menlo Park)
Driving Test
Santa Clara DMV で受験した。既に免許を持っている人の付き添いが必要。OFS の中西さんが快く付き添いを引き受けてくださった。 幸いフレンドリーな試験官にも当たり、満点で合格できた。
Modern Music Concert
The Knoll で 開催された、Matthew Goodheart さんの現代音楽コンサートに参加した。私には難しすぎたが、音楽の可能性を広げる取り組みが少し理解できた気がする?。
Halloweekend
Mausoleum で開催された Halloween event に参加した。Haunted House は気合が入っていた。
Filoli Garden
Liz に Filoli Garden を案内してもらった。Filoli は、Fight for a just cause. Love your Fellow Man. Live a Good Life
の略だそう。非常に整備された美しい庭園だった。
Jazz Concert
Memorial Church で 開催された Jazz Concert に参加した。会場と相まって、とても良い雰囲気だった。