1. dev
San FranciscoのMeetupやHackathonに頻繁に参加。 イベントは主にGithubHQ、CloudflareHQ、AmazonSFで開催。 (自転車盗難後は、Caltrainの駅から遠いAmazonSFより駅近の前者が嬉しい) lightning demoは開発者ツールのトレンドやAIアプリのアイデアを得られ、 hackathonは参加者とのコミュニケーションが魅力。
devとして複数のアプリをリリース・更新。
llmbox
- localLLM, prompt-optimization, demonstration-example-optimization の platform
- https://github.com/msrks/llmbox
- GoogleのGemma 3リリースに伴い、デフォルトモデルをLlama3.2-visionからGemma 3に変更
- Gemma 3は1b, 4b, 12b, 27bを提供。速度とメモリのバランスで選択可能
- 手元のPCではGemma 3の12bが快適に動作
next-storage
- llm vector embeddingによる画像異常検知システム
- https://github.com/msrks/next-storage
- voyagAI(stanfordのtengyu maのstartup)のmultimodal vector embeddingを実装
- 従来のopenai clipは、textとimageのベクトル化に別モデルを使用。voyageAIは全てをtransformerに入力し性能向上を実現
- t-sneをtypescriptで実装し1500次元を2次元に可視化。npm package化を検討中
- 異常検知はscikit-learnのLocalOutlierFactorをtypescriptで実装。複数の画像種で動作確認済み
vihub
- LLMOps platform
- https://github.com/msrks/vihub
- multimodal vector embeddingをclipからvoyageaiに移行
- todo: nextjs app routerの実装を見直し、pprで高速化予定
s3-event-transfer
- s3のeventをnext.js appのwebhookに通知するaws sam template
- https://github.com/msrks/s3-event-transfer
- lambda側は単純なevent転送に留め、nextjs側でアプリ毎の実装を行う方針
- UIやaws sdkからのCRUD操作をevent転送し、vector embeddingとrdbのメタ情報を同期
read-aloud-chrome-extension
- 英文読み上げchrome extensionを開発
- macのカタコトscreen readerの代わりにopenai apiを使用
- おまけで翻訳も追加。cost節約のため、chrome組み込みのtranslate apiを使用。
laoshi-village
- 海头老市村websiteプロジェクト
- wechat blog posts のメタ情報を build時に markdownとして抽出して websiteに表示するようにしていたが、wechat側の仕様が変更されたため(meta情報をclient-sideでdynamic rendering)、build時にpuppeteerでhtml renderingするように修正。
- https://github.com/GuanghuaTimes/guanghuatimes-os/pull/1
- 中国側でコラボしているエンジニアから、新たなプロジェクトアイデアを相談してもらい対話を開始。
architectural drawings version control system
- 建築業界向けのgithub(ドキュメントバージョン管理システム)
- SFでのhackasonで知り合ったRamziから、一緒にstartupしないかと誘ってもらった。とりあえずmeetingしてアイデアを詳しく聞かせてもらう予定。
今後の予定
- elevenlabsのconversation ai検証
- turso dbのoffline sync確認
- openai agents sdk検証 (mcp integration)
- firecrawlとexaの比較
- voiceAI agent hub開発
- browser操作系のtask automation, scrapingアイデア検討
- llmによるsemantic操作記述でメンテナンス性向上
- browserbase, playwrightmcp
2. research
ラボは春休み中で定例meeting休止。devとイベント参加に注力。 visiting scholarのyoungbin帰国(samsung)が残念。 最近はMetaのCoconuts論文が興味深い。潜在空間でのCoTを実現し、人間の思考プロセスに近い。
中国のAIとオープンソース
中国のAIは米国に急速に追随。DeepseekやAlibabaのオープンソース展開で存在感を増す。 米国はイデオロギー影響力の観点からAI開発競争での優位性維持が必要。オープンソースでの主導権も重要。 (これまでLlamaは標準モデルとして派生開発やアーキテクチャ改良を促進。Meta側もAI推論サービス企業と連携し米国のサプライチェーンを強化。 一方、DeepseekのLlama置換はHuawai推論チップTier1対応など、半導体サプライチェーンにも影響を及ぼす可能性。)
米国の優位性維持は容易でない。計算資源競争では中央集権的な中国が有利。 データセット面でもTencentやAlibabaのSuperappユーザーデータが強み。 User Privacyの制約も少ない。米国は強みの多様な人材によるイノベーション継続が必要。
X = ApplePay + Venmo + Uber + DoorDash + Yelp + Zoom + Eventbrite + GMaps
Alipay = X + Amazon
WeChat = X + WhatsApp + Facebook + Instagram
MCP
MCPが大注目。tech meetupでも常に話題に。 OpenAIの公式サポート(Agent SDKとDesktop App)開始。AI時代のREST APIとしての発展に期待。
Llama4の2M Context Window
Llama4が4/5リリース。高精度なオープンウェイトモデルとして注目。 2M Context Windowが特筆。1年半前の32kから約1000倍に拡大。 ハリーポッター全巻10回分、新聞記事数万件相当の文脈処理が可能に。 小中規模Knowledge BaseはRAG不要で全てメモリ搭載可能。 multimodal、time-series、DNA等の大規模Context Window応用アプリの出現に期待。 (ヒトゲノムは3.2B length)
3. Life
yosemite
自宅から3.5h。4箇所目の国立公園。公園内のtent cavinに1泊。 念願のtunnel view。mist trailは虹と共に美しかったが5時間hikingは体力的に厳しかった。
stanford cardinal
複数のスポーツ観戦。baseball, gymnastics, lacross, beachvalley。 佐々木麟太郎が3番スタメンで出場。




自転車盗難
アパートのbike hubで施錠していた自転車が盗難。 キャンパスでの被害は多く、自分も遂に経験。
その他
- SFMOMA無料デーに訪問。モダンアートへの理解度は依然として低い。
- small talkはトランプの話題によくなるので、表面だけでも勉強中。 第1四半期には関税の導入が迫っていたため輸入が急増し、GDPが悪化した。 第2四半期には在庫が大幅に減少し、関税がなくなることを期待して一時的に輸入が減っている。 つまりGDP(= C + I + G + EX - IM)が一時的に上昇して、関税は経済を成長させるとかトランプが勘違いしだすとホラーだと友人が言っていて興味深かった。 個人的には、物価上昇、株価・為替変動が心配。