2025年01月20日

質問者さん

o1は日本史や数学IAが駄目か 少し捻った質問されると弱いなぁ https://nordot.app/1253987498611343534

2025年01月20日

TJO

TJOさん

o1にカンニングさせれば良さそう

TJOさんに 質問してみましょう!

Takashi J Ozaki, PhD / Data Scientist since 2012 / https://t.co/aAyJfWA25u / DVT (treated with Rivaroxaban) / Tweets are totally personal & my own

質問は厳選の上回答します / 回答しない理由は開示しません / お礼など質問ではないコメントは全て拝読の上削除しています / 12時間以上経過した回答ツイートは随時整理されます / 他の人の質問に質問欄で回答する行為は禁止します / 前回アカウント開設時の回答リストは削除済み

TJOさんが

最近答えた質問

2時間前

Claude Opus 4.7は最強だけどトークン無駄使いするからなあ 4.6までさ内部的に消費トークンを減らす様にしてたんだろうが、それが無くなってしまった感

2時間前

寧ろLLMなんて数値評価をハックしない方がかなり難しいのでは どうやってモデルの評価するんだって所から良く考えないと

9時間前

claude4.7がredditで鬼のように叩かれてるのを見ると、公表してるベンチマーク性能が飛躍的に上がってても全体としてはむしろあんま進歩してないんではないか説が自分の中で濃厚になってる。