Anthropic関連のGitHubリポジトリで、AIを使ってコードの脆弱性を探し、確認し、レポートし、パッチ案まで出すための参照実装が公開された。名前はDefending Code Reference Harness。ざっくり言うと、Claudeに「このコードの危ない場所を探して、再現して、直す候補まで作って」と頼むための作業台だ。
公式トーンは、セキュリティチームがClaudeを使って脆弱性発見を進めるためのベストプラクティス共有、という大義名分。具体的にやっていることは、Claude Code用のスキル、脅威モデリング、静的スキャン、トリアージ、パッチ生成、自律実行パイプラインをまとめて公開することだ。
個人開発者にとってのポイントは、これがそのまま商用サービスになるというより、「AIにコードを書かせた後、AIにどう検査させるか」の型が見えること。副業プロダクトを作る側からすると、作るスピードだけ上げても、壊れたものを速く出すだけになる。その反対側の道具が出てきた。
- 一次ソース: https://github.com/anthropics/defending-code-reference-harness
- 関連議論: https://news.ycombinator.com/item?id=48403980
この記事をわかりやすく
この記事をわかりやすく
今回の発表は、Defending Code Reference Harness (= Claudeを使って脆弱性発見と修正候補作成を自動化するための参照実装) の公開だ。Claude Code (= ターミナル上でClaudeにコード操作をさせる開発ツール) で使える /quickstart、/threat-model、/vuln-scan、/triage、/patch、/customize というスキルが入っている。threat model (= どこが攻撃されやすいかを先に整理する設計図) を作り、vuln scan (= 脆弱性候補を探す走査) をかけ、triage (= 本当に危ないものとノイズを分ける判断) し、patch (= 修正案) を作る流れだ。
公式トーンは「AIで防御側のセキュリティ作業を強くする」という大義名分。具体的にやっていることは、Claudeにコードを読ませるだけでなく、Docker (= アプリを隔離環境で動かす仕組み)、ASAN (= C/C++のメモリ破壊を検出する実行時チェック)、gVisor (= コンテナをさらに隔離するサンドボックス) を組み合わせ、見つけたクラッシュを別エージェントで再現し、重複排除し、レポートと修正案まで出す流れを公開している。
数字で見ると、公式の立ち上げ手順はDay 1で静的スキャン、Day 2で自律パイプライン、Days 3-5で自分の対象にカスタム、Week 2で継続運用というペース。1日で触る、2日目に動かす、1週間で自分用に寄せる、という設計だ。ただし、リポジトリには「maintainedではない」「contributionは受けない」と明記されている。製品というより、写経して自分用に変えるための設計資料に近い。
個人にとっての意味: 自分の動きにどう効くか
個人にとっての意味: 自分の動きにどう効くか
自分の温度感としては、これは直撃寄りだ。ただし、今すぐ全員が回すものではない。C/C++、Docker、サンドボックス、APIコスト管理まで絡むので、ノーコード寄りの人がそのまま使うには重い。機会は「AIで作ったものを、AIで検査する手順を商品や作業メニューにできる」点。罠は、検査した気になって安心することだ。
Claude Code Maxユーザー目線。 Claude Codeを普段から触っている人には、/threat-model や /vuln-scan の考え方だけでも使える。フルの自律パイプラインまでは重いが、自分の小さなWebアプリに「ログイン、決済、ファイルアップロードだけ重点チェックして」と投げる型はすぐ転用できる。正直、Max枠を持っていても無計画に並列実行するのは怖い。
個人builder目線。 何かプロダクトを作っている人には、リリース前チェックの型として効く。特に認証、権限、Webhook、アップロード周りは、作った本人ほど見落とす。自分もセキュリティ専門ではないので、これを「監査完了」とは呼べない。でも、何も見ないまま出すよりは明らかにマシな足場になる。
ノーコード系AI副業狙い目線。 Lovable (= 文章からWebアプリを作るAI開発ツール) や Bolt (= ブラウザ上でアプリを生成・編集するAI開発環境) で作る段階の人は、ハーネス本体より「納品前チェックリスト」として受け取るのが現実的だ。ログインできる、保存できる、だけでは足りない。権限の穴、入力値の穴、秘密情報の露出を見に行く発想を先に持つ。
Hacker Newsの反応では、この手のものを「shop jigs」、つまり職人が自分用に作る治具のようなものだと見る声があった。これはかなりしっくり来た。完成品をそのまま使うより、自分の作業に合わせて小さく改造する価値が大きいという話だ。別の反応では、実行コストを気にする声も出ていた。そこも同意で、セキュリティ検査はコード生成よりトークンを食う可能性がある。保留判断として、いきなり自律スキャンを常時回すより、まずは手動レビューの補助から始めるのが自分には合う。
明日からのアクション: これを糧にするには
明日からのアクション: これを糧にするには
- すぐやる 今日中にGitHub Freeのまま0円でリポジトリを読む。cloneしなくてもREADMEのDay 1、Day 2、Week 2の流れだけメモする。見る場所は /threat-model、/vuln-scan、/triage、/patch の4つで十分。
- すぐやる 明日までに、自分のアプリ1つを対象に「ログイン、権限、入力フォーム、ファイル、外部API」の5項目だけClaude CodeかCursorにレビューさせる。追加費用は今の契約内、APIで試すなら上限を$5に切る。
- 検討 今週末にDocker Desktopを0円で入れ、ローカルで動く小さなサンプルアプリだけを検査対象にする。gVisorやASANまで触るのは、C/C++案件やセキュリティ案件を取る気がある場合に限定する。
- 検討 7日以内に、LovableやBoltで作った副業アプリ向けの「納品前AIセキュリティ確認」テンプレを作る。価格は最初から高くせず、既存クライアント向けの追加チェックとして1件5,000円から2万円程度で試す。
- 保留判断 Claude APIの自律並列スキャンは、今月は上限$10から始める。parallel実行、複数エージェント、Opus系モデル指定は、費用と成果物のログを見てから増やす。最初からWeek 2運用を真似しない。
- 罠の回避 48時間以内に「AIが安全と言ったからOK」という文言を自分の納品物から消す。代わりに、確認した範囲、未確認の範囲、使ったツール、残るリスクを1枚に書く。費用は0円だが、信用には効く。
- 検討 逆張りの機会として、ノーコード制作者向けに「作った後の壊れ方診断」を出す。今月中にNotionかGoogle Docsで0円のチェックシートを作り、Lovable、Bolt、Cursor利用者向けに、認証と公開設定だけを見る軽いメニューから始める。
今回の発表は、個人がそのまま巨大なセキュリティチームになる話ではない。持ち帰るべきなのは、AIで作る速度が上がった分、検査の型も自分の道具箱に入れる必要があるという点だ。作る側だけに寄ると危ない。小さく作り、小さく壊し、小さく直す。その循環を持っている人が、これから少し強い。