跳到主要內容

精選文章

2026和AI一起寫程式 - 6. 再談 AI 與 沙堆模型程式

前篇:2026 和 AI 一起寫程式 - 5. Android Studio

前篇:2026 和 AI 一起寫程式 - 4. 沙堆模型 Abelian Sandpile Model 曼陀羅 Mandala



( 圖 by Midjourney )



Github - https://github.com/neojou/sandpile


1. git 學習

和 Grok AI 一起 workout README.md 檔案

也學到了 git commit --amend 和 force push 的做法

Git 常用指令


2. IntelliJ IDEA force push

另外在用 IDEA push 時, 有遇到Force Push 是灰色的 / 不能點 

→ 檢查你的分支是否被設為「受保護分支」(protected branch)。 

去 Settings (Preferences) → Version Control → Git → Protected branches,把 main/master 從清單移除即可(單人專案通常不需要保護)。

Grok AI 的這個建議的確有幫助到我!


3. kotlin

在 review code 時, Grok AI 有發現我的 TAG 用得不大對;

我想要對比的, 是類似 Java 的 private static final , 這樣記憶體中, 只會佔有一份

(1) const

如果是針對一個檔案, 而非在物件內的話, 可以宣告 const

例如: private const val TAG = "APP"

  (2) companion

      如果是在物件內, 可以使用 companion 

      Companion object 具有以下特點 :

  • 定義在類別內部:必須宣告在 class 內部,不能單獨存在
  • 每個類別只能有一個:一個 class 只能有一個 companion object
  • 名稱可選:可以命名也可以不命名,不命名時預設為 Companion
  • 本質是單例物件:companion object 是 Singleton,在類別載入時就會創建

例如:



修改好後, AI 也能建議怎麼寫 commit ^^



===

最近 剛好 GPT-5.3 Codex 和 Claude Opus 推出, 讓 Grok AI 比較一下如下:

目前(2026年2月),GPT-5.3 Codex(OpenAI)和Claude Opus 4.6(Anthropic)是兩個剛在同一天(2026年2月5日)發布的前沿agentic coding模型,兩者在寫程式能力上已經非常接近,業界有「The Great Convergence」的說法,幾乎難分高下,但各有明顯側重。

以下從多個面向比較,包含你提到的context window、autonomy(自主性)、實例等:

面向 GPT-5.3 Codex (OpenAI) Claude Opus 4.6 (Anthropic) 目前短期誰略勝?(主觀業界共識)
Context Window 約 200k–400k(延續GPT-5.2系列,官方未特別強調突破) 1M token(beta),Opus系列首次達到百萬級 Claude 明顯勝出(大型專案/重構)
Autonomy / Agentic 持續時間 強調interactive colleague,可中途steer、不丟context,適合長時間但有人陪跑 更偏向long-running、少干預,planning更謹慎,sustain更久 Claude 略勝(無人看管長任務)
Coding 純實力(SWE-Bench等) SWE-Bench Pro / Verified 極高,Terminal-Bench 77.3% Terminal-Bench 2.0 第一,SWE-Bench 也極高(部分領先) 幾乎平手,視benchmark而定
速度 25% 更快(官方宣稱) 較慢,但品質更高 GPT 勝
Debug / Self-correction 強,但偶爾仍犯低級錯 更好code review & self-catch mistake Claude 略勝
大型專案 / 多檔理解 很好,但context較小較吃力 1M context + 大型codebase可靠性提升 Claude 明顯勝
Multi-agent / 平行分工 目前較少強調native multi-agent Agent Teams 原生支援(16個平行Claude) Claude 大勝
Reliability / 少犯蠢錯 非常可靠,少dumb mistake 極高,尤其複雜邏輯 平手或Claude微勝
互動性 / 好用感 更像「同事」,願意主動做、快、溫暖 更謹慎、專業,但有時過度保守 GPT 日常勝
價格(API) 競爭性定價(詳細看OpenAI) $5 / $25 per M(input/output),長context加價 差不多

兩個經典實例對比

  1. Claude 16分身寫 C compiler
    Anthropic 官方展示:使用 Agent Teams 功能,讓 16個平行 Claude Opus 4.6 自主協作,兩週內從零寫出一個用Rust實作的C compiler(約10萬行程式碼),無需人類頻繁介入。
    • 能編譯 Linux kernel 6.9(x86/ARM/RISC-V)
    • GCC torture test 通過率 99%
    • 還順便編譯了 Doom、QEMU、FFmpeg、SQLite 等
      這是目前公開最震撼的「多代理自主完成極難系統程式」案例,展現了強大的長期自主性 + 平行分工能力。
  1. GPT-5.3 Codex 參與自己開發 / 自加速
    OpenAI 官方表示:GPT-5.3 Codex 是「第一個幫助創造自己的模型」,早期版本被用來
    • debug 自己的訓練流程
    • 管理 deployment
    • 診斷評估結果
      大幅加速了 Codex 團隊的開發速度。
      這雖然不是像 C compiler 那樣完整的公開產品,但象徵了更接近「自我改進循環」的里程碑,也顯示它在coding之外的專業知識與工具使用能力很強。

快速結論(2026年2月現況)

  • 如果你主要做超大型專案、重構、需要一次塞很多code、或想完全放手讓AI自己跑很久選 Claude Opus 4.6(1M context + Agent Teams 目前無敵)
  • 如果你想要更快、更可靠的互動、日常開發、喜歡中途指揮、或預算/速度敏感選 GPT-5.3 Codex(25%更快 + interactive colleague 風格)
  • 真實多數頂尖開發者現在的做法:兩個都用,視任務切換(很多團隊 Claude 做架構與困難邏輯,Codex 做快速迭代與產出)。

兩者差距已經小到「看個人風格與當下benchmark誰剛好領先一點」,而不是以前 Claude 全面碾壓 coding 的時代了。


留言

熱門文章