Trae + Claude 3.7 Sonnet:大致75分,还是需要手工修一些代码,并且有的Bug反复尝试10次以上,人工辅助定位了位置,但始终无法修复。可惜就是免费限流了。
Trae + DeepSeek-R1:大致70分。幻觉多一些,也会偷懒,出错概率高于 Claude 3.7 。
VSCode + Cline + Gemini 2.0 Flash Thinking:大致70分。Gemini 2.0上下文窗口很大,可以一次性快速生成超多代码,具备多模态能力,都是加分项。拖后腿的是 Cline,对IDE的集成度、RAG策略还是不够,导致经常陷入Bug反复修改无效。Cline 的MCP功能很好。
VSCode + 通义灵码 + qwen2.5-max :60分以下,因为通义灵码对整个IDE的集成度不够。在不指出引用文件情况下,会导致完全孤立的去修改一个文件,导致全局灾难。