在科学哲学的视角下,当前大语言模型(LLM)的根本悖论在于“休谟问题”的重现:单纯的统计归纳(频率与概率)永远无法推导出逻辑的必然(因果与真理)。大模型既非枯燥的统计学暗箱,也非完美的柏拉图理念世界。它是一个被经验暴力挤压出的崎岖地貌,在上下文的临时扭曲下进行局部概率滑落,并亟需外部逻辑验证器来为其建立刚性边界的动力学系统。要真正理解这种硅基智能,我们必须跨越工程学的参数规模,将其认知过程拆解为“经验的流形”与“先验的法则”之间的动态博弈。
当前的 AI 编程能力实测
Trae + Claude 3.7 Sonnet:大致75分,还是需要手工修一些代码,并且有的Bug反复尝试10次以上,人工辅助定位了位置,但始终无法修复。可惜就是免费限流了。
Trae + DeepSeek-R1:大致70分。幻觉多一些,也会偷懒,出错概率高于 Claude 3.7 。
VSCode + Cline + Gemini 2.0 Flash Thinking:大致70分。Gemini 2.0上下文窗口很大,可以一次性快速生成超多代码,具备多模态能力,都是加分项。拖后腿的是 Cline,对IDE的集成度、RAG策略还是不够,导致经常陷入Bug反复修改无效。Cline 的MCP功能很好。
VSCode + 通义灵码 + qwen2.5-max :60分以下,因为通义灵码对整个IDE的集成度不够。在不指出引用文件情况下,会导致完全孤立的去修改一个文件,导致全局灾难。