文章 | 游鱼思工作室 - 提供大模型产品设计及开发服务

兜兜转转，还是Drupal好

我最早在2009年接触Drupal 6，用它做公司网站和个人站。

2015年又用Drupal做了个创业项目，用了上百个三方模块（编程能力差导致依赖模块）。

去年采用 Drupal API + FastAPI + React 混搭，发现 Drupal API 古老且繁琐，把前端同学坑的够呛（当时还不知道有 Nextjs for Drupal）。

这几次下来爬了很多坑，对Drupal又爱又恨。

2024年，感觉Drupal越来越跟不上时代了

再后来惊讶于WordPress成功的繁荣，觉得WP用来开发应该比Drupal更快更便捷才对。

结果现在发现并不是，WP商业化过于成功，什么模块都收费，反而劝退我了。

所以我的路线是： Drupal -> FastAPI + React -> Wordpress -> Drupal + Next.js

兜了一圈又回来，这世界就是这么奇妙。

WordPress

商业化很成功，使用体验很好，三方模块质量很高，就像MacOS。

对于普通用户来说，稍微有点复杂的三方模块都收费不菲。这对模块开发者而言是好事。

适合没精力学习编程，但愿意付费的用户。

一个中型电商网站使用 WordPress 的年均成本约 594 美元，小型用户使用代价巨大。

由于插件注册往往是绑定到域名的，对于拥有多站点、或者需要不断换方向试错的创业者，非常不友好。

许多付费主题（如 Divi、Astra）内置专属插件（如页面构建器），但这些工具与其他插件的兼容性较差。

Drupal

商业化不太成功，学习曲线更陡峭，三方模块大多维护力度不足，就像Linux。

需要具备编程思维和动手能力，且有前端模板开发能力才能真正用好。

更适合DIY能力强（其实就是抠门）的程序员。

但是核心模块足够强大灵活（比如原生支持自定义字段、实体、视图、多语言），大多数模块免费，支持原子化组合。

如果觉得PHP落伍，需要前后端分离，还可以用 Nextjs for Drupal。

再加上AI辅助写前端，开发速度应该不比WP慢。

我现在的需求：

根据产品概念快速构建MVP，用于推广验证，需要及时调整方向，可能做10个成1个。
需要快速实现用户及权限管理、内容管理、多语言、高级表单、AI对话、商城、支付、论坛、SEO 等全套强大的CMS功能。
涉及到自定义模块开发，不希望自定义模块依赖收费模块。

我还是需要一个熟悉的框架，丰富的生态，来让我极速配置好各项基础功能，这样我只需要专注在几个业务模块的开发上即可。

鉴于目前AI编程对中大型工程无能为力，而FastAPI+React 下这些模块应该都需要从头实现。

Django我不熟悉。综合下来，还是Drupal适合我。

强烈推荐 Drupal CMS

最近Drupal 拆分成了 Drupal Core 和 Drupal CMS.

Drupal CMS 内核是Drupal 11，预装了全套CMS模块，并且与时俱进的增加了非常全面的 AI模块。

包括 AI辅助写作、和 ECA 规则引擎整合、AI自动翻译、AI Log、AI搜索、字段验证、字段生成、AI Agent智能体、对话机器人等等！

太兴奋了，这些金贵的功能在WP不得每个模块收个几十刀年费啊！

这下简单的AI工作流编排和一些基础对接工作估计都能省了。

比较遗憾的是，由于 JWT模块还没支持Drupal11 ，导致 Nextjs for Drupal 也暂不支持。

当前的 AI 编程能力实测

标签

AI编程

测试条件：小型项目，3个页面（分步骤表单页、报告页、对接到Dify聊天），后端功能仅有计分及分数加权调整规则。已经整理出较为详细明确的需求文档，并且引导AI生成了技术架构文档。

测试架构：Nodejs+React+Vite; Remix+Vite

测评标准

本测评标准是站在不懂代码的产品经理、业务人员的角度。

100分：人类完全不看代码，只需要点同意，即可完成全部功能开发及后续的测试全流程。

80分：人类需要了解项目架构，需要参与测试，并粘贴反馈出错信息。AI根据出错信息可以自动完成修复。

60分：人类需要看懂代码，需要参与测试。在AI陷入无法修改的死循环时，需要人类精确指出问题所在。

测试结论

Trae + Claude 3.7 Sonnet：大致75分，还是需要手工修一些代码，并且有的Bug反复尝试10次以上，人工辅助定位了位置，但始终无法修复。可惜就是免费限流了。

Trae + DeepSeek-R1：大致70分。幻觉多一些，也会偷懒，出错概率高于 Claude 3.7 。

VSCode + Cline + Gemini 2.0 Flash Thinking：大致70分。Gemini 2.0上下文窗口很大，可以一次性快速生成超多代码，具备多模态能力，都是加分项。拖后腿的是 Cline，对IDE的集成度、RAG策略还是不够，导致经常陷入Bug反复修改无效。Cline 的MCP功能很好。

VSCode + 通义灵码 + qwen2.5-max ：60分以下，因为通义灵码对整个IDE的集成度不够。在不指出引用文件情况下，会导致完全孤立的去修改一个文件，导致全局灾难。

总结

当前时间节点（2025.03.16）, AI 编程还没达到代替中级工程师的程度。受限于上下文窗口、RAG策略、多层级记忆、长期记忆策略，还无法达到像人类一样记住工程全局，只适用于构建迷你项目。

生成的代码也容易把简单的需求给复杂化，导致难以调试，又无法依赖AI精简、重构。

特别是 DeepSeek R1幻觉太多，老是给自己加戏，引入复杂性。

说明：以上测试结论有个人主观感觉，仅供参考。

建议

构建大型工程时，还是采用自己熟悉的框架。让AI在其中只参与小模块的开发。

并且让AI尽量不要动已有的代码，很容易引入新的错误。

快速、低成本的数字人方案

标签

数字人

需求

真人形象，具备语音、动作、表情
结合PPT内容进行讲解
可以根据用户提问和回答内容，准实时交互

需求痛点

数字人生成为固定视频，可以做到很精细，适合录播，缺点是无法实时交互。
而实时交互在教学中可以很好吸引学生的注意力，这点很重要。

但是实时生成视频的话，成本又高。云服务商的市场价格：数字人方案，批发价4块钱1分钟（采购量1000分钟起）。ppt+声音合成视频，零售价1块钱1分钟。

所以这时候，在浏览器层面进行动作交互的数字人是个有潜力的方案，比如live2d。
本方案的成本估算：

Dify部署，这是AI项目固定成本，可忽略。
Python 后端，Node前端部署，占用内存不超过100M，成本可忽略。
数字人模型生成：采用Textoon框架，通过文字可生成卡通形象，成本应该很低。

方案1：浏览器端数字人

采用Live2d方案的数字人，用AI为每个教师生成一个固定的卡通形象。
甚至将卡通形象的生成交由学生，让学生用自己喜爱的形象来授课，这是真正的个性化教学。

下面以教育培训行业为例，进行场景构想。

第一步：为每位老师生成个性化数字人

形象模仿

采用阿里的 Textoon 框架。
阿里文生卡通新方法Textoon：一分钟内生成丰富多彩、可交互的Live2D格式角色。

论文：http://arxiv.org/abs/2501.10020v1
主页：https://human3daigc.github.io/Textoon_webpage/
视频：https://youtu.be/cA0yNZwyGTo

Dify工作流：
教师上传照片 → 视觉大模型生成文字描述 → Textoon 生成卡通形象和动作 → 教师调整文字描述 → 重新生成形象

第二步：搭建TTS服务

方案比较多，比如 Spark-TTS 。

Spark-TTS 核心能力

零样本语音克隆：只需提供几秒钟的语音样本，便能克隆目标说话人的声音
细粒度语音控制：粗粒度控制（性别、说话风格等）；细粒度调整（音高、语速等）
跨语言语音生成：支持跨语言语音合成，支持中文和英文，并保持自然度和准确性
高质量自然语音：结合 Qwen-2.5 思维链技术，增强语音表达逻辑，自动调整语气、停顿、强调等语音表达
音质 & 语音控制能力：采用 BiCodec 单流语音编解码器，将语音分解为语义信息和说话人属性
Web界面支持：提供了使用 Web UI 进行语音克隆和语音创建的界面

产品界面上，需要老师上传一段音频用于克隆。
暴露TTS接口供Dify调用。

第三步：PPT演示前端组件

考虑用 reveal.js
如果要对图表解读，也可以用 ECharts、AntV

前端组件需要能够把当前页面的内容和数值，在PPT页面切换时自动传回大模型，大模型通过聊天界面和语音答复。

第四步：部署智能体工作流

部署Dify，建立教师智能体，智能体需要对接：

Prompt：授课逻辑、教学方法
对话入参：当前PPT页内容
RAG：教案、教材
输出内容：对当前PPT页，结合教学方案和教案，进行讲解。
输入输出转换：对接ASR、TTS接口

第五步：前端整合Live2D数字人

开源项目如 awesome-digital-human-live2d 是个很好的示例。
将模型与ASR（语音识别）、LLM（对话模型）结合，实现语音互动和情感反馈（如脸红、皱眉）。既能够实现对PPT的讲解，又能够和学生语音交互，进行实时互动答疑。
互动性体现在：表情、动作可以控制；人物和鼠标、点击有反馈。

方案2：直接生成视频

Omnihuman
https://omnihuman.design/

Live Portrait
https://liveportrait.org/

未完待续…

论大模型时代的原生产品

标签

人工智能

大语言模型

李开复的观点

在过去，如果像四大门户网站或搜索引擎这样的网页应用没有拥抱移动互联网，只是简单地提供一个网页或APP，那么它们就不会创造最大的价值。移动时代的标志性应用，如微信、抖音和美团滴滴，是因为没有手机就无法使用，而那些仅仅将网页加上APP的应用，最终都没有取得巨大的成功。

在今天的大语言模型时代，AI的时代已经来临。我相信，能够创造最大价值、拥有最多用户、最快达到1亿用户的，都将是原生的AI应用。如果一个应用的核心AI能力不是必需的，那么它只是在做一个基础的、类似网页的APP，这不是真正的AI应用。真正的AI应用应该是，如果去掉大模型，整个应用就无法成立、无法工作、不存在。

因此，在创新工场投资的所有项目都在大模型领域，都必须是AI和CNN的。如果有创业者来说，他有一个很好的移动互联网APP，想通过加入一个大模型来增强它，我们不会投资，因为这应该是每个人都应该做的事情。我们要做的是具有特色、颠覆性的，只有大模型才能运行的应用，去掉大模型就不成立的，这才是真正的AI first应用。

我的思考

历次人机交互方式的升级：

打孔机 --> 字符：键盘+命令行 --> GUI交互：图形界面+鼠标 --> 手势交互：移动化、触摸屏 --> 自然语言交互 --> 多模态、全感官、沉浸场景式交互

下一代AI为先的产品形态，交互方式应该是更自然的拟人形态，并不局限于语音文字交流。

应该即是具身智能，拟人交互。又是跨屏跨端，无处不在。

还应该在AR的加持下，全感官、沉浸场景式交互。

陆奇2023.04演讲——我的笔记和思考

标签

大语言模型

演讲PPT：

423奇绩论坛（陆奇深圳演讲）-ChatGPT新机遇分享-PPT.pdf

概念

思考=模型=知识

知识的定义：一种信息的表达，可以用来解决多种任务。

泛化：举一反三的能力是泛化。

语言，给我们带来最根本的能力，是零样本泛化能力，用来沟通只是语言的副产品。

人类有了语言，所以才有第二系统，才能思考。

范式转变

三位一体结构演化模式：感知（信息系统）→ 思考（模型系统） → 实现（行动系统）

新范式的转变，根源上是通用的生产力，从边际成本转为固定成本。

1995年，信息获取的范式转变，谷歌只需要固定支付10亿美元，就可以为全世界提供信息检索服务。

2023年，知识获取的范式转变，大模型会思考了，模型即知识，知识和认知智能将无处不在（以OpenAI为代表）。我们当前处于大模型衍生出子模型的寒武纪时代。

下一个阶段，应该轮到行动系统了，机器人将无处不在（以特斯拉为代表）。

机遇

经济范式的转变：农业经济 → 商品经济 → 服务经济 → 体验经济 → AI经济

代表职业的转变：农民 → 工人 → 码农、设计师、分析师 → 创业者、科学家 → 人类新价值系统

下个时代，代表性的职业将转变为创业者、科学家。核心能力不再是知识，而是洞察、创造。

创业者能够参与的机会：

“信息-模型-行动”三位一体是终局，如果有三位一体的机会，必须抢先参与；自己有数据；可以自己开发模型；数据-模型-使用-数据闭环：模型被使用之后数据可以回流，赋能自有模型。

大模型为先时代，如何选择应用层的创新机会？在技术上：

1、模型所在你的领域，模型进展速度是高、中、低？优先做进度高的。

2、能做三位一体的机会，大模型带来三位一体的体验程度，是高、中、低？高的，例如广告营销。

3、大模型对该领域的研发体系，有没有带来突破性进展？

另外，每个领域对三位一体的点有侧重。例如：

金融，侧重信息。

搜索与广告，侧重模型。因为搜索有一大半需求是知识获取而非简单的信息检索，本身就是要获取模型。计算广告，就是要找对正确的人，在正确的场景之下，信息化是第一批完成的，现在正处于感知模型→认知模型的升级。

健身，侧重行动。

游戏：大模型对游戏的颠覆极大，因为游戏从内容生产到体验的各个环节，都是大模型可以重构、加强的。游戏是世界的数字化孪生。

社交网络：如果你有好的内容（模型），你就有机会重新建立一个新的社交网络。 ——比如抖音

我的洞察

广告营销体系将被颠覆

现有的商品服务推荐体系：商品和服务找人为主，人和商品匹配。靠协同过滤、相似推荐，或者人工总结打标签，来给人推荐商品。

人在其中不仅要受到各种信息干扰，还要负责各种大大小小的购买对比决策。商品服务的供给越丰富多样，这种购买决策的成本也就越高。

未来应该进入到大模型思考为主，人只需要交易背景信息，并对关键点决策。

人类将自己日常消耗精力的思考、非专业的决策，都交由大模型，每个人都有一个自己的私人秘书。不再需要人去逛电商平台，也不再需要广告了。商家的信用和商品使用反馈，将由大模型自动书写并上到公链。

对于一些需要深度思考、重度决策的领域，比如投资、家装，颠覆性会小一些。

品牌、定位理论也将被弱化

定位理论的核心假设，是消费者在每个细分领域都只记得一个关键词。但是未来交由大模型来进行购买决策，这个假设就不存在了。

品牌的存在，是为了省去交易中的对比选择成本，降低失信风险。但如果大模型让对比选择成本极低，区块链让失信风险极低呢？

数字化内容的GDP占比进一步提升

当信息-知识变成固定成本之后，瓶颈将变为物质（资源）和能量。

随着越来越多人脱离了体力劳动、中低水平的脑力劳动，人类一定程度上不用劳动即可满足基本生存所需，剩下的追求就是体验（说白了就是多巴胺的分泌高于基线水平）。而实物的体验受限于物质资源，游戏、数字内容做为孪生世界，具备更丰富、廉价的体验可能性，将成为体验经济的主体。

如何选切入领域？

头部大蛋糕：消费市场，在线广告、精准推荐、电商

长尾市场：2B市场，各种细分需求

越是刚需，越迫切需要三位一体。例如餐饮、医疗。

还要看这个领域 DIKW 的进度。