Gemini 视频生成自动化折腾记：一场“高投入低产出”的技术复盘

文章发布时间:

2026-01-31

最后更新时间:

2026-01-31

我想薅一把“视频生成”的羊毛，把 Google Gemini 网页版每天三次的免费生成机会做成一个 Skill，给 AI 自动调用。结果没想到，这事儿耗费了我相当多的时间，最后还没什么产出。

第一个拦路虎是指纹浏览器和账号问题。
AI 控制的浏览器没办法直接用我的账号，而没有我的账号，也就薅不到视频生成的羊毛。如果每次都要我手动登录一下，那这个自动化 Skill 就完全失去了意义。纠结了半天，我还是妥协了，手动给它登录了账号保存状态，想着至少先跑通一次看看。

然后问题又出现了：模拟点击的技术实现。
Antigravity 用的这套模拟点击，似乎是它自带的或者是 Puppeteer 的能力，我也不太懂。给我的感觉是，Clawdbot 大概率是用不了这个 Skill 的（因为环境依赖太重）。

但我还是想着：“哪怕是一次性代码，跑通一次也不错。”

我的逻辑是这样的：

过程真的非常痛苦：

效率极低，巨烧 Token。
像无头苍蝇一样乱撞。 因为我不懂底层技术，也没跟 AI 讲清楚，它经常做一些意义不明的操作（比如找不到窗口、点击位置奇怪）。
环境脆弱。 这个 Skill 写出来我估计连 AI 自己都没法复用。我试着让 Clawdbot 用了一下，第一步“打开浏览器”就卡住了。以后真的得给 Skill 设置一个执行标准，现在的 Skill 感觉它们根本不会用。

我也深刻意识到了，这种基于模拟点击的网页自动化，性价比极低，且极其脆弱。网页改个版，脚本就废了。

或许继续钻研下去，朝着类似“影刀”那种 RPA 方向做，是可以实现的。但仔细想想，这个功能其实我也不是非用不可。为了这每天三次机会，投入这么多精力不值得。

创造真的十分困难。 对于我这种普通用户来说，或许学会使用 GitHub 就已经足够了。
学会去“白嫖”大佬们的经验，去了解别人是怎么解题的，哪怕是简单的“接口逆向”或者“RPC调用”。
比起费力不讨好地造轮子，学会“用轮子”才更稳定，也更聪明。