Gemini 视频生成自动化折腾记:一场“高投入低产出”的技术复盘
文章发布时间:
最后更新时间:
最后更新时间:
我想薅一把“视频生成”的羊毛,把 Google Gemini 网页版每天三次的免费生成机会做成一个 Skill,给 AI 自动调用。结果没想到,这事儿耗费了我相当多的时间,最后还没什么产出。
拦路虎:账号与指纹
第一个拦路虎是指纹浏览器和账号问题。
AI 控制的浏览器没办法直接用我的账号,而没有我的账号,也就薅不到视频生成的羊毛。如果每次都要我手动登录一下,那这个自动化 Skill 就完全失去了意义。纠结了半天,我还是妥协了,手动给它登录了账号保存状态,想着至少先跑通一次看看。
然后问题又出现了:模拟点击的技术实现。
Antigravity 用的这套模拟点击,似乎是它自带的或者是 Puppeteer 的能力,我也不太懂。给我的感觉是,Clawdbot 大概率是用不了这个 Skill 的(因为环境依赖太重)。
但我还是想着:“哪怕是一次性代码,跑通一次也不错。”
混乱的执行过程
我的逻辑是这样的:
- 我给 AI 发图;
- AI 自动打开 Gemini 网页;
- 自动上传图片 + 定制提示词;
- 得到结果图(中间还因为提示词不对,只出图不视频,让我确认了好几次);
- 自动回到浏览器发送“视频生成”指令;
- 结束下载。
过程真的非常痛苦:
- 效率极低,巨烧 Token。
- 像无头苍蝇一样乱撞。 因为我不懂底层技术,也没跟 AI 讲清楚,它经常做一些意义不明的操作(比如找不到窗口、点击位置奇怪)。
- 环境脆弱。 这个 Skill 写出来我估计连 AI 自己都没法复用。我试着让 Clawdbot 用了一下,第一步“打开浏览器”就卡住了。以后真的得给 Skill 设置一个执行标准,现在的 Skill 感觉它们根本不会用。
最后的反思
我也深刻意识到了,这种基于模拟点击的网页自动化,性价比极低,且极其脆弱。网页改个版,脚本就废了。
或许继续钻研下去,朝着类似“影刀”那种 RPA 方向做,是可以实现的。但仔细想想,这个功能其实我也不是非用不可。为了这每天三次机会,投入这么多精力不值得。
创造真的十分困难。 对于我这种普通用户来说,或许学会使用 GitHub 就已经足够了。
学会去“白嫖”大佬们的经验,去了解别人是怎么解题的,哪怕是简单的“接口逆向”或者“RPC调用”。
比起费力不讨好地造轮子,学会“用轮子”才更稳定,也更聪明。