YouTube 上有一类财经频道,画风简陋到”小学生都会画”。没有真人、没有特效,就一个举着手讲股票的卡通小人配旁白往后切。
可它一条聊 SpaceX 的视频,一个月 160 万播放;聊信贷潮那条,发出来 11 天 60 万。

这不是某一个号的运气。我把近两年这个“极简火柴人解释类”赛道的头部号整理成了下面这张参考表:

Mack 起号才约 1 个月就攒下 430 万+ 播放;用猴子讲经济的 Primate Economics,3000 万播放、平均每条 120 万。
按 YouTube 广告分成(千次播放收益常在 3 美金以上):一条几十万到百万播放的视频,单条 300–3000 美金;整个频道按总播放估,普遍在几万到几十万美金。
很香?但别急着冲。完整工作流我拆给你。
先泼盆冷水:这笔账到底怎么算才不翻车
我特意去核实了收益数据,免得你被”日入过万”忽悠瘸了:
第一,$3 这个数,看你做哪个赛道。 同样是简笔画,收益能差好几倍。纯娱乐、搞笑、动画类的 RPM((Revenue Per Mille)就是每 1000 次观看创作者实际拿到的收入)
普遍只有 1.5–3.5 美金;而上面那种财经、商业、投资类的高商业价值内容,RPM能到 8–25 美金。换句话说,开头那个聊 SpaceX、聊信贷的财经号,单条收益很可能比”每千次 3 美金”算出来的还高——这正是它选对了赛道。
第二,所以别做无脑搞笑,要做有信息密度的内容。 不是说娱乐不能爆,而是同样的播放量,财经/科普这类能卖给愿意花钱的广告主,收益完全不是一个量级。后面工作流里我会反复强调”调研”,原因就在这。
第三,这套数字只对”长视频 + 欧美受众 + 正常开广告”成立。 Shorts 短视频的千次收益只有 0.01–0.1 美金,百万播放也就十几到几十美金,千万别拿长视频的账去套短视频。
第四,新号得先过门槛。 YouTube 要 1000 粉丝 + 4000 小时观看时长才给你开广告分成。所以前期是纯投入,别指望第一条视频就有收益。
第五,上面那些数字都是公开统计的近似值。 播放、粉丝会随时间变,收益是按 RPM 区间估算的(题材、地区、受众结构不同,差异很大),它告诉你的是”这条赛道能跑出什么量级”,不是某个号确切赚了多少。别拿它当承诺。
基于以上五条,下面的工作流才有意义。
为什么偏偏是”火柴人”能爆?
火柴人的杀伤力不在画,而在它逼着你把信息讲清楚。
没有真人、没有华丽画面,观众留下来的唯一理由就是:你讲的东西有用、有意思、节奏顺。画面越简单,对内容质量的要求反而越高。你不需要会画画、会演、会拍,你只需要会讲一个值得听的内容。
但你别被”简单”骗了。我扒了一圈发现,这些看着糙的视频,背后的脚本往往要花掉大量调研时间。爆款的命门从来不在工具,在内容本身。
完整工作流:四步把一个方向做成视频
第一步:找 3–5 个同方向爆款,拆它的”文章风格”
先选一个你真心感兴趣、能持续输出的方向(强烈建议偏知识/行业,理由见上面那笔账)。
然后找这个方向里的头部博主,挑 3–5 条完整视频,把它们的脚本扒下来,如何下载视频脚本可以参考Github,这个老师的分享:

针对于相关脚本,可以让AI进行分析,并参考做风格拆解:它怎么开头钩人?怎么递进?怎么埋包袱?口语节奏是什么样的?
这一步的产出,是一套”风格模板”。以下是我参考相关视频的总结:

第二步:真调研、出文章——这步最关键,别偷懒
这是整套流程里最值钱、也最容易被人跳过的一步。
很多人图省事,直接让 AI 一键生成全文。我不推荐,原因有两个:一是你自己什么都没学到,二是 AI 嚼过的二手知识,用户其实也不爱看。
正确做法是真去调研。比如你要做行业博主,那就老老实实去翻行业研报、企业信息、公开数据,把这个行业的周期、逻辑、关键节点梳理成一篇有干货的文章。
记住:内容的护城河在这一步建立,工具只是后面的搬运工。

第三步:用第一步的风格,给文章”上妆”
调研出来的文章往往干、硬、不好看。这时候把第一步拆解出来的风格模板套上去,做一遍优化。
这样出来的东西,既有干货撑场子,又踩中了用户的阅读偏好。
第四步:文章 → 视频,四个动作走完
整条链路是这样的:
- 文章 → 视频脚本 → 生成图片/音频 → 合成

其中”文章生成视频脚本 + 分镜图片”这一段,我用的是 Codex,并且自己做了一个 skill,中文版和英文版都有。无论是一分钟的短视频,还是十分钟、上百张分镜的长视频,配上你的个人卡通形象,效果都不错。


这里有个关键操作,记好:千万别让它一次性把所有分镜图都生成完。 先做几张参考图,你看着不对劲、调成你喜欢的风格之后,再让它批量生成剩下的。否则一旦风格跑偏,几十上百张图全得返工。


配音:用 ElevenLabs 解决”开口跪”
做 YouTube 和 TikTok,最劝退人的就是英语口语不行,一开口就把观众赶跑了。
我用的是 ElevenLabs(也就是常说的 11Labs)。它能生成自然、带情绪起伏的人声,配火柴人这种内容刚刚好。

而且有个隐藏要点——音频要先做,画面后配。 先定下配音的节奏和换气停顿,再让分镜画面卡着声音的呼吸点去切。这样出来的视频有”呼吸感”,观众会不知不觉看完。反过来先出图再硬塞配音,剪起来就是各种对不上,观众一眼就能感到那种”拼凑感”,手一划就走了。
把脚本、分镜图、配音三样合成,一条火柴人视频就出炉了。前期可能慢,但工作流跑顺之后,产能会肉眼可见地往上走。
再强调一遍这套东西的核心,因为它和大多数”搞钱教程”不一样:
赚钱的不是火柴人,是你调研出来的内容。 工具谁都能用,能不能爆、能不能持续,全看你第二步舍不舍得下功夫。