TRILHA 1

🧭 Fundamentos

Antes de capturar uma tela ou animar um cursor, é preciso entender quando o vídeo demonstrativo é a escolha certa — e o princípio que rege toda a skill: capturar a tela real antes, animar por cima depois. Aqui você aprende a diferença entre mostrar e explicar, por que o render é determinístico, e a stack local sem chave de API.

3
Módulos
~20
Tópicos
~1,5h
Duração
Básico
Nível
🔗 link do app localhost ou URL 📸 captura screenshots reais 🖱️ animar por cima cursor · zoom · narração 🎬 MP4 16:9 HyperFrames · sem API CAPTURAR ANTES · ANIMAR DEPOIS o render é determinístico — nada de site ao vivo dentro do vídeo

O fluxo do vídeo demonstrativo — diagrama ilustrativo

Mapa da trilha

Conteúdo detalhado

1.1~30 min

🎯 Demonstrativo vs Explicativo

A skill video-demonstrativo MOSTRA um app real sendo usado — não explica um conceito com motion graphics. Aqui você entende o que é um walkthrough, quando usá-lo e o que a skill entrega.

O que é:

Um walkthrough é um vídeo que percorre uma aplicação web passo a passo, mostrando telas reais do app sendo usado — clicar, preencher, gerar, ver o resultado.

Por que aprender:

É o formato que demonstra como algo funciona na prática, sem o usuário precisar abrir o app sozinho.

Conceitos-chave:

App real, passo a passo, tela por tela, narrado.

O que é:

video-explicativo explica um conceito com motion graphics (cenas animadas). video-demonstrativo mostra um app real navegado de verdade.

Por que aprender:

Escolher a skill errada custa tempo. Conceito abstrato → explicativo; ferramenta concreta → demonstrativo.

Conceitos-chave:

Mostrar vs explicar; tela real vs motion graphics.

O que é:

Se existe uma tela para mostrar (um app, um localhost, uma URL), é demonstrativo. Se é uma ideia sem interface, é explicativo.

Por que aprender:

Um critério único elimina a dúvida e direciona ao fluxo certo logo no começo.

Conceitos-chave:

"Tem tela?" = demonstrativo; "É conceito?" = explicativo.

O que é:

Onboarding de produto, tutorial de uma feature nova, vídeo de lançamento e material de suporte são os usos naturais do walkthrough.

Por que aprender:

Reconhecer o caso de uso ajuda a definir o roteiro de passos certo.

Conceitos-chave:

Onboarding, feature, lançamento, suporte.

O que é:

Os screenshots reais entram numa moldura de navegador (barra + URL), com um cursor animado que clica nos controles, zoom no resultado e narração TTS.

Por que aprender:

São esses quatro elementos que transformam prints estáticos num vídeo que parece gravação de tela profissional.

Conceitos-chave:

Moldura de navegador, cursor, destaque/zoom, narração.

O que é:

A saída é um MP4 em 16:9 (telas de app são landscape), com narração em PT-BR e a CTA do AutomationsAI na cena final.

Por que aprender:

Saber o formato natural evita pedir 9:16 (que exigiria recorte) e alinha a expectativa.

Conceitos-chave:

16:9, MP4, narrado, CTA final.

O que é:

O ponto de partida é simplesmente o link do app — uma URL pública ou um localhost:8000. O app precisa estar no ar para a captura navegá-lo.

Por que aprender:

Entender que a entrada é o link (e não um arquivo de roteiro) muda como você prepara o trabalho.

Conceitos-chave:

Link do app, localhost, app no ar.

Ver Completo
1.2~30 min

🧠 Capturar antes, animar depois

O princípio que rege toda a skill. O render do HyperFrames é determinístico — sem rede no momento de renderizar. Por isso capturam-se screenshots reais antes, e o viewport fixo da captura vira o espaço de coordenadas do cursor.

O que é:

O HyperFrames renderiza o HTML em frames de forma determinística: nada de fetch ou requisições de rede durante a renderização.

Por que aprender:

É a restrição técnica de onde nasce todo o resto do princípio.

Conceitos-chave:

Determinístico, sem rede, frame a frame.

O que é:

Como o render não acessa a rede, jamais se carrega o app ao vivo dentro do vídeo (nem em iframe) — seria inconsistente e quebraria.

Por que aprender:

Evita a tentação errada de "embedar o site" e direciona para a captura.

Conceitos-chave:

Sem live, sem iframe do app, só imagem.

O que é:

Antes de montar o vídeo, navega-se o app de verdade e tira-se um screenshot real por estado (tela inicial, depois de preencher, depois do resultado…).

Por que aprender:

São esses prints que vão para dentro da moldura — a base visual de tudo.

Conceitos-chave:

1 shot por estado, antes do render, telas reais.

O que é:

O viewport fixo usado na captura (ex.: 1280×800) vira o sistema de coordenadas em que tudo é posicionado depois.

Por que aprender:

Se o viewport mudar entre o shot e a medição da caixa, o cursor erra o alvo.

Conceitos-chave:

Viewport fixo, mesmo tamanho, ≤ ~1280 de largura.

O que é:

A posição de cada elemento-alvo vem de getBoundingClientRect — coordenadas relativas ao viewport, não "no olho".

Por que aprender:

É a caixa real que faz o cursor cair exato no controle, dando o ar profissional.

Conceitos-chave:

getBoundingClientRect, viewport-relative, caixa real.

O que é:

O cursor anima mirando o centro de cada bounding box. Para acertar, o screenshot e a caixa têm que vir do mesmo viewport e mesmo scroll.

Por que aprender:

A consistência shot↔coordenada é o que mantém o cursor sempre alinhado com o que aparece na tela.

Conceitos-chave:

Cursor mira a box, mesmo viewport, mesmo scroll.

Ver Completo
1.3~30 min

🧰 A stack sem API key

Três peças locais fazem tudo: agent-browser (Playwright) para capturar, HyperFrames (HTML→MP4) para renderizar e Kokoro TTS para narrar. Nenhuma chave de API — tudo roda na sua máquina.

O que é:

O agent-browser dirige um navegador via Playwright: abre a URL, navega o app, executa ações e tira os screenshots reais.

Por que aprender:

É a ferramenta que produz a matéria-prima do vídeo (shots + bounding boxes).

Conceitos-chave:

Playwright, navegação automatizada, screenshots.

O que é:

O HyperFrames converte uma página HTML animada em MP4, usando Chrome headless para gerar frames e FFmpeg para montar o vídeo.

Por que aprender:

É o motor de saída — entender que é HTML→MP4 explica por que o render é determinístico.

Conceitos-chave:

HTML→MP4, Chrome headless, FFmpeg.

O que é:

O Kokoro gera a narração em PT-BR localmente (voz pf_dora, --speed 0.98) — um WAV por passo, sem serviço externo.

Por que aprender:

É a fonte do áudio; o gerador mede esses WAVs para sincronizar o timing.

Conceitos-chave:

TTS local, pf_dora, PT-BR, WAV por passo.

O que é:

As três peças rodam localmente — captura, render e narração não dependem de nenhum serviço pago nem chave de API.

Por que aprender:

Significa custo zero por vídeo e nenhum dado saindo da sua máquina.

Conceitos-chave:

Local, sem API, custo zero, privado.

O que é:

Há três jeitos: descompactar o .zip em ~/.claude/skills/, copiar a pasta video-demonstrativo/, ou criar um symlink (para desenvolver).

Por que aprender:

Como skill é só uma pasta, instalar é copiar/colar — sem instalador.

Conceitos-chave:

unzip, copiar pasta, symlink.

O que é:

~/.claude/skills/ torna a skill global (todo projeto); .claude/skills/ no repositório a restringe àquele projeto.

Por que aprender:

Decidir o escopo certo evita duplicar a skill ou não encontrá-la.

Conceitos-chave:

Global, projeto, escopo.

O que é:

Pedidos como "vídeo de demonstração", "demo do app", "walkthrough", ou simplesmente dar um link/localhost acionam a skill.

Por que aprender:

Conhecer os gatilhos garante que a skill certa entre em ação (e não a explicativo).

Conceitos-chave:

Frases-gatilho, dar o link, walkthrough.

Ver Completo
← Todas as trilhas Trilha 2: Captura →