ByteGPT | Templates v1 e v2

ByteGPT: Novos templates v2 – Contexto, diferenças, vantagens e como escolher

Tá com pressa? Veja aqui um resumo

ByteGPT v2:
- Detecção de voz, imagem, arquivo e sticker de forma nativa (sem “LOG OK”).
- Fluxos mais “limpos” e configurações modulares.
- JSON + Dify: envie dados do Kommo para lógicas avançadas ou múltiplos LLMs.
- Se vai começar agora ou quer crescer em recursos, v2 é a pedida.
ByteGPT v1:
- Ainda funciona bem para quem só usa texto/áudio e não precisa de fluxos complexos.
- Não tem a detecção automática de tipo de mídia nem integrações avançadas em JSON.
Por que Dify?
- Orquestra vários modelos (OpenAI, Gemini, Claude e mais).
- Suporta transcrição, análise de arquivos e uso de visão (para imagens).
- Pode rodar na nuvem ou em self-hosted (gratuito se você hospedar).
- Ideal para fluxos complexos que exigem variáveis, HTTP requests e automação extra.

Dicas de Migração para v2:
- Altere o handler para “handlerV2”.
- Inclua pausa de 5s no bloco para a API detectar o tipo de mídia.
- Teste o envio de áudios, imagens e arquivos.

Recomendamos:
- Por que usar o Dify em um projeto de chatbot?
- Vídeo: Dify + ByteGPT + Kommo — IA turbinando seu CRM

Introdução

As novas atualizações do ByteGPT apresentam os templates v2, que facilitam a configuração, expandem o suporte a diversos tipos de mídia (voz, imagem, arquivo e sticker) e abrem espaço para integrações avançadas — como o envio de dados em JSON ao Dify. Se você está na v1 e pensa em migrar, ou está escolhendo a melhor versão para iniciar, este guia mostra as principais diferenças, vantagens e boas práticas.

O ByteGPT pode operar com o ChatGPT (API) ou com vários “Provedores” (OpenAI, Dify, n8n, Chatbase). Cada um oferece uma maneira única de integrar recursos de IA ao seu fluxo no Kommo CRM — e, ao se conectar especificamente ao Dify, você orquestra virtualmente qualquer modelo de linguagem (OpenAI, Gemini, Claude, DeepSeek, entre outros) em um só lugar, personalizando fluxos de chatbot, enviando requisições HTTP e usando ferramentas avançadas de automação.

1. Visão Geral do ByteGPT

O ByteGPT é uma solução de Inteligência Artificial integrada ao Kommo CRM, capaz de criar um chatbot híbrido que combina fluxos tradicionais de Salesbot com modelos de linguagem avançados (GPT). Na prática, isso possibilita:

Responder dúvidas frequentes 24/7.
Interpretar mensagens em linguagem natural (incluindo voz e imagem).
Oferecer um atendimento inteligente e personalizado, pois o ByteGPT pode ser configurado com dados e prompts específicos da sua empresa.

Com a evolução para a Versão 2 (v2) dos templates, o ByteGPT se tornou ainda mais flexível e fácil de manter, principalmente quanto ao tratamento de mídias e à integração com plataformas como o Dify e n8n.

2. Por que existem duas versões de templates (v1 e v2)?

Versão v1

Foi a primeira geração de templates do ByteGPT, inicialmente focada em texto e áudio.
A transcrição de áudio é feita após passar pelo Webhook (etapa 187) do ChatGPT e depois é enviado como texto (transcrito) ao Assistente.
Permite a interpretação de imagens, mas depende de configurações específicas no fluxo, conforme o retorno do campo ByteGPT+ | LOG, acionando um prompt específico na etapa 235 caso o campo ByteGPT+ | LOG contenha #image. Isso permite personalizar a análise ou solicitação conforme necessário.
Segue funcional e atende quem não precisa de recursos de identificação de mídia mais avançados nem de fluxos mais “limpos”.

Versão v2

Oferece templates mais organizados, com a opção de ativar/desativar a identificação de mensagem de áudio, imagem, arquivo ou sticker.
A transcrição de áudio é feita automaticamente e já envia em formato de texto (transcrito) para o Assistente responder. Não precisa de passar pelo Webhook para transcrever.
Facilita o desenvolvimento de fluxos customizados dentro do Salesbot, pois cada tipo de mídia (#voice, #picture, #sticker, #file) é detectado automaticamente no LOG, permitindo ramificações específicas.
Integra-se de forma mais transparente ao Dify e n8n, possibilitando envio de dados em JSON, transcrição de áudios e análise de imagens.
Exige adequação para quem usa o template da v1 (por exemplo, remover check de “LOG OK” do template), mas traz maior flexibilidade e clareza nos blocos do Salesbot do template v2.

Em resumo: A v2 é uma evolução que torna a configuração do ByteGPT mais intuitiva, porém a v1 permanece disponível para quem já está habituado ou não precisa das novas funcionalidades.

3. Principais mudanças e novidades na Versão 2

3.1. Templates mais limpos e modulares

Os fluxos v2 foram reformulados para facilitar a leitura e a manutenção. Os blocos de Salesbot estão mais segmentados e organizados, permitindo ajustar prompts e respostas de forma intuitiva, tornando o fluxo mais limpo e eliminando nós redundantes.

3.2. Identificação nativa de tipos de mensagem

Na v2, a identificação de áudio, imagem, arquivo e sticker é feita internamente pela nossa API, sem necessidade de um webhook específico no Salesbot para reconhecer o tipo de mídia. Para isso, há um intervalo de 5 segundos no bloco do Salesbot, tempo necessário para que a API analise a mensagem e retorne o LOG apropriado — por exemplo, #voice, #picture, #sticker ou #file. Assim, o Salesbot pode direcionar cada tipo de conteúdo ao bloco correto.

Já na v1, era utilizado um LOG “OK” genérico para confirmar ações, o que limitava a criação de ramificações específicas para cada formato de mídia.

3.3. Tratamento de voz, imagem, arquivos e stickers

A v2 oficializa a detecção e o tratamento de cada tipo de mídia, sem precisar estender o fluxo. Isso amplia o campo de atuação do ByteGPT para:

Reconhecimento de voz: transcrevendo áudio de forma automática.
Interpretação de imagens: com prompts direcionados (por exemplo, analisar o conteúdo de uma foto).
Arquivos e stickers: podendo enviá-los ao Assistente (OpenAI, Dify, n8n ou Chatbase) ou tratá-los conforme a lógica do seu fluxo no Kommo.

3.4. Handler V2 atualizado e pausas

Quem migrar da v1 para a v2 precisará atualizar a URL do handler, adicionando “V2” no final (ex.: …/handlerV2).
Recomenda-se inserir uma pequena “pausa”, de 5 segundos (por exemplo, na etapa 253 do template), para dar tempo ao ByteGPT de identificar o tipo de mídia antes de responder.

3.5. Integração avançada com Dify ou n8n

A v2 deixa ainda mais clara a integração com o Dify ou n8n:

Áudios são transcritos automaticamente, sem precisar de configurações extras.
No caso de imagens e arquivos, se o Dify ou n8n estiver apto a recebê-los, o ByteGPT pode gerar prompts especializados para analisar esse conteúdo.
O fluxo de envio em JSON permite passar valores de campos da Kommo para o Dify ou n8n executar lógicas personalizadas.

4. Novos Templates na v2: As três variações principais

Ao acessar os novos templates do ByteGPT v2, você encontrará (geralmente) três modelos:

1. ChatGPT + Provider (OpenAI, Dify, n8n, Chatbase)

Combinação do ChatGPT e de um Provedor (OpenAI, Dify, n8n, ou Chatbase) no mesmo fluxo.
O ChatGPT pode ser usado para tarefas internas — por exemplo, um “prompt de intenção” para analisar a mensagem sem envolver o Assistente principal, ou para gerar exemplos, resumos e análises pontuais.
O uso em paralelo evita “contaminações” no contexto do Assistente principal, mantendo as instruções específicas da empresa intactas.
É possível ativar ou desativar o Assistente conforme necessário, ou até combinar ambos — por exemplo, o ChatGPT avalia a intenção e, em seguida, redireciona a conversa ao Assistente principal, que possui as instruções e o conhecimento do negócio.

2. JSON to Dify ou n8n

Possibilita enviar dados em formato JSON diretamente ao Dify ou n8n, trazendo flexibilidade para integrar campos específicos do Kommo (por exemplo, leads ou contatos).
Em vez de passar essas informações na mensagem do usuário (sys.query), você as envia como parâmetros de entrada para o Dify ou n8n. Você deve criar variáveis de entrada (no bloco Start) no Dify ou n8n. O mesmo nome da variável do Dify, deverá ser informado no bloco do Salesbot da Kommo, e informar o campo da Kommo correspondente.
Permite buscar dados externos, criar condições e inserir variáveis nas instruções do Dify ou n8n, viabilizando fluxos avançados de automação e lógica personalizada.

Diferencial do Template “JSON to Dify ou n8n”

A grande diferença é a possibilidade de definir o valor do JSON que será enviado ao Dify ou n8n. Por exemplo, inserir algo como:

{
  "variavel_dify1":"[Campo Kommo 1]",
  "variavel_dify2":"[Campo Kommo 2]",
  "variavel_dify3":"[Campo Kommo 3]"
}

A última linha não tem vírgula.

Certifique-se de que cada variável definida em “variavel_dify1”, também esteja criada dentro da sua aplicação do Dify.

Você pode passar quantos campos desejar, separando-os por vírgulas (exceto no último). Atente-se aos espaços sobressalentes, que não deverão existir.

Saiba mais sobre atualizações de campos no Kommo com o Dify ou n8n no artigo: Como atualizar campos do Kommo usando ByteGPT + Dify ou n8n

3. Provider (OpenAI, Dify, n8n, Chatbase)

Nesta opção, somente o Provedor é utilizado — toda a interação e personalização de prompts ocorre no próprio Provedor escolhido (OpenAI, Dify, n8n ou Chatbase), sem envolver o ChatGPT em etapas paralelas.
É um modelo mais enxuto e direto, ideal para quem quer que todas as discussões se mantenham no âmbito do Assistente, com maior liberdade para personalizar o fluxo.
No caso do Dify, ainda é possível usar o classificador de perguntas (atuando como um prompt de intenção) ou configurar rotas específicas para cenários distintos, proporcionando máxima flexibilidade na construção do fluxo.

Disponibilizamos aqui um Template Básico para o Dify, gratuitamente. Ele é um fluxo pronto para Dify, com classificadores e recuperação de conhecimento. Compatível com ByteGPT para interações inteligentes:

Fluxo pronto para Dify, com classificadores e recuperação de conhecimento. Compatível com ByteGPT para interações inteligentes.

Template para n8n:

Criamos dois templates gratuitos para começar com o n8n, sendo um para o Chat Trigger e outro para Webhook Trigger:

⬇ n8n: Download JSON (Chat e Webhook Trigger)

5. Como escolher entre v1 e v2?

Cenário 1: Fluxos básicos e sem demanda de novas mídias

Se seus fluxos atuam apenas com texto e áudio simples, sem precisar diferenciar ou analisar imagens, arquivos ou stickers, e não exigem integração em JSON com o Dify ou n8n, a v1 atende bem.
Caso esteja tudo rodando sem problemas e não haja necessidade de recursos mais complexos, você pode manter a v1 sem preocupações.

Cenário 2: Necessidade de voz, imagem, arquivos e integrações avançadas

Se você quer tratar diferentes tipos de mídia (voz, imagem, arquivos, stickers) de forma nativa no fluxo, a v2 faz isso internamente, sem a dependência de LOG “OK” ou configurações extras.
Para quem deseja integrações dinâmicas com o Dify ou n8n (como enviar dados do CRM via JSON), criar ramificações específicas e aproveitar as melhorias de estabilidade, a v2 é a melhor escolha.

Cenário 3: Iniciando agora ou planejando crescer

Se você está começando a usar o ByteGPT, ou prevê implementar mais funcionalidades no futuro, a v2 é fortemente recomendada.
Ela traz maior organização, compatibilidade com recursos futuros e facilita a expansão para novas mídias, integrações e fluxos avançados conforme a necessidade.

6. Integração com o Dify e envio de mídias

Recursos Dify — Acione os recursos de mídia em seu fluxo no Dify. Clique em Recursos, configure o “File upload”, ative os tipos de mídia que deseja e salve.

Para que o Dify aceite mídias (imagm, figurinha e arquivos) enviadas do Kommo pelo ByteGPT, siga estes passos:

No fluxo do Dify, abra Recursos e habilite File Upload.
Marque os tipos de mídia que deseja receber (imagens, documentos etc.).
Ative a opção Vision, adicione a variável sys.files à seção Visão e escolha um modelo LLM compatível com visão (por exemplo, GPT-4.1 ou similar).

Assim, todo arquivo recebido chegará automaticamente ao campo sys.files. Depois, adicione um bloco IF/ELSE que use sys.files para direcionar cada tipo de mensagem ao tratamento adequado.

Observação: para mensagens de voz, o ByteGPT já transcreve o áudio automaticamente e envia o texto diretamente ao Dify, sem exigir nenhuma configuração adicional.

IF/ELSE Dify — Bloco IF/ELSE (Se/Senão) no Dify. Adicione para gerenciar as regras para lidar com diferentes tipos de mídia. O caminho do ELSE, seria “Texto”, pois não atenderia nenhuma das opções.

Ative a opção Vision, adicione a variável sys.files à seção Visão e escolha um modelo LLM compatível com visão (por exemplo, GPT-4.1 ou similar)

Boas práticas ao usar Dify

Selecionar o modelo LLM adequado:
- Se você quiser analisar imagens (Vision) ou lidar com arquivos, ative ou escolha um modelo compatível com essas funções dentro do Dify.
- No caso de envio de imagens, verifique se o modelo reconhece ou interpreta imagens, caso contrário, use um bloco específico que suporte análise de conteúdo visual.
Blocos de Extração de Documentos:
- Para manipular arquivos de texto ou PDF, utilize o bloco de extração dentro do Dify.
- Esse bloco permite que você “leia” o conteúdo do arquivo e o encaminhe a outro bloco de LLM para posterior análise ou resumo.
Referência ao sys.files nos blocos de LLM:
- Ao enviar arquivos (imagem, PDF etc.) via ByteGPT, o Dify pode registrar esse conteúdo no campo sys.files.
- Certifique-se de indicar sys.files no bloco de LLM para que o modelo tenha acesso ao arquivo e possa interpretá-lo corretamente.
Uso de JSON para variáveis específicas:
- Caso queira passar informações do Kommo (ID de leads, dados de contato etc.) ou chamar APIs externas, aproveite a integração via JSON.
- Você pode parametrizar as variáveis no fluxo do Salesbot e enviá-las ao Dify, que executará a lógica ou fará a consulta necessária antes de retornar a resposta.
Exemplos de Aplicação:
- Áudios: O ByteGPT envia o áudio ao Dify, que transcreve automaticamente e devolve o texto para processamento no fluxo.
- Imagens: Se configurado para aceitar imagens, o Dify interpreta o arquivo e retorna uma descrição ou análise conforme seu prompt.
- Documentos: Use blocos de extração para processar o conteúdo do arquivo e, em seguida, encaminhe o texto a um LLM para gerar um resumo, insights ou respostas contextualizadas.

Ao seguir essas recomendações, você aproveita todo o potencial do Dify para criar fluxos de chatbot mais inteligentes, integrados e personalizados no ByteGPT.

7. Migração: o que considerar ao trocar para a v2

Handler: alterar a URL, adicionando “V2” (ex.: …/handlerV2).
Checagem de LOG “OK”: se seu fluxo antigo dependia disso, revise para não causar erros (v2 não usa esse LOG).
Pausa para identificação de mídia: inclua um intervalo (por exemplo, na etapa 253) para o ByteGPT processar adequadamente a mensagem recebida.
Testes no Salesbot: simule o envio de mensagens de áudio, imagem, arquivos, etc., para garantir que cada ramificação do fluxo esteja funcionando.

8. Considerações finais

A Versão 2 dos templates do ByteGPT representa um grande salto para quem deseja automatizar o atendimento via texto, voz, imagem ou arquivos de forma organizada, eficiente e escalável. Seus fluxos ficam mais “limpos” e as configurações modulares tornam simples a criação de experiências diferenciadas para cada tipo de mídia, além de integrações avançadas (como JSON + Dify).

Se você já utiliza a v1 e quer migrar, basta revisar o fluxo para remover a dependência do “LOG OK”, atualizar o handler para “handlerV2” e ajustar as pausas ou checagens necessárias para cada tipo de mídia.
Se vai começar do zero, escolha diretamente a v2 para contar com todos os recursos mais recentes.
Você pode usar MCP (Model Context Protocol) facilmente por meio do n8n e Dify, ou até mesmo interligar os dois (o Dify chamar algum MCP do n8n, por exemplo), facilitando as integrações entre ferramentas (tools) como Google Calendar, Google Sheets, Banco de Dados e várias outras.

Recomendação: usar o Dify ou n8n para potencializar seu projeto IA

O Dify é uma excelente forma de orquestrar diferentes modelos de IA (OpenAI, Gemini, Claude, entre outros), pois oferece maior flexibilidade e automação — seja em uma assinatura nos planos Dify ou na versão self-hosted. Para entender as vantagens de usar o Dify em vez de somente a OpenAI, recomendamos:

Próximos passos

Em caso de dúvidas sobre integrações, envio de mídias ou prompts especiais, consulte nossos tutoriais e materiais adicionais da Bytebio ou entre em contato com o suporte.

Independentemente do cenário — suporte técnico, pré-vendas, FAQ ou fluxos multimídia — a v2 é a base ideal para aproveitar todo o potencial de IA no Kommo CRM. Se precisar de ajuda com configuração ou migração, fale com o suporte técnico. A equipe Bytebio está pronta para orientar e garantir que o seu ByteGPT atinja o máximo desempenho.