ByteGPT: Novos templates v2 – Contexto, diferenças, vantagens e como escolher
Tá com pressa? Veja aqui um resumo
- ByteGPT v2:
- Detecção de voz, imagem, arquivo e sticker de forma nativa (sem “LOG OK”).
- Fluxos mais “limpos” e configurações modulares.
- JSON + Dify: envie dados do Kommo para lógicas avançadas ou múltiplos LLMs.
- Se vai começar agora ou quer crescer em recursos, v2 é a pedida.
- ByteGPT v1:
- Ainda funciona bem para quem só usa texto/áudio e não precisa de fluxos complexos.
- Não tem a detecção automática de tipo de mídia nem integrações avançadas em JSON.
- Por que Dify?
- Orquestra vários modelos (OpenAI, Gemini, Claude e mais).
- Suporta transcrição, análise de arquivos e uso de visão (para imagens).
- Pode rodar na nuvem ou em self-hosted (gratuito se você hospedar).
- Ideal para fluxos complexos que exigem variáveis, HTTP requests e automação extra.
- Dicas de Migração para v2:
- Altere o handler para “handlerV2”.
- Inclua pausa de 5s no bloco para a API detectar o tipo de mídia.
- Teste o envio de áudios, imagens e arquivos.

Introdução
As novas atualizações do ByteGPT apresentam os templates v2, que facilitam a configuração, expandem o suporte a diversos tipos de mídia (voz, imagem, arquivo e sticker) e abrem espaço para integrações avançadas — como o envio de dados em JSON ao Dify. Se você está na v1 e pensa em migrar, ou está escolhendo a melhor versão para iniciar, este guia mostra as principais diferenças, vantagens e boas práticas.
O ByteGPT pode operar com o ChatGPT (API) ou com vários “Provedores” (OpenAI, Dify, Chatbase). Cada um oferece uma maneira única de integrar recursos de IA ao seu fluxo no Kommo CRM — e, ao se conectar especificamente ao Dify, você orquestra virtualmente qualquer modelo de linguagem (OpenAI, Gemini, Claude, DeepSeek, entre outros) em um só lugar, personalizando fluxos de chatbot, enviando requisições HTTP e usando ferramentas avançadas de automação.
1. Visão Geral do ByteGPT
O ByteGPT é uma solução de Inteligência Artificial integrada ao Kommo CRM, capaz de criar um chatbot híbrido que combina fluxos tradicionais de Salesbot com modelos de linguagem avançados (GPT). Na prática, isso possibilita:
- Responder dúvidas frequentes 24/7.
- Interpretar mensagens em linguagem natural (incluindo voz e imagem).
- Oferecer um atendimento inteligente e personalizado, pois o ByteGPT pode ser configurado com dados e prompts específicos da sua empresa.
Com a evolução para a Versão 2 (v2) dos templates, o ByteGPT se tornou ainda mais flexível e fácil de manter, principalmente quanto ao tratamento de mídias e à integração com plataformas como o Dify.
2. Por que existem duas versões de templates (v1 e v2)?
Versão v1
- Foi a primeira geração de templates do ByteGPT, inicialmente focada em texto e áudio.
- A transcrição de áudio é feita após passar pelo Webhook (etapa 187) do ChatGPT e depois é enviado como texto (transcrito) ao Assistente.
- Permite a interpretação de imagens, mas depende de configurações específicas no fluxo, conforme o retorno do campo ByteGPT+ | LOG, acionando um prompt específico na etapa 235 caso o campo ByteGPT+ | LOG contenha #image. Isso permite personalizar a análise ou solicitação conforme necessário.
- Segue funcional e atende quem não precisa de recursos de identificação de mídia mais avançados nem de fluxos mais “limpos”.
Versão v2
- Oferece templates mais organizados, com a opção de ativar/desativar a identificação de mensagem de áudio, imagem, arquivo ou sticker.
- A transcrição de áudio é feita automaticamente e já envia em formato de texto (transcrito) para o Assistente responder. Não precisa de passar pelo Webhook para transcrever.
- Facilita o desenvolvimento de fluxos customizados dentro do Salesbot, pois cada tipo de mídia (#voice, #picture, #sticker, #file) é detectado automaticamente no LOG, permitindo ramificações específicas.
- Integra-se de forma mais transparente ao Dify, possibilitando envio de dados em JSON, transcrição de áudios e análise de imagens.
- Exige adequação para quem usa o template da v1 (por exemplo, remover check de “LOG OK” do template), mas traz maior flexibilidade e clareza nos blocos do Salesbot do template v2.
Em resumo: A v2 é uma evolução que torna a configuração do ByteGPT mais intuitiva, porém a v1 permanece disponível para quem já está habituado ou não precisa das novas funcionalidades.
3. Principais mudanças e novidades na Versão 2
3.1. Templates mais limpos e modulares
Os fluxos v2 foram reformulados para facilitar a leitura e a manutenção. Os blocos de Salesbot estão mais segmentados e organizados, permitindo ajustar prompts e respostas de forma intuitiva, tornando o fluxo mais limpo e eliminando nós redundantes.
3.2. Identificação nativa de tipos de mensagem
Na v2, a identificação de áudio, imagem, arquivo e sticker é feita internamente pela nossa API, sem necessidade de um webhook específico no Salesbot para reconhecer o tipo de mídia. Para isso, há um intervalo de 5 segundos no bloco do Salesbot, tempo necessário para que a API analise a mensagem e retorne o LOG apropriado — por exemplo, #voice, #picture, #sticker ou #file. Assim, o Salesbot pode direcionar cada tipo de conteúdo ao bloco correto.
Já na v1, era utilizado um LOG “OK” genérico para confirmar ações, o que limitava a criação de ramificações específicas para cada formato de mídia.
3.3. Tratamento de voz, imagem, arquivos e stickers
A v2 oficializa a detecção e o tratamento de cada tipo de mídia, sem precisar estender o fluxo. Isso amplia o campo de atuação do ByteGPT para:
- Reconhecimento de voz: transcrevendo áudio de forma automática.
- Interpretação de imagens: com prompts direcionados (por exemplo, analisar o conteúdo de uma foto).
- Arquivos e stickers: podendo enviá-los ao Assistente (OpenAI, Dify ou Chatbase) ou tratá-los conforme a lógica do seu fluxo no Kommo.
3.4. Handler V2 atualizado e pausas
- Quem migrar da v1 para a v2 precisará atualizar a URL do handler, adicionando “V2” no final (ex.: …/handlerV2).
- Recomenda-se inserir uma pequena “pausa”, de 5 segundos (por exemplo, na etapa 253 do template), para dar tempo ao ByteGPT de identificar o tipo de mídia antes de responder.
3.5. Integração avançada com Dify
A v2 deixa ainda mais clara a integração com o Dify:
- Áudios são transcritos automaticamente, sem precisar de configurações extras.
- No caso de imagens e arquivos, se o Dify estiver apto a recebê-los, o ByteGPT pode gerar prompts especializados para analisar esse conteúdo.
- O fluxo de envio em JSON permite passar valores de campos da Kommo para o Dify executar lógicas personalizadas.
4. Novos Templates na v2: As três variações principais
Ao acessar os novos templates do ByteGPT v2, você encontrará (geralmente) três modelos:
1. ChatGPT + Provider (OpenAI, Dify, Chatbase)
- Combinação do ChatGPT e de um Provedor (OpenAI, Dify ou Chatbase) no mesmo fluxo.
- O ChatGPT pode ser usado para tarefas internas — por exemplo, um “prompt de intenção” para analisar a mensagem sem envolver o Assistente principal, ou para gerar exemplos, resumos e análises pontuais.
- O uso em paralelo evita “contaminações” no contexto do Assistente principal, mantendo as instruções específicas da empresa intactas.
- É possível ativar ou desativar o Assistente conforme necessário, ou até combinar ambos — por exemplo, o ChatGPT avalia a intenção e, em seguida, redireciona a conversa ao Assistente principal, que possui as instruções e o conhecimento do negócio.
2. JSON to Dify
- Possibilita enviar dados em formato JSON diretamente ao Dify, trazendo flexibilidade para integrar campos específicos do Kommo (por exemplo, leads ou contatos).
- Em vez de passar essas informações na mensagem do usuário (sys.query), você as envia como parâmetros de entrada para o Dify. Você deve criar variáveis de entrada (no bloco Start) no Dify. O mesmo nome da variável do Dify, deverá ser informado no bloco do Salesbot da Kommo, e informar o campo da Kommo correspondente.
- Permite buscar dados externos, criar condições e inserir variáveis nas instruções do Dify, viabilizando fluxos avançados de automação e lógica personalizada.
Diferencial do Template “JSON to Dify”
A grande diferença é a possibilidade de definir o valor do JSON que será enviado ao Dify. Por exemplo, inserir algo como:
{
"variavel_dify1":"[Campo Kommo 1]",
"variavel_dify2":"[Campo Kommo 2]",
"variavel_dify3":"[Campo Kommo 3]"
}
A última linha não tem vírgula.
Certifique-se de que cada variável definida em “variavel_dify1”, também esteja criada dentro da sua aplicação do Dify.
Você pode passar quantos campos desejar, separando-os por vírgulas (exceto no último). Atente-se aos espaços sobressalentes, que não deverão existir.
3. Provider (OpenAI, Dify, Chatbase)
- Nesta opção, somente o Provedor é utilizado — toda a interação e personalização de prompts ocorre no próprio Provedor escolhido (OpenAI, Dify ou Chatbase), sem envolver o ChatGPT em etapas paralelas.
- É um modelo mais enxuto e direto, ideal para quem quer que todas as discussões se mantenham no âmbito do Assistente, com maior liberdade para personalizar o fluxo.
- No caso do Dify, ainda é possível usar o classificador de perguntas (atuando como um prompt de intenção) ou configurar rotas específicas para cenários distintos, proporcionando máxima flexibilidade na construção do fluxo.

5. Como escolher entre v1 e v2?
Cenário 1: Fluxos básicos e sem demanda de novas mídias
- Se seus fluxos atuam apenas com texto e áudio simples, sem precisar diferenciar ou analisar imagens, arquivos ou stickers, e não exigem integração em JSON com o Dify, a v1 atende bem.
- Caso esteja tudo rodando sem problemas e não haja necessidade de recursos mais complexos, você pode manter a v1 sem preocupações.
Cenário 2: Necessidade de voz, imagem, arquivos e integrações avançadas
- Se você quer tratar diferentes tipos de mídia (voz, imagem, arquivos, stickers) de forma nativa no fluxo, a v2 faz isso internamente, sem a dependência de LOG “OK” ou configurações extras.
- Para quem deseja integrações dinâmicas com o Dify (como enviar dados do CRM via JSON), criar ramificações específicas e aproveitar as melhorias de estabilidade, a v2 é a melhor escolha.
Cenário 3: Iniciando agora ou planejando crescer
- Se você está começando a usar o ByteGPT, ou prevê implementar mais funcionalidades no futuro, a v2 é fortemente recomendada.
- Ela traz maior organização, compatibilidade com recursos futuros e facilita a expansão para novas mídias, integrações e fluxos avançados conforme a necessidade.
6. Integração com o Dify e envio de mídias
Por que o Dify é relevante?
- Orquestra múltiplos modelos de IA: Você pode selecionar o provedor mais adequado (OpenAI, LLaMA, Claude etc.) para cada etapa do fluxo, incluindo modelos com suporte a visão ou processamento de arquivos.
- Transcrição e análise de arquivos nativamente: O Dify consegue transcrever áudios, extrair informações de documentos e interpretar imagens sem exigir integrações adicionais.
- Facilidade de integração com ByteGPT: Ele serve como um “hub” onde você configura lógicas avançadas — por exemplo, qual modelo LLM usar para cada tipo de mídia, ou como tratar variáveis enviadas em JSON pelo Salesbot.
Boas práticas ao usar Dify
- Selecionar o modelo LLM adequado:
- Se você quiser analisar imagens (Vision) ou lidar com arquivos, ative ou escolha um modelo compatível com essas funções dentro do Dify.
- No caso de envio de imagens, verifique se o modelo reconhece ou interpreta imagens, caso contrário, use um bloco específico que suporte análise de conteúdo visual.
- Blocos de Extração de Documentos:
- Para manipular arquivos de texto ou PDF, utilize o bloco de extração dentro do Dify.
- Esse bloco permite que você “leia” o conteúdo do arquivo e o encaminhe a outro bloco de LLM para posterior análise ou resumo.
- Referência ao sys.files nos blocos de LLM:
- Ao enviar arquivos (imagem, áudio, PDF etc.) via ByteGPT, o Dify pode registrar esse conteúdo no campo sys.files.
- Certifique-se de indicar sys.files no bloco de LLM para que o modelo tenha acesso ao arquivo e possa interpretá-lo corretamente.
- Uso de JSON para variáveis específicas:
- Caso queira passar informações do Kommo (ID de leads, dados de contato etc.) ou chamar APIs externas, aproveite a integração via JSON.
- Você pode parametrizar as variáveis no fluxo do Salesbot e enviá-las ao Dify, que executará a lógica ou fará a consulta necessária antes de retornar a resposta.
- Exemplos de Aplicação:
- Áudios: O ByteGPT envia o áudio ao Dify, que transcreve automaticamente e devolve o texto para processamento no fluxo.
- Imagens: Se configurado para aceitar imagens, o Dify interpreta o arquivo e retorna uma descrição ou análise conforme seu prompt.
- Documentos: Use blocos de extração para processar o conteúdo do arquivo e, em seguida, encaminhe o texto a um LLM para gerar um resumo, insights ou respostas contextualizadas.
Ao seguir essas recomendações, você aproveita todo o potencial do Dify para criar fluxos de chatbot mais inteligentes, integrados e personalizados no ByteGPT.
7. Migração: o que considerar ao trocar para a v2
- Handler: alterar a URL, adicionando “V2” (ex.: …/handlerV2).
- Checagem de LOG “OK”: se seu fluxo antigo dependia disso, revise para não causar erros (v2 não usa esse LOG).
- Pausa para identificação de mídia: inclua um intervalo (por exemplo, na etapa 253) para o ByteGPT processar adequadamente a mensagem recebida.
- Testes no Salesbot: simule o envio de mensagens de áudio, imagem, arquivos, etc., para garantir que cada ramificação do fluxo esteja funcionando.
8. Considerações finais
A Versão 2 dos templates do ByteGPT representa um grande salto para quem deseja automatizar o atendimento via texto, voz, imagem ou arquivos de forma organizada, eficiente e escalável. Seus fluxos ficam mais “limpos” e as configurações modulares tornam simples a criação de experiências diferenciadas para cada tipo de mídia, além de integrações avançadas (como JSON + Dify).
- Se você já utiliza a v1 e quer migrar, basta revisar o fluxo para remover a dependência do “LOG OK”, atualizar o handler para “handlerV2” e ajustar as pausas ou checagens necessárias para cada tipo de mídia.
- Se vai começar do zero, escolha diretamente a v2 para contar com todos os recursos mais recentes.
Recomendação: usar o Dify para potencializar seu projeto IA
O Dify é a melhor forma de orquestrar diferentes modelos de IA (OpenAI, Gemini, Claude, entre outros), pois oferece maior flexibilidade e automação — seja em uma assinatura nos planos Dify ou na versão self-hosted. Para entender as vantagens de usar o Dify em vez de somente a OpenAI, recomendamos:
- Por que usar o Dify em um projeto de chatbot?
- Vídeo: Dify + ByteGPT + Kommo: O poder da IA para um CRM mais eficiente
Próximos passos
Em caso de dúvidas sobre integrações, envio de mídias ou prompts especiais, consulte nossos tutoriais e materiais adicionais da Bytebio ou entre em contato com o suporte.
Independentemente do cenário — suporte técnico, pré-vendas, FAQ ou fluxos multimídia — a v2 é a base ideal para aproveitar todo o potencial de IA no Kommo CRM. Se precisar de ajuda com configuração ou migração, fale com o suporte técnico. A equipe Bytebio está pronta para orientar e garantir que o seu ByteGPT atinja o máximo desempenho.