LLM da Moveo.AI vs GPT-4 para experiência do cliente
George
Chief of AI
June 26, 2024
in
🗞️ Moveo news
Você também está cansado de ver o GPT-4 da OpenAI tentando resolver todos os problemas de forma ineficiente hoje em dia?
As empresas ainda não sabem que existem modelos de linguagem específicos personalizados para cada um de seus setores, e nós da Moveo.AI estamos aqui para te mostrar como isso funciona!
Decidimos comparar nosso modelo de linguagem próprio com a última edição do GPT-4 em sete dimensões, e os resultados são claros:
A LLM da Moveo supera o GPT-4 se tratando de experiência do cliente!
Agentes conversacionais da Moveo
Em um mundo que está em rápida evolução e com clientes cada vez mais exigentes por uma experiência diferenciada, a Moveo.AI se destaca como uma plataforma inovadora que usa a Inteligência Artificial Generativa (GenAI) para transformar a interação das empresas com seus clientes. Os Modelos de Linguagem de Grande Escala, em inglês “LLM”, próprios da Moveo.AI são treinados com dados históricos e em tempo real. Estes dados alimentam Agentes Virtuais (VAs) que se conectam a dados da sua própria empresa para fornecer respostas precisas e contextualmente relevantes às dúvidas dos clientes.
Os Agentes Virtuais da Moveo.AI são projetados para seguir instruções e realizar tarefas executando fluxos de trabalho que descrevem processos específicos do seu negócio. Esses fluxos de trabalho podem ser criados a partir de descrições que você fornece em comandos de texto ou através de um construtor “drag’n’drop’ sem código, usando funções de arrastar e soltar.
Arquitetura do sistema
O sistema da Moveo.AI tem um processo de tomada de decisão que encaminha mensagens dos usuários de forma eficiente. Quando um usuário envia uma mensagem, nosso modelo de linguagem de grande escala (LLM) analisa a pergunta e define a resposta mais apropriada.
Dependendo da análise feita, o sistema pode executar um fluxo de trabalho predefinido por sua empresa ou utilizar uma base de informação dinâmica para gerar respostas precisas e contextualmente relevantes.
LLM Moveo x GPT-4
Vamos comparar a Moveo.AI com o GPT-4, focando na diferença da forma de geração de respostas, já que o GPT-4 não possui capacidades de planejamento e entendimento de dados estruturados.
Análise do Pipeline RAG
Para entender como funciona o sistema RAG da Moveo.AI, pense no seguinte:
Quando um usuário envia uma mensagem, o sistema consulta os documentos mais relevantes de uma base de dados de sua empresa.
Isso garante que as respostas da IA sejam baseadas em informações confiáveis e precisas.
Os documentos de sua empresa são consultados junto com o histórico de conversas passadas e instruções personalizadas que você pré-define.
Estas informações são passadas para o modelo de linguagem(LLM) da Moveo.
O modelo de linguagem sintetiza essas informações e cria uma resposta personalizada
A mensagem é disparada para o(a) cliente, respondendo exatamente a dúvida em questão
Para comparar o modelo de linguagem da Moveo.AI com o GPT-4, avaliamos a qualidade das respostas às perguntas dos usuários finais. A avaliação é baseada em uma amostra aleatória de centenas de entradas dos dados de produção da Moveo, que nem o nosso modelo de linguagem nem o GPT-4 tinham sido encontrados antes.
Cada entrada é convertida em um prompt que consiste na pergunta do usuário, no histórico da conversa, no conhecimento base de documentos fornecidos por você, que chamamos de coleção e nas instruções que fornecemos ao agente.
Por exemplo, um prompt teria um formato semelhante ao seguinte:
Pergunta do usuário
Histórico da conversa
Conhecimento base dos documentos da coleção
Instruções ao vivo
Instruções personalizadas
Assim, podemos comparar como cada modelo responde a essas situações, avaliando a qualidade e a precisão das respostas fornecidas.
Dimensões de Avaliação e Metodologia
O processo de avaliação comparou as respostas do LLM da Moveo e do GPT-4 em sete dimensões que capturam características críticas no contexto da experiência do cliente. Cada dimensão recebeu uma pontuação, determinando qual LLM forneceu a melhor resposta.
Dimensões de Avaliação
Alucinação: Garante que o LLM respeita o conhecimento base e os dados fornecidos sem gerar respostas incorretas.
Repetição: Mede a capacidade do LLM de evitar repetição considerando o contexto do diálogo.
Desambiguação: Avalia se o LLM faz perguntas de acompanhamento para esclarecer questões ambíguas do usuário.
Transferência para agente humano: Verifica se o LLM necessita conectar com um agente de suporte humano ao cliente apenas quando apropriado.
Legibilidade: Avalia a clareza e a formatação das respostas do LLM.
Linguagem: Avalia a correção sintática e a clareza da linguagem do LLM.
Markdown: Mede o uso correto da sintaxe markdown pelo LLM para formatação.
Metodologia
Para avaliar a performance de diferentes modelos, usamos uma instância separada do GPT-4 como avaliador, fazendo uma chamada API para cada um dos centenas de exemplos.
É importante dizer que o GPT-4, tende a gerar respostas criadas por ele mesmo de acordo com pesquisas na internet.
É importante dizer que quando pedimos uma comparação de resultados de um sistema com outro, a tendência é que a ferramenta original sempre favoreça a ela mesma. Em outras palavras, se eu eu perguntar para o GPT-4 se nós somos melhores do que o próprio GPT-4, a tendência é que ela diga que o GPT-4 é melhor.
Mesmo assim, decidimos fazer o teste.
Resultados
Os resultados mostram que a LLM própria da Moveo superou o GPT-4 quando se trata de experiência do cliente em todas as dimensões exceto por uma: Markdown.
É importante mencionar que em termos de “alucinação”, o GPT-4 tende a ter um resultado pior, o que pode ser a grande diferença na experiência do seu cliente(CX).
Como exemplo, o GPT-4 tem mais probabilidade de fornecer informações erradas sobre a característica de um produto, trazendo desinformação e confusão para seu cliente. Isso gera insatisfação e aumenta a demanda de suporte.
O tempo de resposta é crucial para a satisfação de seu cliente, especialmente em cenários “enterprise”, quando os usuários esperam respostas instantâneas para suas dúvidas. Imagine um cliente que necessita uma solução rápida pois teve seu cartão de crédito clonado.
Com a LLM da Moveo, especializada em customer experience, eles recebem uma solução em 5 segundos, ao contrário do GPT-4 que demorou em média 18.
Isso significa que a Moveo.AI poderia ter resolvido mais 4 demandas do mesmo tipo no mesmo tempo que o GPT-4 resolveria apenas 1.
Conclusão
Os resultados da avaliação mostram a superioridade da LLM própria da Moveo, se comparada ao GPT-4.
Apesar do viés natural de se utilizar o GPT-4 como padrão, a LLM da Moveo demonstrou ter uma latência significativamente superior.
A abordagem inovadora da Moveo.AI e seu foco na experiência do cliente (CX) fazem dela uma ferramenta poderosa para empresas que buscam melhorar as interações com os clientes por meio de soluções avançadas de IA.
Saiba mais sobre a Moveo.AI e como ela pode transformar a experiência do seu cliente!