LLM da Moveo.AI vs GPT-4 para Experiência do Cliente

Jorge

Chefe de IA

in

🗞️ Moveo notícias

Não estamos todos cansados do GPT-4 da OpenAI tentando ser tudo para todos? As empresas precisam de LLMs específicos para cada vertical, e nós colocamos o nosso à prova definitiva! Decidimos comparar nosso LLM proprietário com a edição mais recente do GPT-4 em 7 dimensões, e os resultados são claros:

O LLM da Moveo supera o GPT-4 em CX!

Agentes LLM da Moveo.AI

No mundo em rápida evolução da experiência do cliente (CX), a Moveo.AI se destaca como uma plataforma pioneira que aproveita a Inteligência Artificial Generativa (GenAI) para transformar a forma como as empresas interagem com seus clientes. Os Modelos de Linguagem de Grande Escala (LLMs) proprietários da Moveo.AI, treinados em dados históricos e em tempo real de CX, alimentam Agentes Virtuais (VAs) semelhantes a humanos que podem se conectar perfeitamente a dados em tempo real e bases de conhecimento não estruturadas para fornecer respostas precisas e contextualmente relevantes a perguntas dos clientes.

Os VAs da Moveo.AI são projetados para seguir instruções e realizar tarefas executando fluxos de trabalho que descrevem processos de negócios específicos. Esses fluxos de trabalho podem ser criados a partir de descrições em linguagem natural ou de um construtor de arrastar e soltar sem código. Além disso, os VAs respondem a perguntas dos usuários usando bases de conhecimento não estruturadas por meio de um pipeline de Geração Aumentada por Recuperação (RAG) integrado.


Arquitetura do Sistema

No núcleo do sistema da Moveo.AI está um processo avançado de tomada de decisão que roteia eficientemente as mensagens dos usuários. Quando um usuário envia uma mensagem, um planejador alimentado por LLM analisa a pergunta e seleciona o mecanismo de resposta mais apropriado. Dependendo da análise, o sistema pode executar um fluxo de trabalho predefinido ou utilizar um pipeline RAG dinâmico para gerar respostas precisas e contextualmente relevantes.

system_architect
LLM da Moveo vs GPT-4

Vamos comparar a Moveo.AI com o GPT-4, focando no pipeline RAG, uma vez que o GPT-4 não possui capacidades de planejamento. Vamos enfatizar fortemente as métricas de latência para fornecer uma análise abrangente de desempenho, que é crucial em ambientes empresariais.


Análise do Pipeline RAG

Para entender a visão geral de alto nível do pipeline RAG da Moveo.AI, considere o seguinte fluxo de trabalho:

Quando um usuário envia uma mensagem, o sistema recupera os documentos mais relevantes de uma coleção definida. Isso garante que as respostas do LLM estejam fundamentadas em informações confiáveis e precisas. Os documentos recuperados, o histórico de conversas, instruções personalizadas, instruções ao vivo e dados do perfil de IA são então passados ao LLM. O LLM sintetiza essas informações para gerar uma resposta coerente e informativa.

Para comparar o LLM da Moveo.AI com o GPT-4, avaliamos a qualidade das respostas às perguntas dos usuários finais. A avaliação foi baseada em uma amostra aleatória de milhares de entradas dos dados de produção da Moveo, que nem o nosso LLM nem o GPT-4 haviam encontrado antes. Cada entrada foi convertida em um prompt composto pela pergunta do usuário, histórico de conversas, conhecimento de referência dos documentos da coleção, instruções ao vivo e instruções personalizadas. Por exemplo, um prompt seria semelhante ao seguinte formato:


Dimensões e Metodologia de Avaliação

O processo de avaliação analisou as respostas do LLM da Moveo e do GPT-4 em sete dimensões que capturam características críticas dentro do cenário da experiência do cliente. Cada dimensão recebeu uma pontuação, determinando qual LLM forneceu uma resposta melhor.

Dimensões de Avaliação

  1. Alucinação: Assegura que o LLM adira ao conhecimento de referência sem gerar respostas incorretas.

  2. Repetição: Mede a capacidade do LLM de evitar repetir-se e considerar o contexto do diálogo.

  3. Desambiguação: Avalia se o LLM faz perguntas de acompanhamento para esclarecer perguntas ambíguas dos usuários.

  4. Transferência para agente ao vivo: Verifica se o LLM sugere conectar-se com um agente de suporte ao cliente apenas quando apropriado.

  5. Legibilidade: Avalia a clareza e formatação das respostas do LLM.

  6. Linguagem: Avalia a correção sintática e a clareza da linguagem do LLM.

  7. Markdown: Mede o uso correto da sintaxe markdown pelo LLM para formatação.


Metodologia

Para avaliar o desempenho dos diferentes modelos, usamos uma instância separada do GPT-4 como “avaliador”, realizando uma única chamada de API para cada uma das amostras.

É importante notar que o GPT-4, quando usado como avaliador, tende a favorecer respostas geradas por ele mesmo. A documentação da comunidade de IA indica um viés quando o mesmo modelo é usado para gerar e avaliar respostas. No entanto, apesar de seu viés em relação ao GPT-4, continuamos a usá-lo porque é o modelo fechado mais poderoso.


Resultados

Esses resultados mostram que o LLM personalizado da Moveo, ajustado para a Experiência do Cliente, supera o GPT-4-0613 em todas as dimensões de avaliação, exceto na dimensão Markdown, onde o GPT-4 se sai melhor na formatação estilística.

O mais importante é mencionar que, em termos de alucinação, o GPT-4 se sai pior, o que pode prejudicar a Experiência do Cliente (CX). Por exemplo, se o GPT-4 fornecer informações incorretas sobre uma característica de um produto, isso pode levar a possíveis responsabilidades, insatisfação do cliente e aumento das solicitações de suporte. Cada vez mais exemplos da vida real, como o chatbot da Air Canada fornecendo informações incorretas a um viajante, são evidências disso.

O tempo de resposta é crucial, especialmente em cenários empresariais onde os clientes esperam respostas instantâneas às suas perguntas. Imagine um cliente entrando em contato com uma consulta urgente, por exemplo, sobre um cartão de crédito roubado que precisa ser bloqueado. Com o LLM da Moveo, especificamente otimizado para CX, eles recebem uma resposta em apenas 5 segundos. Em contraste, o GPT-4 leva pelo menos 18 segundos… Nesse tempo, a Moveo.AI poderia ter lidado com mais de 4 consultas, melhorando significativamente a eficiência do suporte e a satisfação do cliente.


Conclusão

Os resultados de benchmark destacam a superioridade do LLM da Moveo para CX em relação ao GPT-4. Apesar do viés inerente de usar o GPT-4 como avaliador, o LLM da Moveo se destacou na maioria das dimensões e demonstrou latência significativamente mais baixa. Para uma avaliação mais abrangente, avaliações futuras incorporarão diferentes LLMs como avaliadores e avaliadores humanos.

A abordagem inovadora da Moveo.AI e seu foco em CX a tornam uma ferramenta poderosa para empresas que buscam aprimorar as interações com os clientes por meio de soluções avançadas de IA.

Saiba mais sobre a Moveo.AI e como ela pode transformar sua experiência do cliente hoje!

Índice

Share article