Fase 3 — Projetar a Avaliação
1. Introdução
A fase 3 detalha, de forma objetiva e sistemática, como as características de qualidade selecionadas: Adequação Funcional e Confiabilidade, serão medidas e avaliadas no aplicativo SouGov.br Mobile, software que foi escolhido pelos membros anteriormente durante a [fase1].
Versão SouGov Mobile
Versão 5.573 — Versão mobile utilizada ao longo desta avaliação.Este Plano de Avaliação traduz as definições da Fase 2 (metas, questões e métricas GQM) em um roteiro prático, contemplando:
- Métodos de coleta de dados
- Critérios de julgamento
- Recursos necessários
- Cronograma de execução
A elaboração segue as diretrizes da ISO/IEC 25040, garantindo que a avaliação seja rastreável, repetível e reprodutível, permitindo que os resultados obtidos sejam confiáveis e suportem decisões de melhoria contínua no sistema.
Esta fase garante que:
- Cada métrica esteja diretamente vinculada a uma meta de avaliação, evitando medições sem valor prático.
- Os métodos de análise permitam identificar lacunas
2. Objetivos da Avaliação
-
Avaliar o grau de correspondência entre as funcionalidades implementadas e as necessidades dos usuários (Adequação Funcional) .
-
Verificar a confiabilidade operacional do aplicativo, considerando falhas relatadas, estabilidade e comportamento sob condições normais de uso (Confiabilidade).
3. Metodologia de Avaliação
A avaliação será conduzida de acordo com as cinco etapas do processo de avaliação da ISO/IEC 25040, que servem como referência metodológica:
-
Estabelecimento dos requisitos de avaliação (já realizado na Fase 1);
-
Especificação da avaliação (modelo GQM definido na Fase 2);
-
Projetar a avaliação (fase atual);
-
Executar a avaliação (coleta e mensuração prática dos dados);
-
Concluir a avaliação (interpretação e julgamento dos resultados).
Nesta fase, são detalhados os procedimentos de coleta e análise para cada métrica GQM (M1 a M6), bem como a estrutura operacional necessária para realizar a avaliação com consistência.
4. Planejamento das Métricas e Métodos de Coleta
As métricas a seguir derivam diretamente da Fase 2 e estão agrupadas conforme as duas características de qualidade priorizadas.
4.1. Adequação Funcional
| Métrica | Descrição / Finalidade | Método de Coleta | Fonte de Dados | Frequência / Amostragem | Critério de Julgamento (da Fase 2) |
|---|---|---|---|---|---|
| M1 — Frequência de Lacunas Funcionais (FLF) | Avalia a frequência com que funcionalidades esperadas estão ausentes ou incompletas em um sistema. | Contagem de N-grams em reviews neutros/negativos com termos de ausência (ex:“falta”, “não tem”, “precisava”).Para calcular a porcentagem, somamos o número de ocorrências dos dois N-Grams identificados e dividimos pelo total de citações. | Reviews neutros e negativos contendo N-grams de ausência.( Ferramenta de análise utiliza as informações gerais do aplicativo e as avaliações publicadas em 2025.) | Comentários e avaliações de 2025 (01/01/2025 a 17/11/2025). | Excelente: ≤ 5% / Bom: 6–15% / Regular: 16–25% / Insuficiente: > 25% |
| M2 — Proporção de Relatos de Incorreção (PRI) | Avalia a correção funcional dos resultados do aplicativo (ex.: cálculo de contracheque, férias).A presença recorrente desses termos sugere que pode haver falhas no fluxo dessas funcionalidades. | Mapeamento via PLN e filtragem de N-grams que relatem incorreção funcional (“cálculo errado”, “valor diferente”).Para calcular a PRI, utilizamos o valor estimado dos dois termos que podem indicar incorreção funcional e dividimos pela quantidade de avaliações negativas que o aplicativo recebeu durante o período que as informações foram coletadas. Com a seguinte fórmula: PRI = (Total de ocorrências dos N-Grams indicativos) / (Total de avaliações negativas) | N-Grams presentes nos comentários neutros e negativos dos usuários, buscando termos que indiquem possíveis problemas na execução das funcionalidades.( Ferramenta de análise utiliza as informações gerais do aplicativo e as avaliações publicadas em 2025.) | Comentários e avaliações de 2025 (01/01/2025 a 17/11/2025). | Excelente: ≤ 5% / Bom: 6–15% / Regular: 16–25% / Insuficiente: > 25% |
| M3 — Índice de Fricção na Tarefa Crítica (IFTC) | Indica a taxa de sucesso percebida pelo usuário em relação à realização de tarefas críticas no aplicativo. Quanto menor o índice, melhor a experiência do usuário. (ex.: Prova de Vida Digital). | Análise de N-grams de fricção (“não consigo finalizar”, “caminho confuso”, “tela sumiu”).Todos esses termos estão relacionados à tarefa crítica de acessar o aplicativo, essencial para a realização de qualquer outra funcionalidade dependente do SouGov. Calculo: Soma dos N-grams levados em consideração na métrica dividido pelo total de N-grams | Comentários e avaliações nas App Stores.( Ferramenta de análise utiliza as informações gerais do aplicativo e as avaliações publicadas em 2025.) | Comentários e avaliações de 2025 (01/01/2025 a 17/11/2025). | Excelente: ≤ 10% / Bom: 11–30% / Regular: 31–50% / Insuficiente: > 50% |
Significado de N-Grams
N-Grams: Identifica as frases e termos mais frequentes (N-grams) em comentários positivos e negativos, após a remoção de espaço vazio e frases irrelevantes. Isso destaca o valor central percebido e os principais pontos de fricção.
4.2. Confiabilidade
| Métrica | Descrição / Finalidade | Método de Coleta | Fonte de Dados | Frequência / Amostragem | Critério de Julgamento (da Fase 2) |
|---|---|---|---|---|---|
| M4 — Frequência de Instabilidade Operacional (FIO) | Avalia a estabilidade do sistema e a ocorrência de interrupções perceptíveis pelos usuários. | Mapeamento de Qualidade baseado em Processamento de Linguagem Natural (PLN), considerando termos indicativos de problemas, como:“travamentos”, “lentidão” e “instabilidade”. Cálculo pela fórmula: FIO = (menções aos termos críticos) / (total de reviews). | Comentários de usuários que mencionem travamentos, lentidão ou instabilidade ( Ferramenta de análise utiliza as informações gerais do aplicativo e as avaliações publicadas em 2025.) | Comentários e avaliações de 2025 (01/01/2025 a 17/11/2025). | Excelente: ≤ 2% / Bom: 3–5% / Regular: 6–10% / Insuficiente: > 10% |
| M5 — Índice de Recuperação Observável (IRO) | Mede o tempo necessário para o sistema se recuperar de falhas críticas (TMPR). | Para isso, comparamos os relatos de falhas críticas identificadas nos N-Grams e reviews negativos com as informações de atualização do aplicativo na App Store do SouGov.br.O cálculo será feito a partir da estimativa de soma dos N-Grams para termos e reviews críticos e dividir esse valor pela soma das quantidades de avaliações 4 e 5 na App Store do Android, o resultado que der reduzimos de 1(correspondente a 100%), e esse resultado será o valor obtido para classificar a métrica: IRO = 1 - (Estimativa de N-Grams de termos e reviews críticos) / (Total de avaliações positivas, notas 4 e 5) | Comentários nas lojas de aplicativos e página oficial do aplicativo ( Ferramenta de análise utiliza as informações gerais do aplicativo e as avaliações publicadas em 2025.) | Comentários e avaliações de 2025 (01/01/2025 a 17/11/2025). | Excelente: ≥ 80% / Bom: 60–79% / Regular: 40–59% / Insuficiente: < 40% |
| M6 — Densidade de Relatos de Bugs Críticos (DRBC) | Mede a incidência de falhas percebidas pelos usuários (ex.: crash, erro de servidor). | Mapeamento de Qualidade (PLN) de termos como “bug”, “erro” e contagem da proporção de menções críticas no total de reviews. Fórmula: Densidade de Bugs Críticos = (Número de menções a Bugs/Erros) / (Total de reviews críticos) | Comentários nas lojas de aplicativos.( Ferramenta de análise utiliza as informações gerais do aplicativo e as avaliações publicadas em 2025.) | Comentários e avaliações de 2025 (01/01/2025 a 17/11/2025). | Excelente: ≤ 2% / Bom: 3–5% / Regular: 6–10% / Insuficiente: > 10% |
5. Especificação dos Recursos
Os seguintes recursos são necessários para a execução completa e controlada do Plano de Avaliação:
5.1 Recursos Humanos
| Membro | Responsabilidades |
|---|---|
| Avaliadores (Equipe) | Execução dos testes, coleta e registro de dados. |
5.2 Materiais de Apoio e Ferramentas Técnicas
| Recurso | Função na Avaliação |
|---|---|
| Software Objeto de Avaliação | Aplicação SOUGOV (versão 5.573 MOBILE ANDROID ). |
| Ferramentas de Coleta (Scrapers) | Utilizadas para extrair os dados públicos de (Play Store e Notas de Atualização.) |
| Ferramentas de Análise PLN | Ferramenta de análise(5.2.2). Execução do Mapeamento de Qualidade, N-Grams e classificação de Sentimento. |
| Registro | Planilha Eletrônica (Excel) para coleta de dados estraídos dos feedbacks. |
| Documentação | Critérios de Avaliação Fase 2. |
5.2.1 Ferramentas de coleta e análise em avaliação para uso
A equipe está atualmente analisando 3 ferramentas de coleta e análise de comentários nas lojas de sistema mobile mais comuns(google play store(android) e app store(apple)), de modo a determinar quais os prós e os contras de cada uma e qual será a melhor opção a ser utilizada, podendo ser definida apenas uma ferramenta como suficiente para o objetivo ou as 3 como complementares, a seguir trazemos uma análise inicial sobre cada uma das três selecionadas, respectivamente: appbot, appfollow e iramuteq ou IRaMuTeQ, o segundo sendo a página oficial do desenvolvedor da aplicação, Pierre Ratinaud, porém escrito em francês, mas o google fornece tradução para a página.
5.2.1.1 appbot
Em boa parte dos ranqueamentos de softwares empresariais, o appbot apareceu, sendo uma ferramenta útil para estar sendo utilizada por ter as funcionalidades que precisaremos utilizar, sendo elas análise de sentimentos e análise textual, a primeira seria feita para termos uma noção de como os usuários do SouGov se sentem ao utilizar o mesmo e o que falam sobre ao deixar avaliações nas lojas em que baixaram o mesmo, a segunda seria para termos uma noção de quais tópicos são os mais comentados sobre nas avaliações para trazer na coleta de dados e aplicação o que foi mais comentado que pode ser usado em conjunto com as métricas definidas.
Porém, o appbot é uma ferramenta paga, o que dificulta a avaliação continua dos comentários.
5.2.1.2 appfollow
Também é uma das ferramentas que mais apareceram em ranqueamento para o que queríamos, realizando funções parelhas ao do appbot, porém trazendo também o feedback sobre aplicativos concorrentes, essa funcionalidade não possui utilidade para o grupo, pois o SouGov é disponibilizado pelo governo. A sua maior vantagem em relação ao appbot é possuir uma inscrição gratuita, garantindo uma reprodutibilidade da análise de forma mais coerente sem precisar se preocupar com conseguir uma conta de teste sempre que for refazer a avaliação de qualidade.
5.2.1.3 iramuteq
O iramuteq é uma ferramenta(software) de análise de textos que utiliza o ambiente estatístico do software R e a linguagem python, viabilizando a análise de dados textuais que os comentários possuem, utilizando-se de diversos tipos de análises para cobrir o que vamos utilizar, podendo trazer um agrupamento de palavras que aparecem com maior frequência, palavras que aparecem juntas, dentre outras coisas que podem nos dar uma boa noção de quais são os principais pontos discutidos sobre o SouGov.
No entanto, o iramuteq não possui uma forma de fazer a análise de sentimento até onde observamos nas fontes que selecionamos para tentar entender o seu nicho de uso, sendo eles IRAMUTEQ: um software gratuito para análise de dados textuais, um artigo curto contando sobre o uso dele em alguns países e do início de sua utilização no Brasil, trazendo uma visão da utilidade do mesmo, as outras fontes foram a maioria em videos explicando o uso da ferramenta, portanto precisaremos de utilizar outra ferramenta para a análise de sentimento, podendo ser uma das citadas antes do IRAMUTEQ ou outra que o grupo venha a encontrar.
5.2.2 Ferramenta de coleta definida para uso
Com base nos problemas citados na sessão 5.2.1, o grupo optou por produzir uma ferramenta própria para a coleta de dados, onde conseguisse realizar tudo o que precisávamos sem depender de unir mais de um software ou pagar uma licença para uso da ferramenta. Mais infromações a respeito da ferramenta, estão na página Ferramenta de análise.
6. Cronograma de Ações
| Etapa / Métrica | Atividades Resumidas | Responsável(is) | Período |
|---|---|---|---|
| Coleta das Reviews | Extração de reviews das lojas, limpeza dos dados, unificação das bases | Matheus, Laryssa, Giovana | Dia 1 Semana 1 |
| Processamento NLP – Polaridade | Aplicação de análise de sentimento, cálculos de polaridade, identificação de padrões | Matheus, Laryssa | Dia 2 Semana 1 |
| Geração de N-grams (Unigram, Bigram, Trigram) | Tokenização, remoção de stopwords, geração e validação dos N-grams | Matheus,Ana Beatriz, Carlos | Dia 3 Semana 1 |
| Identificação de Termos Críticos | Seleção de termos negativos, análise de frequência e relevância | Matheus,Carlos, Giovana | Dia 3-4 Semana 1 |
| Mapa de Calor de Sentimentos | Cruzamento de emoções com funcionalidades, agrupamento por tópicos | Matheus, Laryssa, Ana Beatriz | Dia 4 Semana 1 |
| Análise de Correlação com Falhas | Relação entre reviews negativas e eventos de falha (camera, login, biometria etc.) | Matheus, Carlos | Dia 5 Semana 1 |
| Síntese das Métricas Derivadas | Interpretação dos resultados (polaridade, termos críticos, N-grams) | Matheus, Laryssa, Giovana, Ana Beatriz | Dia 1 Semana 2 |
| Redação da Conclusão Analítica | Construção das conclusões gerais a partir das evidências | Todos | Dia 2 Semana 2 |
| Consolidação do Relatório Final | Revisão, formatação e organização de todo o conteúdo analisado | Todos | Final da Semana 2 |
7. Garantia de Rastreabilidade e Reprodutibilidade
Para garantir a rastreabilidade e a reprodutibilidade dos resultados, cada métrica será acompanhada de um registro de medição padronizado, contendo:
-
Versão do aplicativo analisado;
-
Fonte de coleta (App Store, documentação etc.);
-
Método e ferramenta utilizada;
-
Resultado numérico(quantitativo);
-
Classificação segundo o critério de julgamento definido na Fase 2.
Esses registros servirão como evidência para validação dos resultados.
Bibliografia
Ministério da Gestão e da Inovação em Serviços Públicos (MGI). SouGov – Aplicativo oficial de serviços do servidor público federal. Disponível em: https://www.gov.br/servidor/pt-br/sou-gov. Acesso em: 27 setembro 2025.
Governo Federal. Plataforma Gov.br – Serviços digitais para o cidadão. Disponível em: https://www.gov.br. Acesso em: 27 setembro 2025.
Tabela de Contribuição - Grupo Frans Bilas
| Matrícula | Nome do aluno | Atividade Realizada | % de Contribuição |
|---|---|---|---|
| 200060783 | Ana Beatriz W. Massuh | Análise e Pesquisa | 20% |
| 190085584 | Carlos Eduardo Mendes | Análise e Pesquisa | 20% |
| 231034707 | Giovana Ferreira Santos | Análise e Pesquisa | 20% |
| 231026840 | Laryssa Felix | Análise e Pesquisa | 20% |
| 202070064 | Matheus do Vale | Pesquisa e criação da ferramenta | 20% |
Histórico de versão
| Versão | Data | Descrição | Autor(a) |
|---|---|---|---|
| 1.0 | 10/11/2025 | Conteúdo da fase 3 | Laryssa Felix |
| 2.0 | 16/11/2025 | Adição de análise inicial das ferramentas de coleta | Carlos Eduardo |
| 2.1 | 16/11/2025 | Ajuste para deploy pages | Ana Beatriz Massuh |
| 3.0 | 18/11/2025 | Ajustes no Alinhamento com a fase 2 | Laryssa Felix |
| 4.0 | 19/11/2025 | Adição da explicação sobre a ferramenta escolhida(inicial) | Carlos Eduardo |
| 5.0 | 23/11/2025 | Correções | Laryssa Felix |