1 Conceitos Básicos e Exemplos
1.1 Introdução
O objetivo deste capítulo inicial é apresentar alguns conceitos e fundamentos de uma das áreas da Estatística e Análise de Dados que mais se desenvolveram nas últimas duas décadas do século XX. Esse avanço foi impulsionado pela evolução das técnicas estatísticas aliada ao progresso computacional.
Na Análise de Sobrevivência, a variável resposta é, em geral, o tempo até a ocorrência de um evento de interesse. Especificamente, essa área se concentra em modelar e compreender o tempo necessário para que um evento significativo ocorra, sendo este denominado tempo de falha. Como exemplo, Colosimo e Giolo (2006) mencionam casos como o tempo até a morte de um paciente, até a cura de uma doença ou até a recidiva de uma condição clínica.
Uma questão frequentemente levantada é: por que não utilizar outras técnicas estatísticas? Métodos tradicionais não são adequados para dados de sobrevivência devido a uma característica única: a censura. Esse conceito refere-se à observação parcial do tempo de falha, como ocorre quando o acompanhamento de um paciente é interrompido antes do evento de interesse. A censura, sendo um elemento essencial da Análise de Sobrevivência, caracteriza situações em que o tempo de falha real é desconhecido, sabendo-se apenas que ele excede determinado ponto.
1.2 Tempo de Falha
Na Análise de Sobrevivência, é fundamental estabelecer alguns pontos iniciais para o estudo. O primeiro deles é o tempo inicial do estudo, que deve ser claramente definido para garantir que os indivíduos sejam comparáveis no ponto de partida, diferenciando-se apenas pelas covariáveis medidas. Existem diversas maneiras de definir o tempo inicial, sendo o mais comum o tempo cronológico. Contudo, em áreas como Engenharia, outras métricas, como número de ciclos ou quilometragem, também podem ser utilizadas. Colosimo e Giolo (2006) apresentam exemplos práticos, como medidas de carga para equipamentos.
Outro aspecto essencial é a definição do evento de interesse, frequentemente associado a falhas ou situações indesejáveis. Para garantir resultados consistentes, a definição do evento deve ser clara e objetiva. Um exemplo elucidativo é fornecido por Colosimo e Giolo (2006):
“Em algumas situações, a definição de falha já é clara, como morte ou recidiva, mas em outras pode assumir termos ambíguos. Por exemplo, fabricantes de produtos alimentícios desejam saber o tempo de vida de seus produtos expostos em balcões frigoríficos de supermercados. O tempo de falha vai do momento de exposição (chegada ao supermercado) até o produto se tornar ‘inapropriado para consumo’. Esse evento deve ser claramente definido antes do início do estudo. Por exemplo, o produto é considerado inapropriado para consumo quando atinge uma concentração específica de microrganismos por \(mm^{2}\) de área.”
1.3 Censura
Estudos clínicos que tratam a resposta como uma variável temporal geralmente são prospectivos e de longa duração. No entanto, mesmo sendo extensos, esses estudos frequentemente se encerram antes que todos os indivíduos passem pelo evento de interesse.
Uma característica comum nesses estudos é a censura, que corresponde a observações incompletas ou parciais. Apesar disso, tais observações fornecem informações valiosas para a análise. Colosimo e Giolo (2006) destacam a relevância de incluir dados censurados na análise:
“Ressalta-se que, mesmo censurados, todos os resultados provenientes de um estudo de sobrevivência devem ser incluídos na análise estatística. Duas razões justificam esse procedimento: (i) mesmo sendo incompletas, as observações censuradas fornecem informações sobre o tempo de vida dos pacientes; (ii) a exclusão das censuras no cálculo das estatísticas pode levar a conclusões enviesadas.”
Existem três tipos principais de censura:
- Censura Tipo I: O estudo é encerrado após um período de tempo previamente definido.
- Censura Tipo II: O estudo termina quando um número específico de indivíduos passa pelo evento de interesse.
- Censura Aleatória: Ocorre quando um indivíduo é retirado do estudo antes do evento de interesse.
A censura mais comum é a censura à direita, em que o evento ocorre após o tempo registrado. Entretanto, outros tipos de censura, como à esquerda e intervalar, também são possíveis.
Censura à esquerda ocorre quando o evento já aconteceu antes do início da observação. Um exemplo é um estudo sobre a idade em que crianças aprendem a ler:
“Quando os pesquisadores começaram a pesquisa, algumas crianças já sabiam ler e não se lembravam com que idade isso ocorreu, caracterizando observações censuradas à esquerda.”
No mesmo estudo, observa-se censura à direita para crianças que ainda não sabiam ler no momento da coleta de dados. Nesse caso, os tempos de vida são classificados como duplamente censurados (Turnbull 1974).
A censura intervalar ocorre em estudos com visitas periódicas espaçadas, onde só se sabe que o evento ocorreu dentro de um intervalo de tempo. Quando o tempo de falha \(T\) é impreciso, considera-se que ele pertence a um intervalo \(T \in (L, U]\), conhecido como sobrevivência intervalar. Casos especiais incluem tempos de falha exatos, em que \(L = U\), sendo \(U = 0\) para censura à direita e \(L = 0\) para censura à esquerda (Lindsey e Ryan 1998). Destaca-se a seguinte observação de Colosimo e Giolo (2006):
“A presença de censura traz desafios para a análise estatística. A censura do Tipo II é, em princípio, mais tratável que os outros tipos, mas para situações simples, que raramente ocorrem em estudos clínicos (Lawless 1982). Na prática, utiliza-se resultados assintóticos para a análise dos dados de sobrevivência.”
1.4 Dados Truncados
O truncamento é uma característica de alguns estudos de sobrevivência que, muitas vezes, é confundida com a censura. Ele ocorre quando certos indivíduos são excluídos do estudo devido a uma condição específica. Nesse caso, os pacientes só são incluídos no acompanhamento após passarem por um determinado evento, em vez de serem acompanhados desde o início do processo.
1.5 Representação dos Dados de Sobrevivência
Considere uma amostra aleatória de tamanho \(n\). O \(i\)-ésimo indivíduo no estudo é geralmente representado pelo par \((t_{i}, \delta_{i})\), onde \(t_{i}\) é o tempo de falha ou censura, indicado pela variável binária \(\delta_{i}\), definida como:
\[ \delta_{i} = \begin{cases} 1, & \text{se } t_{i} \text{ é um tempo de falha} \\ 0, & \text{se } t_{i} \text{ é um tempo de censura}. \end{cases} \]
Portanto, a variável resposta na análise de sobrevivência é representada por duas colunas no conjunto de dados. Se o estudo também incluir covariáveis, os dados são representados por \((t_{i}, \delta_{i}, \mathbf{x}_{i})\). Caso a censura seja intervalar, a representação é \((l{i}, u_{i}, \delta_{i}, \mathbf{x}_{i})\). Para exemplos de dados de sobrevivência, veja a Seção 1.5 do livro de Colosimo e Giolo (2006).
1.6 Especificando o Tempo de Sobrevivência
Seja \(T\) uma variável aleatória (v.a.), na maioria dos casos contínua, que representa o tempo de falha. Assim, o suporte de \(T\) é definido nos reais positivos \(\mathbb{R}^{+}\). Tal variável é geralmente representada pela sua função risco ou pela função de taxa de falha (ou taxa de risco). Tais funções, e outras relacionadas, são usadas ao longo do processo de análise de dados de sobrevivência. A seguir, algumas dessas funções e as relações entre elas serão definidas.
1.6.1 Função de Sobrevivência
Esta é uma das principais funções probabilísticas usadas em análise de sobrevivência. A função sobrevivência é definida como a probabilidade de uma observação não falhar até certo ponto \(t\), ou seja a probabilidade de uma observação sobreviver ao tempo \(t\). Em probabilidade, isso pode ser escrito como:
\[ S(t) = P(T > t), \tag{1.1}\]
uma conclusão a qual podemos chegar, é que a probabilidade de uma observação não sobreviver até o tempo \(t\), é a acumulada até o ponto \(t\), logo,
\[ F(t) = 1 - S(t). \tag{1.2}\]
1.6.2 Função de Taxa de Falha ou de Risco
A probabilidade da falha ocorrer em um intervalo de tempo \([t_{1}, t_{2})\) pode ser expressa em termos da função de sobrevivência como: \[S(t_{1}) - S(t_{2}).\]
A taxa de falha no intervalo \([t_{1}, t_{2})\) é definida como a probabilidade de que a falha ocorra neste intervalo, dado que não ocorreu antes de \(t_{1}\), dividida pelo comprimento do intervalo. Assim, a taxa de falha no intervalo \([t_{1}, t_{2})\) é expressa por \[\dfrac{S(t_{1}) - S(t_{2})}{(t_{2} - t_{1})S(t_{1})}.\]
De forma geral, redefinindo o intervalo como \([t, t + \Delta t)\) a expressão assume a seguinte forma:
\[ \lambda(t) = \dfrac{S(t) - S(t + \Delta_{t})}{\Delta t \text{ } S(t)}. \]
Assumindo \(\Delta t\) bem pequeno, \(\lambda(t)\) representa a taxa de falha instantânea no tempo \(t\) condicional à sobrevivência até o tempo \(t\). Observe que as taxas de falha são números positivos, mas sem limite superior. A função de taxa de falha \(\lambda(t)\) é bastante útil para descrever a distribuição do tempo de vida de pacientes. Ela descreve a forma em que a taxa instantânea de falha muda com o tempo. A função de taxa de falha de \(T\) é, então, definida como:
\[ \lambda(t) = \lim_{\Delta t \to 0} \dfrac{P(t \leq T \leq t + \Delta t | T \geq t)}{\Delta t}. \tag{1.3}\]
A função de taxa de falha é mais informativa do que a função de sobrevivência. Diferentes funções de sobrevivência podem ter formas semelhantes, enquanto as respectivas funções de taxa de falha podem diferir drasticamente. Desta forma, a modelagem da função de taxa de falha é um importante método para dados de sobrevivência.
1.6.3 Função de Taxa de Falha Acumulada
Outra função útil em análise de dados de sobrevivência é a função taxa de falha acumulada. Esta função, como o próprio nome sugere, fornece a taxa de falha acumulada do indivíduo e é definida por:
\[ \Lambda(t) = \int_{0}^{t} \lambda(u) du. \tag{1.4}\]
A função de taxa de falha acumulada, \(\Lambda(t)\), não têm uma interpretação direta, mas pode ser útil na avaliação da função de maior interesse que é a função de taxa de falha, \(\lambda(t)\). Isto acontece essencialmente na estimação não-paramétrica em que \(\Lambda(t)\) apresenta um estimador com propriedades ótimas e \(\lambda(t)\) é difícil de ser estimada.
1.6.4 Tempo Médio e Vida Média Residual
Outras duas quantidades de interesse em análise de sobrevivência são: o tempo médio de via e a vida média residual. A primeira é obtida pela área sob a função de sobrevivência. Isto é,
\[ t_{m} = \int_{0}^{\infty} S(t) dt. \tag{1.5}\]
Já a vida média residual é definida condicional a um certo tempo de vida \(t\). Ou seja, para indivíduos com idade \(t\) está quantidade mede o tempo médio restante de vida e é, então, a área sob a curva de sobrevivência à direita do tempo \(t\) dividida por \(S(t)\). Isto é,
\[ \text{vmr}(t) = \dfrac{\int_{0}^{\infty} (u - t) f(u) du}{S(t)} = \dfrac{\int_{0}^{\infty} S(u) du}{S(t)}, \tag{1.6}\]
sendo \(f(\cdot)\) a função densidade de \(T\). Observe que \(\text{vmr}(0) = t_{m}\).
1.7 Relações entre as Funções
Para \(T\) uma variável aleatória contínua e não-negativa, tem-se, em termos das funções definidas anteriormente, algumas relações matemáticas importantes entre elas, a saber:
\[ \lambda(t) = \dfrac{f(t)}{S(t)} = - \dfrac{d}{dt} \left[ \log S(t) \right], \]
\[ \Lambda(t) = \int_0^{t} \lambda(u) du = - \log S(t) \]
e
\[ S(t) = \exp \left\{ - \Lambda(t) \right\} = \exp \left\{ - \int_0^{t} \lambda(u) du \right\} \]
Tais relações mostram que o conhecimento de uma das funções, por exemplo \(S(t)\), implica no conhecimento das demais, isto é, \(F(t)\), \(f(t)\), \(\lambda(t)\) e \(\Lambda(t)\). Outras relações envolvendo estas funções são as seguintes:
\[ S(t) = \dfrac{\text{vmr}(0)}{\text{vmr}(t)} \exp \left\{ - \int_{0}^{t} \dfrac{du}{\text{vmr}(u)} \right\} \]
e
\[ \lambda(t) = \left( \dfrac{d \text{ } [\text{vmr}(t)]}{dt} + 1 \right) / \text{vmr}(t). \]