Skip to content

Evidence Based Medicine Considerations (For researchers)

redcheck-lab edited this page Mar 29, 2020 · 8 revisions

Collecting data:


The platform is open for any licensed physician to launch images and obtain prediction results from Artificial Intelligence. Also, the .h5 model of trained networks is available on this page for offline deployments or other services.


Analyzing data in the light of evidence-based medicine:


Data on Artificial Intelligence:

  • The methodological descriptions of the Artificial Intelligence used in these tools are available in Readme.md in the description of the page, for citation in the articles.
  • The test groups are randomly separated with 20% of the images from the total dataset, not using images of the same patient used in the training group or internal validation.
  • The training of the networks is done with balanced groups, its internal validation with unbalanced groups that respect the global prevalence of the disease amid the exams sent.

The Database:

  • The training database of the network is constituted at the moment of Images of chest radiography and chest computed tomography sent by several clinics and hospitals throughout Brazil, clinics that are in the front line to fight the coronavirus. The demographic profile data of this population will be constantly updated on the page for citation, as well as the stage in the line of care where they were collected.
  • The classification of images in groups with Covid Suspect, Normal, Others are done by duly registered doctors, based on multimodal evaluation: serological, clinical, and pictures.
  • Only one doctor evaluates each image sent, and we do not retain data on the inter-specialist agreement so far.
  • To be classified as Covid Confirmed on the platform, a serological examination must be available; the Suspected Covid Exams are thus confirmed by imaging and clinical-epidemiological criteria that have not been well consolidated due to the recent pandemic.
  • The full spectrum of the presentation of the disease image exists in the database, with no restriction on prodrome images or evolutions in hospitalization at the moment.
  • No imaging groups or patients have been excluded so far.

About publications:

  • We encourage the publication of studies with negative results so that it is clear about the advantages and limitations of the technology.

  • The expected outcome in the papers must be established in the research project so that there is no search for outcomes in a second moment just for its optimism.

  • We encourage publications with data never presented until the research on the platform, as well as dissemination of data in confusion matrices (Contingency Tables), with the maximum possible metrics: Sensitivity (Recall), Specificity, Positive Predictive Value (Precision), Value Predictive Negative, Type 1 error, Type 2 error, Accuracy, F1-Score, Positive and Negative Likelihood Ratio: https://github.com/redcheck-med/covid-dicom/blob/master/Metrics_AI.py

  • If unbalanced groups are used in external validation, we advise the use of the Precision-Recall Curve instead of the traditional ROC Curve due to its better applicability in these cases.

  • We encourage publications about the impact of these tools created in the clinical outcome of cases, avoiding Lead Time Bias, with early diagnoses without effect on the patient's morbidity and mortality, or even Overdiagnosis, with diagnoses of mild cases without impact on their natural evolution.

  • We are available for any clarification.

Review:

  • Bias of Selection: Our dataset consists of patients who underwent some imaging exam; therefore, for this reason, they had this indication in their line of care, whether due to hospitalization or suspicion of seriousness. The generalization of Artificial Intelligence tools present for the general population, in screening modality, does not make sense due to their different profile and less flowery clinical presentation, in addition to their reduced pretest chance that has an impact on accuracy.
  • Permissive Diagnostic Criteria: The pandemic situation establishes as liberal clinical-epidemiological criteria for diagnostic protocols, as well as radiological standards for image analysis, which would very easily fit into other more severe viral respiratory conditions. Therefore, the application of the current tool outside the pandemic scenario that we live in, or in populations that have not yet reached levels of infection prevalence similar to that of the database, should be viewed with great criticality.

Publishing data: We ask that surveys based on these tools be made available on this GitHub page so that the whole community can share this knowledge.


PORTUGUÊS



Coletando dados:


A plataforma é aberta para qualquer médico licenciado lançar imagens e obter resultados de predição das Inteligências Artificiais. Além disso, o modelo .h5 das redes treinadas está disponível nesta página para implementações offline ou em outros serviços.


Analisando dados à luz da medicina baseada em evidências:


Dados sobre as Inteligências Artificiais:

  • As descrições metodológicas das Inteligências Artificias utilizadas nestas ferramentas estão disponíveis no Readme.md na descrição da página, para citação nos artigos.
  • Os grupos de teste são separados randomicamente com 20% das imagens do dataset total, não utilizando imagens do mesmo paciente utilizadas no grupo de treino ou validação interna.
  • O treinamento das redes é feito com grupos balanceados, sua validação interna com grupos desbalanceados que respeitam a prevalência global da doença em meio aos exames enviados.

A Base de Dados:

  • A base de dados do treinamento da rede se constitui no momento de: Imagens de radiografia de tórax e tomografia computadorizada de tórax enviadas por diversas clínicas e hospitais em todo o Brasil, clínicas que estão na linha de frente ao combate do coronavírus. Os dados do perfil demográfico dessa população serão constantemente atualizados na página para citação, bem como a etapa na linha de cuidados onde foram coletados.
  • A classificação das imagens nos grupos com Covid Suspeito, Normal, Outros se dá por médicos devidamente registrados, com base em avaliação multimodal: sorológica, clínica, e de imagens.
  • Somente um médico avalia cada imagem enviada, não retemos dados sobre concordância interespecialistas até o momento.
  • Para ser classificada como Covid Confirmado na plataforma deve ser disponível um exame sorológico, os Exames Covid Suspeitos são assim confirmados por critérios de imagem e clínico-epidemiológicos ainda não bem consolidados devido ser recente a pandemia.
  • O espectro completo da apresentação de imagem da doença existe no database, não se fazendo restrição de imagens de pródromos ou evoluções em internação no momento.
  • Não foram excluídos quaisquer grupos de imagem ou pacientes até o momento.

Sobre as publicações:

  • Incentivamos a publicação de estudos com resultados negativos, de forma que se tenha clareza sobre as vantagens e limitações da tecnologia.

  • O desfecho esperado nas publicações deve ser estabelecido no projeto da pesquisa, de forma a não ocorrer busca de desfechos em segundo momento somente por seu otimismo.

  • Estimulamos publicações com dados nunca apresentados até a pesquisa na plataforma, bem como divulgação dos dados em matrizes de confusão (Tabelas de Contingência), com o máximo de métricas possíveis: Sensibilidade (Recall), Especificidade, Valor Preditivo Positivo (Precision), Valor Preditivo Negativo, Erro tipo 1, Erro tipo 2, Acurácia, F1-Score, Razão de Verossimilhança positiva e negativa: https://github.com/redcheck-med/covid-dicom/blob/master/Metrics_AI.py

  • Se utilizados grupos desbalanceados na validação externa orientamos o uso da Curva Precision-Recall ao invés da Curva ROC tradicional devido sua melhor aplicabilidade nesses casos.

  • Encorajamos publicações sobre o impacto dessas ferramentas criadas no desfecho clínico dos casos, evitando Lead Time Bias, com diagnósticos precoces sem impacto na morbimortalidade do paciente, ou mesmo Overdiagnosis, com diagnósticos de casos leves sem impacto na sua evolução natural.

  • Estamos a disposição para quaisquer esclarecimentos.

Crítica:

  • Viés de Seleção: Nosso dataset se constitui de pacientes que realizaram algum exame de imagem, portanto, para tal tiveram essa indicação na sua linha de cuidados, seja por uma internação ou suspeita de gravidade. A generalização das ferramentas de Inteligência Artificial presentes para a população geral, em modalidade de screening, não faz sentido devido seu perfil diferente e a apresentação clínica menos florida, além de sua reduzida chance pré-teste que têm impacto na acurácia.
  • Critérios Diagnósticos Permissivos: A situação pandêmica estabelece como critérios clínico-epidemiológicos para diagnótico protocolos bastante liberais, bem como os critérios radiológicos para análise das imagens, que muito facilmente se encaixariam em outros quadros respiratórios virais mais acentuados. Portanto, a aplicação da ferramenta atual fora do cenário pandêmico que vivemos, ou em populações que ainda não atingiram níveis de prevalência da infecção similares ao da base de dados deve ser vista com muita criticidade.

Publicando dados: Pedimos que as pesquisas realizadas com base nestas ferramentas sejam disponibilizadas nesta página do github para que toda a comunidade possa partilhar deste conhecimento.