explanare

Jing Huang explanare

Achievements

ravel ravel Public

Evaluate interpretability methods on localizing and disentangling concepts in LLMs.

Python 31 7
verbatim-memorization verbatim-memorization Public

Demystifying Verbatim Memorization in Large Language Models

Python 3 1
char-iit char-iit Public

A causal intervention framework to learn robust and interpretable character representations inside subword-based language models

Jupyter Notebook 1
eval-neuron-explanation eval-neuron-explanation Public

A framework for evaluating auto-interp pipelines, i.e., natural language explanations of neurons.

Python 1