Shallow Review of Technical AI Safety, 2025

Agendas

(all of the below are clickable)

Labs6 agendas

OpenAI Google Deepmind Anthropic xAI Meta China

White-box safety14 agendas

Concept-based interpretability

Monitoring concepts Activation engineering

Reverse engineering Extracting latent knowledge Lie and deception detectors Model diffing Sparse Coding Causal Abstractions Data attribution Pragmatic interpretability Other interpretability Learning dynamics and developmental interpretability Representation structure and geometry Human inductive biases

Safety by construction3 agendas

Guaranteed-Safe AI Scientist AI Brainlike-AGI Safety

Make AI solve it5 agendas

Weak-to-strong generalization Supervising AIs improving AIs AI explanations of AIs Debate LLM introspection training

Theory9 agendas

Corrigibility

Behavior alignment theory Other corrigibility

Ontology Identification

Natural abstractions The Learning-Theoretic Agenda

Agent foundations Tiling agents High-Actuation Spaces Asymptotic guarantees Heuristic explanations

Multi-agent first6 agendas

Aligning to context Aligning to the social contract Theory for aligning multiple AIs Tools for aligning multiple AIs Aligned to who?Aligning what?

Evals12 agendas

AGI metrics Capability evals Autonomy evals WMD evals (Weapons of Mass Destruction)Situational awareness and self-awareness evals Steganography evals AI deception evals AI scheming evals Sandbagging evals Self-replication evals Various Redteams Other evals