Log in

Cambridge users (raven) details

Other users details

No account? details

Information on

Subscribing to talks details

Finding a talk details

Adding a talk details

Disseminating talks details

Help and Documentation details

Engineering Safe AI

Add to your list(s) Send you e-mail reminders Further detail
Subscribe using ical/vcal (Help)

Presentations and discussions about possible solutions to the value alignment problem.

If you have a question about this list, please contact: Adrià Garriga Alonso. If you have a question about a specific talk, click on that talk to find its organiser.

0 upcoming talks and 38 talks in the archive.

Engineering Safe AI: Robert Miles

User Robert Miles.

House Pavillion Room, Hughes Hall, University of Cambridge, Cambridge, CB1 2EW.

Wednesday 29 January 2020, 19:00-20:30

Can Machines Read our Minds?

Starting time 30min later than usual

User Brier Rigby Dames (University of Cambridge).

House Engineering Department, CBL Seminar room BE4-38.

Wednesday 12 June 2019, 17:30-19:00

How useful is quantilization for mitigating specification-gaming?

User Speaker to be confirmed.

House Engineering Department, CBL Seminar room BE4-38.

Wednesday 22 May 2019, 17:00-18:30

Misleading meta-objectives and hidden incentives for distributional shift

User Paolo Bova (University of Cambridge).

House Engineering Department, CBL Seminar room BE4-38.

Wednesday 08 May 2019, 17:00-19:00

Causal Reasoning from Meta-reinforcement Learning

User Jakub Perlin (University of Cambridge).

House Engineering Department, CBL Seminar room BE4-38.

Wednesday 13 March 2019, 17:00-19:00

Inverse Game Theory

User Gabija Maršalka.

House Engineering Department, CBL Seminar room BE4-38.

Wednesday 06 March 2019, 17:00-19:00

Goals vs Utility Functions

User Adrià Garriga Alonso (University of Cambridge).

House Engineering Department, CBL Seminar room BE4-38.

Wednesday 27 February 2019, 17:00-19:00

Who do we want to control human-level AI?

User Jade Leung (Center for the Governance of AI, University of Oxford).

House Boys Smith Room, Fisher Building, St John's College.

Friday 22 February 2019, 19:30-21:00

Bayesian Theory of Mind: Modeling Joint Belief-Desire Attribution

User Edward Young (University of Cambridge).

House Engineering Department, CBL Seminar room BE4-38.

Wednesday 20 February 2019, 17:00-19:00

Ambitious Value Learning

User Adrià Garriga Alonso (University of Cambridge).

House Cambridge University Engineering Department, CBL Seminar room BE4-38.

Wednesday 13 February 2019, 17:00-19:00

Machine Theory of Mind

User Paolo Bova (University of Cambridge).

House Cambridge University Engineering Department, CBL Seminar room BE4-38.

Wednesday 06 February 2019, 17:00-19:00

Embedded Agency

User Adrià Garriga Alonso (University of Cambridge).

House Cambridge University Engineering Department, CBL Seminar room BE4-38.

Wednesday 30 January 2019, 17:00-19:00

Comprehensive AI Services

User Adrià Garriga Alonso (University of Cambridge).

House Cambridge University Engineering Department, CBL Seminar room BE4-38.

Wednesday 23 January 2019, 17:00-19:00

Incomplete Contracting and AI Alignment

User Paolo Bova (University of Cambridge).

House Cambridge University Engineering Department, CBL Seminar room BE4-38.

Wednesday 28 November 2018, 17:00-19:00

The Algorithmic Foundations of Differential Privacy (Chapters 1 and 2)

User James Bell, University of Cambridge.

House Cambridge University Engineering Department, CBL Seminar room BE4-38.

Wednesday 21 November 2018, 17:00-19:00

Dynamic Safe Interruptibility for Decentralized Multi-Agent Reinforcement Learning

User Adrià Garriga Alonso (University of Cambridge).

House Cambridge University Engineering Department, CBL Seminar room BE4-38.

Wednesday 14 November 2018, 17:00-19:00

Measuring and avoiding side effects using relative reachability

User Adrià Garriga Alonso (University of Cambridge).

House Cambridge University Engineering Department, CBL Seminar room BE4-38.

Wednesday 07 November 2018, 17:00-19:00

Interpretable Machine Learning

User Tameem Adel (University of Cambridge).

House Cambridge University Engineering Department, CBL Seminar room BE4-38. See https://www.openstreetmap.org/#map=18/52.19804/0.11969.

Wednesday 31 October 2018, 17:00-18:30

Scaling inverse reinforcement learning for human-compatible AI

User Adam Gleave, UC Berkeley.

House Cambridge University Engineering Department, CBL Seminar room BE4-38. See https://www.openstreetmap.org/#map=18/52.19804/0.11969.

Tuesday 23 October 2018, 17:00-18:30

Motivation for this group, Goodhart's Law

User James Bell, University of Cambridge.

House Cambridge University Engineering Department, CBL Seminar room BE4-38. See https://www.openstreetmap.org/#map=18/52.19804/0.11969.

Wednesday 17 October 2018, 17:00-18:30

Approaches to avoiding negative side effects

User Adrià Garriga Alonso (University of Cambridge).

House Cambridge University Engineering Department, CBL Seminar room BE4-38. For directions see http://learning.eng.cam.ac.uk/Public/Directions.

Wednesday 30 May 2018, 17:00-18:30

AI Safety via Debate

User Beth Barnes (University of Cambridge).

House Cambridge University Engineering Department, CBL Seminar room BE4-38. For directions see http://learning.eng.cam.ac.uk/Public/Directions.

Wednesday 09 May 2018, 17:00-18:30

AI risk strategy

User Rajashree Agrawal (University of Oxford).

House Cambridge University Engineering Department, CBL Seminar room BE4-38. For directions see http://learning.eng.cam.ac.uk/Public/Directions.

Wednesday 14 March 2018, 17:00-18:30

AI Safety Gridworlds: Is my agent 'safe'?

User Jessica Yung (University of Cambridge).

House Cambridge University Engineering Department, CBL Seminar room BE4-38. For directions see http://learning.eng.cam.ac.uk/Public/Directions.

Wednesday 28 February 2018, 17:00-18:30

Logical Induction: a computable approach to logical non-omniscience

User Adrià Garriga Alonso (University of Cambridge).

House Cambridge University Engineering Department, CBL Seminar room BE4-38. For directions see http://learning.eng.cam.ac.uk/Public/Directions.

Wednesday 21 February 2018, 17:00-18:30

Decision Boundary Geometries and Robustness of Neural Networks

User Sven Wang (University of Cambridge).

House Cambridge University Engineering Department, CBL Seminar room BE4-38. For directions see http://learning.eng.cam.ac.uk/Public/Directions.

Wednesday 14 February 2018, 17:00-18:30

Decision Theory for AI safety

User Richard Ngo (University of Cambridge).

House Cambridge University Engineering Department, CBL Seminar room BE4-38. For directions see http://learning.eng.cam.ac.uk/Public/Directions.

Wednesday 07 February 2018, 17:00-18:30

Safe Exploration in Reinforcement Learning

User Frances Ding (University of Cambridge).

House Cambridge University Engineering Department, CBL Seminar room BE4-38. For directions see http://learning.eng.cam.ac.uk/Public/Directions.

Wednesday 31 January 2018, 17:00-18:30

Amplification and dialogue as mechanisms for safe advanced AI

User Beth Barnes, Computer Lab, University of Cambridge.

House Cambridge University Engineering Department, CBL Seminar room BE4-38. For directions see http://learning.eng.cam.ac.uk/Public/Directions.

Wednesday 24 January 2018, 17:00-18:30

Last term summary + discussion of topic importance

User Adrià Garriga Alonso (University of Cambridge).

House Cambridge University Engineering Department, CBL Seminar room BE4-38. For directions see http://learning.eng.cam.ac.uk/Public/Directions.

Wednesday 17 January 2018, 17:00-18:30

Counterargument to CIRL, and Safely Interruptible Agents

User Adrià Garriga Alonso (University of Cambridge).

House Cambridge University Engineering Department, CBL Seminar room BE4-38. For directions see http://learning.eng.cam.ac.uk/Public/Directions.

Wednesday 06 December 2017, 17:00-18:30

Reinforcement learning with a corrupted reward function

User Tom McGrath, Imperial College London.

House Cambridge University Engineering Department, CBL Seminar room BE4-38. For directions see http://learning.eng.cam.ac.uk/Public/Directions.

Wednesday 29 November 2017, 17:00-18:30

Solomonoff Induction and a Definition of Intelligence

User James Bell, Richard Ngo (University of Cambridge).

House Cambridge University Engineering Department, CBL Seminar room BE4-38. For directions see http://learning.eng.cam.ac.uk/Public/Directions.

Wednesday 22 November 2017, 17:00-18:30

Deep Reinforcement Learning from Human Preferences

User Jessica Yung (University of Cambridge).

House Cambridge University Engineering Department, CBL Seminar room BE4-38. For directions see http://learning.eng.cam.ac.uk/Public/Directions.

Wednesday 15 November 2017, 17:00-18:30

An introduction to adversarial attacks and defences

User Yingzhen Li (University of Cambridge).

House Cambridge University Engineering Department, CBL Seminar room BE4-38. For directions see http://learning.eng.cam.ac.uk/Public/Directions.

Wednesday 08 November 2017, 17:00-18:30

'Off-Switch Games' and Corrigibility

User Richard Ngo (University of Cambridge).

House Cambridge University Engineering Department, CBL Seminar room BE4-38. For directions see http://learning.eng.cam.ac.uk/Public/Directions.

Wednesday 01 November 2017, 17:00-18:30

Cooperative Inverse Reinforcement Learning

User Robert Pinsler (University of Cambridge).

House Cambridge University Engineering Department, CBL Seminar room BE4-38. For directions see http://learning.eng.cam.ac.uk/Public/Directions.

Wednesday 25 October 2017, 17:00-18:30

Engineering Safe AI seminar group

User Beth Barnes, Computer Lab, University of Cambridge.

House Cambridge University Engineering Department, CBL Seminar room BE4-38. For directions see http://learning.eng.cam.ac.uk/Public/Directions.

Wednesday 18 October 2017, 17:00-18:30

Please see above for contact details for this list.

Log in

Information on

Other lists

Other talks