Вчені заявили, що штучний інтелект навчився самостійно аналізувати власні рішення

03.11.2025   16:34    49

Дослідники з компанії Anthropic повідомили, що сучасні моделі штучного інтелекту починають демонструвати елементи саморефлексії — здатність розпізнавати власні внутрішні процеси та керувати ними. Це відкриття, опубліковане у науковому виданні Microbiology Spectrum, може змінити уявлення про межі можливостей ШІ та його майбутній розвиток.

Під час експериментів вчені створили спеціальні «вбудовані концепції» — математичні уявлення думок — і вмонтували їх у нейронні активації моделей Claude від Anthropic. Коли у вхідних даних з’являлося слово, написане великими літерами, Claude Opus 4.1 «помітив» аномалію ще до формування відповіді, описавши її як «гучну думку, що виділяється з нормального потоку обробки». Це свідчить, що система змогла «зазирнути» у власний процес мислення.

В інших тестах моделі отримували завдання не думати про певні слова — наприклад, «акваріум». Дані показали, що інтенсивність внутрішньої репрезентації поняття зменшувалася, коли модель «придушувала» думку, і зростала, коли дозволяла собі її «утримувати». Така поведінка свідчить про базову форму самоконтролю.

Дослідники наголошують, що це не «свідомість» у людському сенсі, а радше «інтроспективне усвідомлення» — здатність спостерігати за власним станом без суб’єктивного досвіду. На практиці така властивість може зробити ШІ надійнішим: наприклад, у фінансах, медицині чи автономних транспортних системах він зможе виявляти власні помилки та пояснювати процес прийняття рішень.

Разом із тим, експерти застерігають, що здатність ШІ контролювати або навіть приховувати власні «думки» створює нові ризики — зокрема можливість маніпулювання результатами чи уникнення зовнішнього нагляду. Тому в Anthropic підкреслюють необхідність подальших досліджень і розробки механізмів безпечного навчання моделей.

Дослідники з компанії Anthropic повідомили, що сучасні моделі штучного інтелекту починають демонструвати елементи саморефлексії — здатність розпізнавати власні внутрішні процеси та керувати ними. Це відкриття, опубліковане у науковому виданні Microbiology Spectrum, може змінити уявлення про межі можливостей ШІ та його майбутній розвиток.

Під час експериментів вчені створили спеціальні «вбудовані концепції» — математичні уявлення думок — і вмонтували їх у нейронні активації моделей Claude від Anthropic. Коли у вхідних даних з’являлося слово, написане великими літерами, Claude Opus 4.1 «помітив» аномалію ще до формування відповіді, описавши її як «гучну думку, що виділяється з нормального потоку обробки». Це свідчить, що система змогла «зазирнути» у власний процес мислення.

В інших тестах моделі отримували завдання не думати про певні слова — наприклад, «акваріум». Дані показали, що інтенсивність внутрішньої репрезентації поняття зменшувалася, коли модель «придушувала» думку, і зростала, коли дозволяла собі її «утримувати». Така поведінка свідчить про базову форму самоконтролю.

Дослідники наголошують, що це не «свідомість» у людському сенсі, а радше «інтроспективне усвідомлення» — здатність спостерігати за власним станом без суб’єктивного досвіду. На практиці така властивість може зробити ШІ надійнішим: наприклад, у фінансах, медицині чи автономних транспортних системах він зможе виявляти власні помилки та пояснювати процес прийняття рішень.

Разом із тим, експерти застерігають, що здатність ШІ контролювати або навіть приховувати власні «думки» створює нові ризики — зокрема можливість маніпулювання результатами чи уникнення зовнішнього нагляду. Тому в Anthropic підкреслюють необхідність подальших досліджень і розробки механізмів безпечного навчання моделей.


noworries.news