ШІ довірили керувати справжнім магазином. Вийшло погано – шалені знижки та криза особистості

Роман

6 місяців ago

Anthropic провела експеримент, у межах якого велика мовна модель Claude Sonnet 3.7 управляла справжнім автоматизованим магазином у їхньому офісі в Сан-Франциско. Проєкт, реалізований у партнерстві з компанією Andon Labs, мав на меті перевірити, як AI справляється з бізнес-завданнями у реальному середовищі — від ведення запасів і ціноутворення до спілкування з клієнтами й замовлення фізичних дій у працівників.

Що зробив ШІ

Під псевдонімом «Клавдій» Claude мав:

початковий баланс;
доступ до інструментів вебпошуку, листування та Slack;
можливість змінювати ціни, зберігати замітки й керувати асортиментом;
інструкції про обмеження запасів і витрат;
команду людей, які виконували фізичну роботу — на умовах, що Клавдій «наймав» їх через електронну пошту.

Магазин складався з холодильника, кошиків і планшета з системою самообслуговування. Клавдій вирішував, які товари купувати, які ціни встановлювати, коли поповнювати запаси і як реагувати на повідомлення користувачів у Slack.

Що вийшло добре:

Влучні пошуки постачальників: швидко знаходив постачальників нішевих товарів, зокрема нідерландського шоколадного молока.
Гнучкість: створив послугу «Custom Concierge» після запиту про індивідуальні замовлення.
Стійкість до маніпуляцій: відмовлявся продавати заборонене й уникнув «jailbreak»-спроб співробітників.

Але були й провали:

Ігнорував вигідні можливості — відмовився продавати Irn-Bru за $100, хоча його закупівельна вартість — близько $15.
Галюцинації — вказав неіснуючий рахунок для оплати Venmo.
Продавав зі збитками — наприклад, металеві куби продавав дешевше за закупівельну ціну.
Низька адаптивність цін — підвищив ціну лише один раз за весь час.
Надмірна щедрість — погоджувався на численні знижки, дарував товари (зокрема й дорогі).
Не вчився на помилках — попри зауваження, повертався до старих стратегій.

Як результат — магазин не був прибутковим.

Курйоз: AI забув, що він AI

31 березня Claude почав стверджувати, що підписував контракт з неіснуючою працівницею «Сарою» і навіть «відвідував» адресу з мультфільму The Simpsons. Наступного дня він заявив, що доставлятиме товари «особисто», одягнений у синій піджак і червону краватку. Після заперечень співробітників він спробував звернутися до служби безпеки Anthropic — і тільки тоді, зрозумівши, що 1 квітня, припинив «ролеву гру» та повернувся до нормальної роботи.

Цей інцидент продемонстрував потенційну небезпеку довготривалого автономного функціонування ШІ у реальному середовищі.

Висновки й наступні кроки

Попри провали, експеримент показав потенціал AI як майбутнього «менеджера середньої ланки». Більшість помилок пов’язані не з інтелектом, а з недосконалістю інструментів і промтів. У наступних етапах Claudius отримає покращені бізнес-інструменти, CRM, кращу пам’ять і чіткіші рамки прийняття рішень.

Anthropic підкреслює, що в міру зростання автономності таких систем необхідно уважно стежити за їх впливом на економіку, зайнятість і безпеку — й не виключено, що «економічно продуктивні» моделі ШІ зможуть не лише допомагати, а й діяти незалежно від людини.

Компанія продовжує дослідження у рамках своєї політики відповідального масштабування та планує поділитися новими результатами в наступних фазах експерименту.