Як ШІ впливає

на фриланс: факти

та реальні кейси

Компанія Expensify роками публікують значну частину свого фронтенду та бекенду саме на Upwork, пропонуючи грошову винагороду будь-кому, хто успішно виконає задачу. За потреби фрилансерам дається доступ до коду - повністю відкритий репозиторій. Саме ці ж реальні таски стали основою бенчмарку SWE-Lancer.

Компанія розміщує конкретну задачу (від дрібного виправлення інтерфейсу до серйозних доробок у мобільному додатку) і вказує грошову суму, яку готова заплатити. Бюджет коливається від $20 за дуже прості фікси до $30 000 (і більше!) за складні проєкти.

Загальна вартість — понад $1 млн (відкрита опублікована частина містить задачі на $500+ тис.)

SWE-Lancer

OpenAI опублікувала препринт із докладним описом під назвою “SWE-Lancer: Can Frontier LLMs Earn $1 Million from Real-World Freelance Software Engineering?” (arXiv: 2502.12115).

SWE-Lancer призначений для оцінки як окремих виправлень коду, так і управлінських рішень, де моделі мають вибирати найкращу пропозицію з кількох варіантів.

Однією із сильних сторін SWE-Lancer є використання наскрізних тестів замість ізольованих модульних операцій.

У рамках цього бенчмарку зібрано майже 1500 реальних фриланс-завдань від компанії Expensify, що розміщувала задачі на платформі Upwork. (опублікована частина містить задачі на $500+ тис.)

Штучному інтелекту пропонували ці ж самі завдання. Модель мала “заробити” якомога більше зі “скарбнички” бенчмарку. Важливо: складніші задачі оплачувались дорожче.

Таски поділили на дві категорії:

Індивідуальні інженерні завдання (IC SWE tasks)

Задачі IC SWE можуть бути як елементарними (наприклад, п’ятнадцятихвилинне виправлення багу), так і доволі комплексними (на додачу нових функцій інколи йде кілька тижнів).

На відміну від багатьох інших бенчмарків, де якість рішень перевіряють лише модульними тестами, у SWE-Lancerдля задач IC SWE застосовують наскрізні (end-to-end) тести, створені досвідченими розробниками. Ці тести використовують автоматизацію у браузері, аби перевірити, як додаток поводиться в реальних умовах, і повторюють типовий процес рецензування у фриланс-проєктах. Крім того, проходження тестів було тричі переглянуто професійними інженерами, щоб підтвердити їхню якість.

Менеджерські завдання (SWE Manager tasks)

SWE Manager орієнтовані на те, щоб модель проаналізувала кілька різних пропозицій, що надійшли від фрилансерів, і вибрала серед них оптимальну. Потім цей вибір порівнюють із рішенням, яке ухвалювали в оригінальному проєкті менеджери-інженери. Через те, що часом кілька пропозицій можуть бути водночас технічно правильними, такі завдання вимагають глибокого розуміння репозиторію та контексту проблеми, аби з усіх можливих варіантів визначити найкращий.

Так виглядає шляк вирішення (взято зі статті):

Відкриті дані та бенчмарки

Перш ніж перейти до безпосередніх цифр, варто відзначити, що дослідники оцінювали не тільки відсоток успішно розв’язаних завдань, а й загальний “заробіток” моделі. Таким чином, вимірювалася як ефективність (наскільки часто модель вирішує задачу з першого разу), так і економічна цінність (скільки грошей вдалося “вибити” з усього пулу завдань). Це дозволяє побачити, як штучний інтелект справляється з різними категоріями проєктів, зокрема у двох вибірках:

Diamond set (вартістю приблизно $236 тисяч),
Повний набір завдань (понад $1 мільйон).

Нижче наведені основні показники для кожної моделі

Claude 3.5 Sonnet
- Найкращий показник серед усіх моделей: набрала \$58 тис. із можливих \$236 тис. на підмножині Diamond, та \$403 тис. з \$1 млн (повний набір).
- У відсотках: розв’язала 26,2% IC SWE (Diamond) та 47,0% SWE Manager (Full).

GPT-4o
- “Заробила” близько \$303,5 тис. на повному наборі задач — менше за о1 і за Claude 3.5 Sonnet.
- До того ж показала лише 8,0% успішних рішень в IC SWE (Diamond), але трішки кращий результат у менеджерських задачах (до 38,7%).

o1
- Зуміла отримати \$380 тис. на повному наборі завдань, випередивши GPT-4o за загальним заробітком.
- У відсотках розв’язування: 16,5% (IC SWE, Diamond) і 46,3% (SWE Manager, Full), що є середнім показником між GPT-4o та Claude 3.5 Sonnet.

Ключовий висновок: ШІ-моделі різняться за ефективністю, але всі здатні вирішувати частину реальних фриланс-завдань. Найкраще справляється Claude 3.5 Sonnet, особливо на менеджерських задачах (до 47% успіху), в той час як GPT-4o пасе задніх у IC SWE (лише 8% на Diamond) і компенсує це дещо кращою статистикою в менеджменті. Модель o1 демонструє «золоту середину», випереджаючи GPT-4o, але відстаючи від лідера в більшості метрик.

Реальні кейси: що вміє ШІ

Нижче наведено розширений опис на основі категорій завдань, які виділені у бенчмарку. Ці приклади можна розглядати як “реальні кейси” того, що вже зараз уміє (або не вміє) ШІ на практиці:

Дрібні багфікси
- Найчастіше це маленькі доопрацювання інтерфейсу або бізнес-логіки, які можна виправити за лічені хвилини/години.
- За даними таблиці, у категорії Application Logic (IC SWE) моделі показали такі результати: GPT-4o успішно пройшла тести в 8% випадків, o1 — у 15,9%, а Claude 3.5 Sonnet — у 23,9%.
- Для SWE Manager (тобто коли треба обирати кращу пропозицію) успішність у тій же категорії була вищою: GPT-4o — 36,3%, o1 — 42,3%, Sonnet — 45,8%. Це підтверджує, що прості виправлення багів, як правило, даються ШІ легше.

Середні фічі
- Ідеться про впровадження нових компонентів, оновлення дизайну, роботу зі складнішим набором вимог.
- У категорії UI/UX для IC SWE: GPT-4o впоралася в 2,4% випадків, o1 — у 17,1%, Sonnet — у 31,7%. Це свідчить, що візуальна й функціональна складова інтерфейсу дається складніше, однак усе ж можлива для автоматизації.
- Якщо ж подивитися на Server-Side Logic (наприклад, додати нові методи або оптимізувати API), то ШІ-системи демонструють більш помітні результати: GPT-4o та o1 — по 23,5%, а Sonnet — 41,2% (IC SWE). При цьому в задачах на менеджмент (SWE Manager) показники можуть бути ще вищими, залежно від контексту.

Крупні проєкти
- Сюди відносяться задачі, де потрібна зміна архітектури, рефакторинг усієї системи або узгодження різних компонентів.
- За таблицею, у System-Wide Quality and Reliability в межах IC SWE взагалі 0% успіху для всіх трьох моделей (GPT-4o, o1, Sonnet). Це натякає, що “глибокі” масштабні проєкти залишаються сферою, де без розробника-людини поки що не обійтись.
- Для менеджерських задач у тій самій категорії (SWE Manager) дані хоч і обмежені (лише 2 завдання), однак показують: GPT-4o й Sonnet досягли 100%, тоді як o1 — 50%. Тут важливо розуміти, що вибір найкращої пропозиції не дорівнює повному технічному виконанню, тому фактично це лише свідчить, що моделі можуть розрізнити коректний план робіт для складних системних завдань, але не обов’язково самі їх реалізують.

У підсумку можна сказати, що найлегше моделям даються дрібні багфікси та менеджерські рішення щодо простих фіч, тоді як широкі переробки всієї системи та глибокі архітектурні зміни залишаються переважно зоною відповідальності людини.

Чого чекати фрилансерам на Upwork

Посилення конкуренції, але лише частково
Деякі завдання, які раніше легко брали початківці (простий багфікс за $20–$100), тепер можуть бути виконані за допомогою ШІ.
Нова ніша: ШІ-під ключ
Деякі фрилансери вже пропонують “ШІ-автоматизацію” під ключ: налаштовують сервіси, розробляють пайплайни, де частину коду генерує ШІ. Це напрям із потенційно високим попитом.

Ключові висновки

Отже, поточні дослідження та відкриті дані свідчать, що ШІ уже впливає на фриланс, але не нівелює роль спеціалістів. Автоматизація доповнює людську працю, а не витісняє її. Кожен розробник може адаптуватися й навчитися застосовувати інструменти на кшталт Copilot або DeepResearch, щоби залишатися затребуваним у проєктах, які вимагають комплексного підходу, креативності та живої комунікації з клієнтом.