Як ШІ впливає

на фриланс: факти

та реальні кейси

Компанія Expensify роками публікують значну частину свого фронтенду та бекенду саме на Upwork, пропонуючи грошову винагороду будь-кому, хто успішно виконає задачу. За потреби фрилансерам дається доступ до коду - повністю відкритий репозиторій. Саме ці ж реальні таски стали основою бенчмарку SWE-Lancer.

Компанія розміщує конкретну задачу (від дрібного виправлення інтерфейсу до серйозних доробок у мобільному додатку) і вказує грошову суму, яку готова заплатити. Бюджет коливається від $20 за дуже прості фікси до $30 000 (і більше!) за складні проєкти.

Загальна вартість — понад $1 млн (відкрита опублікована частина містить задачі на $500+ тис.)

SWE-Lancer

OpenAI опублікувала препринт із докладним описом під назвою “SWE-Lancer: Can Frontier LLMs Earn $1 Million from Real-World Freelance Software Engineering?” (arXiv: 2502.12115).

SWE-Lancer призначений для оцінки як окремих виправлень коду, так і управлінських рішень, де моделі мають вибирати найкращу пропозицію з кількох варіантів.

Однією із сильних сторін SWE-Lancer є використання наскрізних тестів замість ізольованих модульних операцій.

У рамках цього бенчмарку зібрано майже 1500 реальних фриланс-завдань від компанії Expensify, що розміщувала задачі на платформі Upwork. (опублікована частина містить задачі на $500+ тис.)

Штучному інтелекту пропонували ці ж самі завдання. Модель мала “заробити” якомога більше зі “скарбнички” бенчмарку. Важливо: складніші задачі оплачувались дорожче.

Таски поділили на дві категорії:

Індивідуальні інженерні завдання (IC SWE tasks)

Задачі IC SWE можуть бути як елементарними (наприклад, п’ятнадцятихвилинне виправлення багу), так і доволі комплексними (на додачу нових функцій інколи йде кілька тижнів).

На відміну від багатьох інших бенчмарків, де якість рішень перевіряють лише модульними тестами, у SWE-Lancerдля задач IC SWE застосовують наскрізні (end-to-end) тести, створені досвідченими розробниками. Ці тести використовують автоматизацію у браузері, аби перевірити, як додаток поводиться в реальних умовах, і повторюють типовий процес рецензування у фриланс-проєктах. Крім того, проходження тестів було тричі переглянуто професійними інженерами, щоб підтвердити їхню якість.

Менеджерські завдання (SWE Manager tasks)

SWE Manager орієнтовані на те, щоб модель проаналізувала кілька різних пропозицій, що надійшли від фрилансерів, і вибрала серед них оптимальну. Потім цей вибір порівнюють із рішенням, яке ухвалювали в оригінальному проєкті менеджери-інженери. Через те, що часом кілька пропозицій можуть бути водночас технічно правильними, такі завдання вимагають глибокого розуміння репозиторію та контексту проблеми, аби з усіх можливих варіантів визначити найкращий.

Так виглядає шляк вирішення (взято зі статті):

Відкриті дані та бенчмарки

Перш ніж перейти до безпосередніх цифр, варто відзначити, що дослідники оцінювали не тільки відсоток успішно розв’язаних завдань, а й загальний “заробіток” моделі. Таким чином, вимірювалася як ефективність (наскільки часто модель вирішує задачу з першого разу), так і економічна цінність (скільки грошей вдалося “вибити” з усього пулу завдань). Це дозволяє побачити, як штучний інтелект справляється з різними категоріями проєктів, зокрема у двох вибірках:

  • Diamond set (вартістю приблизно $236 тисяч),
  • Повний набір завдань (понад $1 мільйон).

Нижче наведені основні показники для кожної моделі

  1. Claude 3.5 Sonnet
    • Найкращий показник серед усіх моделей: набрала \$58 тис. із можливих \$236 тис. на підмножині Diamond, та \$403 тис. з \$1 млн (повний набір).
    • У відсотках: розв’язала 26,2% IC SWE (Diamond) та 47,0% SWE Manager (Full).
  1. GPT-4o
    • “Заробила” близько \$303,5 тис. на повному наборі задач — менше за о1 і за Claude 3.5 Sonnet.
    • До того ж показала лише 8,0% успішних рішень в IC SWE (Diamond), але трішки кращий результат у менеджерських задачах (до 38,7%).
  1. o1
    • Зуміла отримати \$380 тис. на повному наборі завдань, випередивши GPT-4o за загальним заробітком.
    • У відсотках розв’язування: 16,5% (IC SWE, Diamond) і 46,3% (SWE Manager, Full), що є середнім показником між GPT-4o та Claude 3.5 Sonnet.

Ключовий висновок: ШІ-моделі різняться за ефективністю, але всі здатні вирішувати частину реальних фриланс-завдань. Найкраще справляється Claude 3.5 Sonnet, особливо на менеджерських задачах (до 47% успіху), в той час як GPT-4o пасе задніх у IC SWE (лише 8% на Diamond) і компенсує це дещо кращою статистикою в менеджменті. Модель o1 демонструє «золоту середину», випереджаючи GPT-4o, але відстаючи від лідера в більшості метрик.

Реальні кейси: що вміє ШІ

Нижче наведено розширений опис на основі категорій завдань, які виділені у бенчмарку. Ці приклади можна розглядати як “реальні кейси” того, що вже зараз уміє (або не вміє) ШІ на практиці:

  1. Дрібні багфікси
    • Найчастіше це маленькі доопрацювання інтерфейсу або бізнес-логіки, які можна виправити за лічені хвилини/години.
    • За даними таблиці, у категорії Application Logic (IC SWE) моделі показали такі результати: GPT-4o успішно пройшла тести в 8% випадків, o1 — у 15,9%, а Claude 3.5 Sonnet — у 23,9%.
    • Для SWE Manager (тобто коли треба обирати кращу пропозицію) успішність у тій же категорії була вищою: GPT-4o — 36,3%, o1 — 42,3%, Sonnet — 45,8%. Це підтверджує, що прості виправлення багів, як правило, даються ШІ легше.
  1. Середні фічі
    • Ідеться про впровадження нових компонентів, оновлення дизайну, роботу зі складнішим набором вимог.
    • У категорії UI/UX для IC SWE: GPT-4o впоралася в 2,4% випадків, o1 — у 17,1%, Sonnet — у 31,7%. Це свідчить, що візуальна й функціональна складова інтерфейсу дається складніше, однак усе ж можлива для автоматизації.
    • Якщо ж подивитися на Server-Side Logic (наприклад, додати нові методи або оптимізувати API), то ШІ-системи демонструють більш помітні результати: GPT-4o та o1 — по 23,5%, а Sonnet — 41,2% (IC SWE). При цьому в задачах на менеджмент (SWE Manager) показники можуть бути ще вищими, залежно від контексту.
  1. Крупні проєкти
    • Сюди відносяться задачі, де потрібна зміна архітектури, рефакторинг усієї системи або узгодження різних компонентів.
    • За таблицею, у System-Wide Quality and Reliability в межах IC SWE взагалі 0% успіху для всіх трьох моделей (GPT-4o, o1, Sonnet). Це натякає, що “глибокі” масштабні проєкти залишаються сферою, де без розробника-людини поки що не обійтись.
    • Для менеджерських задач у тій самій категорії (SWE Manager) дані хоч і обмежені (лише 2 завдання), однак показують: GPT-4o й Sonnet досягли 100%, тоді як o1 — 50%. Тут важливо розуміти, що вибір найкращої пропозиції не дорівнює повному технічному виконанню, тому фактично це лише свідчить, що моделі можуть розрізнити коректний план робіт для складних системних завдань, але не обов’язково самі їх реалізують.

У підсумку можна сказати, що найлегше моделям даються дрібні багфікси та менеджерські рішення щодо простих фіч, тоді як широкі переробки всієї системи та глибокі архітектурні зміни залишаються переважно зоною відповідальності людини.

Чого чекати фрилансерам на Upwork

  1. Посилення конкуренції, але лише частково

    Деякі завдання, які раніше легко брали початківці (простий багфікс за $20–$100), тепер можуть бути виконані за допомогою ШІ.

  2. Нова ніша: ШІ-під ключ

    Деякі фрилансери вже пропонують “ШІ-автоматизацію” під ключ: налаштовують сервіси, розробляють пайплайни, де частину коду генерує ШІ. Це напрям із потенційно високим попитом.

Ключові висновки

Отже, поточні дослідження та відкриті дані свідчать, що ШІ уже впливає на фриланс, але не нівелює роль спеціалістів. Автоматизація доповнює людську працю, а не витісняє її. Кожен розробник може адаптуватися й навчитися застосовувати інструменти на кшталт Copilot або DeepResearch, щоби залишатися затребуваним у проєктах, які вимагають комплексного підходу, креативності та живої комунікації з клієнтом.

More Articles

Як змінюється SEO в епоху AI
21-10-2025

ШІ трансформує пошук. Дізнайтеся, як SEO розвивається в AEO та GEO, де видимість означає цитування у відповідях ШІ, а не лише рейтинг у результатах

Не вимикай мозок: як мислити поруч із ШІ
16-10-2025

ШІ спрощує роботу, але уповільнює мислення. Як залишатися творчою й мислячою людиною, коли машини роблять усе.

AI workslop: чому бізнес платить фрілансерам за виправлення помилок ШІ
07-10-2025

AI workslop коштує компаніям тисячі доларів. А фрілансери, що вміють виправляти помилки ШІ, стають більш затребуваними.

Disney Creative Strategy: як ідеї стають реальністю
03-10-2025

Як мислення за методом Діснея дисциплінує креативність і переводить ідеї з фантазії у дію.

Upwork Boost: Підвищення видимості профілю фрілансера
29-09-2025

Порівнюємо Upwork Profile Boost і Available Now: що дає більше видимості, коли варто застосовувати та який буст обрати.

10 постів, які допоможуть почати на Upwork
29-09-2025

Ми зібрали для вас статті, які допоможуть розібратись з ключовими речами — від створення профілю до побудови довгострокових відносин із клієнтами.

Літо 2025 в Etcetera
26-09-2025

Результати літа 2025 в Etcetera: тихий сезон, нові люди в команді, зміни на Upwork і плани на активну осінь.

Відгуки на Upwork: інструмент довіри, якому варто навчитися
22-09-2025

Відгуки на Upwork — ключ до довіри. Дізнайся, як клієнти читають відгуки, як фрілансерам оцінювати клієнтів та як правильно просити фідбек

7 Hats: інструмент мислення, який економить час і нерви
08-09-2025

Як метод 7 капелюхів мислення допомагає бачити повну картину й ухвалювати ефективні рішення фрілансерам та командам.

Upwork: чи перетворився він на платформу pay-to-play?
29-08-2025

Дізнайтеся повну еволюцію системи оплат на Upwork: від комісії 10% до нинішніх 0-15%, а також Connects, Boost та інші платні інструменти.

Upwork Reset 2025: як перезапустити свою стратегію
25-08-2025

5 кроків для оновлення стратегії на Upwork у 2025: навички, ціни, заявки, JSS та нова комісія

Як створити команду, яка не розвалиться під час кризи
22-08-2025

Як побудувати сильну команду, що витримує кризи: Денис Сафонов ділиться уроками за 11 років керування агенцією Etcetera в умовах глобальних викликів.