OpenAI опублікувала препринт із докладним описом під назвою “SWE-Lancer: Can Frontier LLMs Earn $1 Million from Real-World Freelance Software Engineering?” (arXiv: 2502.12115).
SWE-Lancer призначений для оцінки як окремих виправлень коду, так і управлінських рішень, де моделі мають вибирати найкращу пропозицію з кількох варіантів.
Однією із сильних сторін SWE-Lancer є використання наскрізних тестів замість ізольованих модульних операцій.
У рамках цього бенчмарку зібрано майже 1500 реальних фриланс-завдань від компанії Expensify, що розміщувала задачі на платформі Upwork. (опублікована частина містить задачі на $500+ тис.)
Штучному інтелекту пропонували ці ж самі завдання. Модель мала “заробити” якомога більше зі “скарбнички” бенчмарку. Важливо: складніші задачі оплачувались дорожче.
Таски поділили на дві категорії:
Індивідуальні інженерні завдання (IC SWE tasks)
Задачі IC SWE можуть бути як елементарними (наприклад, п’ятнадцятихвилинне виправлення багу), так і доволі комплексними (на додачу нових функцій інколи йде кілька тижнів).
На відміну від багатьох інших бенчмарків, де якість рішень перевіряють лише модульними тестами, у SWE-Lancerдля задач IC SWE застосовують наскрізні (end-to-end) тести, створені досвідченими розробниками. Ці тести використовують автоматизацію у браузері, аби перевірити, як додаток поводиться в реальних умовах, і повторюють типовий процес рецензування у фриланс-проєктах. Крім того, проходження тестів було тричі переглянуто професійними інженерами, щоб підтвердити їхню якість.
Менеджерські завдання (SWE Manager tasks)
SWE Manager орієнтовані на те, щоб модель проаналізувала кілька різних пропозицій, що надійшли від фрилансерів, і вибрала серед них оптимальну. Потім цей вибір порівнюють із рішенням, яке ухвалювали в оригінальному проєкті менеджери-інженери. Через те, що часом кілька пропозицій можуть бути водночас технічно правильними, такі завдання вимагають глибокого розуміння репозиторію та контексту проблеми, аби з усіх можливих варіантів визначити найкращий.
Так виглядає шляк вирішення (взято зі статті):

Перш ніж перейти до безпосередніх цифр, варто відзначити, що дослідники оцінювали не тільки відсоток успішно розв’язаних завдань, а й загальний “заробіток” моделі. Таким чином, вимірювалася як ефективність (наскільки часто модель вирішує задачу з першого разу), так і економічна цінність (скільки грошей вдалося “вибити” з усього пулу завдань). Це дозволяє побачити, як штучний інтелект справляється з різними категоріями проєктів, зокрема у двох вибірках:
Нижче наведені основні показники для кожної моделі
Ключовий висновок: ШІ-моделі різняться за ефективністю, але всі здатні вирішувати частину реальних фриланс-завдань. Найкраще справляється Claude 3.5 Sonnet, особливо на менеджерських задачах (до 47% успіху), в той час як GPT-4o пасе задніх у IC SWE (лише 8% на Diamond) і компенсує це дещо кращою статистикою в менеджменті. Модель o1 демонструє «золоту середину», випереджаючи GPT-4o, але відстаючи від лідера в більшості метрик.

Нижче наведено розширений опис на основі категорій завдань, які виділені у бенчмарку. Ці приклади можна розглядати як “реальні кейси” того, що вже зараз уміє (або не вміє) ШІ на практиці:
У підсумку можна сказати, що найлегше моделям даються дрібні багфікси та менеджерські рішення щодо простих фіч, тоді як широкі переробки всієї системи та глибокі архітектурні зміни залишаються переважно зоною відповідальності людини.
Посилення конкуренції, але лише частково
Деякі завдання, які раніше легко брали початківці (простий багфікс за $20–$100), тепер можуть бути виконані за допомогою ШІ.
Нова ніша: ШІ-під ключ
Деякі фрилансери вже пропонують “ШІ-автоматизацію” під ключ: налаштовують сервіси, розробляють пайплайни, де частину коду генерує ШІ. Це напрям із потенційно високим попитом.
Отже, поточні дослідження та відкриті дані свідчать, що ШІ уже впливає на фриланс, але не нівелює роль спеціалістів. Автоматизація доповнює людську працю, а не витісняє її. Кожен розробник може адаптуватися й навчитися застосовувати інструменти на кшталт Copilot або DeepResearch, щоби залишатися затребуваним у проєктах, які вимагають комплексного підходу, креативності та живої комунікації з клієнтом.

ШІ трансформує пошук. Дізнайтеся, як SEO розвивається в AEO та GEO, де видимість означає цитування у відповідях ШІ, а не лише рейтинг у результатах
ШІ спрощує роботу, але уповільнює мислення. Як залишатися творчою й мислячою людиною, коли машини роблять усе.

AI workslop коштує компаніям тисячі доларів. А фрілансери, що вміють виправляти помилки ШІ, стають більш затребуваними.

Як мислення за методом Діснея дисциплінує креативність і переводить ідеї з фантазії у дію.

Порівнюємо Upwork Profile Boost і Available Now: що дає більше видимості, коли варто застосовувати та який буст обрати.

Ми зібрали для вас статті, які допоможуть розібратись з ключовими речами — від створення профілю до побудови довгострокових відносин із клієнтами.

Результати літа 2025 в Etcetera: тихий сезон, нові люди в команді, зміни на Upwork і плани на активну осінь.

Відгуки на Upwork — ключ до довіри. Дізнайся, як клієнти читають відгуки, як фрілансерам оцінювати клієнтів та як правильно просити фідбек

Як метод 7 капелюхів мислення допомагає бачити повну картину й ухвалювати ефективні рішення фрілансерам та командам.

Дізнайтеся повну еволюцію системи оплат на Upwork: від комісії 10% до нинішніх 0-15%, а також Connects, Boost та інші платні інструменти.

5 кроків для оновлення стратегії на Upwork у 2025: навички, ціни, заявки, JSS та нова комісія

Як побудувати сильну команду, що витримує кризи: Денис Сафонов ділиться уроками за 11 років керування агенцією Etcetera в умовах глобальних викликів.