Вертикальные LLM - как заработать кучу денег на GPT4
Как Джейк Хеллер, основатель Casetext, запилил и продал юридическую технологическую компанию, в основе которой был сначала ИИ, а потом GPT4.
Джейк Хеллер, юрист с ИТ образованием, основал Casetext, чтобы решить проблему неэффективных юридических технологий. Первые 10 лет компания развивалась постепенно, фокусируясь на аннотировании законов и создании более удобных инструментов поиска, но безуспешно пыталась привлечь юристов к созданию пользовательского контента. С появлением GPT-4 Хеллер увидел возможность радикального улучшения.
Компания полностью переключилась на разработку CoCounsel, ИИ-помощника, способного выполнять сложные задачи: анализировать документы, проводить исследования и составлять юридические записки. Хеллер и его команда использовали итеративный подход, разбивая каждую задачу на последовательность простых шагов и тщательно тестируя каждый шаг. Они стремились к 100% точности, понимая консервативность юристов и важность достоверности информации.
Этот подход, аналогичный test-driven development (TDD) в программировании, позволил добиться высокой точности и надежности CoCounsel. Быстрый успех CoCounsel привлек внимание Thomson Reuters, которые приобрели Casetext за $650 млн. Хеллер видит большой потенциал в применении подобного подхода в других областях, а также в новых моделях LLM.
Действующие лица:
Джейк Хеллер: Основатель Casetext, юридической технологической компании, приобретенной Thomson Reuters. Имеет юридическое образование и опыт работы в области компьютерных наук.
Гари: Ведущий подкаста The Light Cone.
Джаред: Соведущий подкаста The Light Cone.
Диана: Соведущий подкаста The Light Cone.
исходное видео тут
Вертикальные LLM
Гари: Добро пожаловать на новый выпуск The Light Cone. Я Гари, это Джаред, Диана, Харджес нет, но он вернется в следующем выпуске.
Сегодня у нас очень особенный гость, Джейк Хеллер из Casetext. Я думаю о Джейке как об одном из первых людей на поверхности Луны. Он создал Casetext более 11-12 лет назад. За первые десять лет вы прошли путь от нуля до оценки в 100 миллионов долларов. Затем, через два месяца после выпуска GPT-4, эта оценка превратилась в ликвидный актив для Thomson Reuters за 650 миллионов долларов. У вас есть много уроков о том, как создавать реальную ценность из больших языковых моделей. Я думаю, вы были одним из первых людей, которые действительно осознали, что это море перемен и революция. И не только это, вы сделали ставку всей компании на это. И вы были абсолютно правы. Добро пожаловать, Джейк.
Джейк: Рад быть здесь.
Джаред: Одна из интересных вещей в истории Джейка, и причина, по которой мы хотели пригласить его сегодня, заключается в том, что если вы просто посмотрите на компании, которые сейчас создают хорошие основатели, то это в основном вертикальные ИИ-агенты. Я пытался подсчитать их в S24. Буквально десятки компаний YC в последней партии создавали вертикально-специфичные ИИ-агенты. И я думаю, что Джейк — основатель, который в настоящее время управляет самым успешным вертикальным ИИ-агентом. Это, безусловно, крупнейшее приобретение, и оно фактически развернуто в масштабе и во многих критически важных ситуациях. Вдохновением для этого послужил ретрит, который мы провели несколько месяцев назад, и Джейк выступил с невероятной речью о том, как он его построил, и мы подумали, что это было бы очень полезно для людей, которые смотрят Light Cone, которые интересуются этой областью, услышать непосредственно от одного из самых успешных разработчиков в этой области, как он это сделал.
Гари: Итак, как вы это сделали?
Джейк: Ну, во-первых, как и во многих подобных вещах, здесь есть определенная доля везения. В течение нашего десятилетнего пути мы начали очень глубоко инвестировать в ИИ и обработку естественного языка, и мы сблизились с рядом различных исследовательских лабораторий, включая некоторых сотрудников OpenAI. Когда пришло время для них начать тестирование ранних версий, мы не знали, что это была GPT-4 в то время. Но это была GPT-4. Мы получили очень ранний доступ к ней. Итак, за несколько месяцев до публичного выпуска GPT-4, мы как компания все были под NDA, все работали над этим. И я никогда не забуду первый раз, когда я увидел это. Нам потребовалось, может быть, 48 часов, чтобы решить взять каждого человека в компании и переключить то, над чем они работали в то время, на 100% компании, работающей над созданием этого нового продукта, который мы называем CoCounsel, основанного на технологии GPT-4.
Джаред: Сколько людей это было?
Джейк: В то время у нас было около 120 человек.
Джаред: То есть вы взяли 120 человек и полностью изменили то, над чем они все работали?
Джейк: Да. За 48 часов.
Гари: Для людей, которые смотрят Casetext изначально, всегда был в юридической сфере. Вы юрист, и вы создали что-то для себя. И первые версии этого были фактически аннотированными версиями прецедентного права.
Джейк: Да, это совершенно верно. В самом начале компании, миссия компании, на которой мы всегда были сосредоточены, заключалась в том, как мы можем создать что-то, что привнесет лучшие технологии в юридическую сферу. Как юрист, мне на самом деле очень нравится эта работа. Части моей работы, которые я ненавидел больше всего, это когда мне приходилось взаимодействовать с технологиями, которые юристы должны регулярно использовать для выполнения работы. Я помню, как думал, а это было примерно в 2012 году, когда я работал в юридической фирме, если я хочу сделать что-то действительно тривиальное, у меня был новый iPhone в то время. Я мог зайти в Google и найти, например, время сеансов кино или где находится ближайший открытый тайский ресторан с вегетарианскими блюдами. Это было очень легко, но если я хотел найти доказательство, которое оправдает моего клиента и сделает так, чтобы ему не пришлось сидеть в тюрьме до конца своей жизни, или ключевое юридическое дело, которое поможет мне выиграть судебный процесс на 1 миллиард долларов, ну, это займет примерно пять дней подряд до 5 утра каждый день. Я думал, должен быть способ лучше.
Диана: Каков процесс? Как юрист, вам приходилось читать стопки и стопки документов.
Джейк: В значительной степени. Да. Прямо перед тем, как я начал практиковать. До того, как все стало виртуальным или онлайн, вы буквально находились в подвале с банковскими коробками, полными документов, читая их один за другим, пытаясь найти все электронные письма в такой компании, как Pfizer или Google, чтобы увидеть, было ли потенциальное мошенничество, или, э-э, а затем, если вы хотели найти прецедентное право немного раньше моего времени, вы буквально шли в библиотеку, открывали книги и просто начинали читать, и, знаете, выходили новые продукты, которые были одними из первых веб-инструментов для исследований, но они были довольно неуклюжими. Было просто трудно найти нужную информацию.
Диана: То есть вы не могли использовать Ctrl+F для всего этого? В основном нет. Да. И что интересно в вашем прошлом, так это то, что вы также оказались редким человеком, имеющим также образование в области компьютерных наук. Так что это, должно быть, сводило вас с ума.
Джейк: Да, именно. Я имею в виду, в юридической фирме, я никогда не забуду. Я создавал, например, плагины для браузера, которые работали поверх инструментов, которые я использовал, просто чтобы сделать мою жизнь более эффективной и действенной. И на самом деле, одна из причин, по которой я покинул юридическую фирму, чтобы основать компанию и подать заявку в YC, заключалась в том, что у меня возникли проблемы с главным юрисконсультом, который подумал: "Эй, почему ты тратишь все свое время на эти технические штуки?". И также в то время дал очень четко понять, что моя юридическая фирма владеет всеми этими технологиями. Поэтому я решил сделать что-то другое.
Джаред: Хотите немного рассказать о первых десяти годах Casetext, о долгом пути в эпоху до LLM?
Джейк: Один из уроков, которые я извлек из этого периода, заключается в том, что когда вы начинаете компанию, вы можете не получить правильное направление сразу. У вас может быть правильное общее направление. Вы знаете, есть проблема, вы пытаетесь ее решить, но может потребоваться очень много времени, чтобы выяснить, какое решение подходит именно вам. Например, мы видели, что существует эта комбинированная проблема плохих технологий в юридической сфере, но также и то, что многие юристы используют контент для таких вещей, как исследования и понимание того, что такое закон. И поэтому мы подумали: "Хорошо, мы можем улучшить технологии, но как мы получим этот контент?". И мы потратили пару лет, пытаясь, как сказал Гари, заставить юристов аннотировать прецедентное право и предоставлять информацию.
Гари: То есть это как сайт UGC, с пользовательским контентом.
Джейк: Да, это был наш главный фокус. Как бы двойной удар: лучшие технологии, но также и лучший контент. В то время нашими героями были Stack Overflow, Wikipedia, GitHub и другие веб-сайты с открытым исходным кодом или UGC, и это был полный провал. Мы не могли заставить юристов вносить свой вклад своим временем и информацией. И я думаю, что это просто разные группы людей. Типичный редактор Wikipedia имеет больше свободного времени, чем он знает, что с ним делать. И поэтому они добавляют, не все, но многие добавляют контент бесплатно. Э-э, и альтруистически, юристы выставляют счета по часам. Их время невероятно ценно. У них всегда не хватает времени. У них не было времени, чтобы внести свой вклад в какой-то сайт UGC. Поэтому нам пришлось переключиться, и мы начали очень глубоко инвестировать. В то время это не называлось ИИ. Это была просто обработка естественного языка и машинное обучение. И мы увидели, что, во-первых, нам не нужно было создавать весь этот UGC, чтобы воспроизвести некоторые из лучших преимуществ того, что было у наших конкурентов в этих больших базах данных контента. Часть этого вы можете в основном сделать даже тогда на автоматизированной основе. А затем мы также начали создавать пользовательский интерфейс, который был намного лучше, чем то, что могли предложить наши конкуренты, основываясь на том, что в то время казалось немного старомодным, типа ИИ, например, тот же алгоритм рекомендаций, который используется в Pandora и Spotify, это как рекомендуемая музыка. Они смотрят в основном, связана ли эта песня с той песней, и люди, которые слушали это, также слушали это, это и это, верно? Точно так же мы смотрели на дела, которые ссылаются на другие дела. Все они ссылаются на более ранние заключения. Вы знаете, они как бы выстраивают эту сеть цитат. И мы нашли способы, которыми мы можем проверить работу юриста. Они загружают свою работу до сих пор, и мы говорим: "Ну, все говорят об этом деле, говорят и об этом деле тоже. А вы это пропустили". Так что такие классные вещи. Но правда в том, что до самого конца, до CoCounsel, многое из того, что мы делали, было, относительно говоря, своего рода постепенным улучшением юридического рабочего процесса. И одна из странностей заключается в том, что когда есть только постепенное улучшение, на самом деле довольно легко игнорировать многих наших клиентов. Они никогда не сказали бы этого буквально, но у вас складывается такое впечатление, когда вы входите в комнату, в их офис, и пытаетесь представить им продукт и говорите: "Это изменит все в вашей практике". А они говорят: "Ну, я зарабатываю 5 миллионов долларов в год. Я не хочу, чтобы что-то менялось. Эта технология... Я не хочу ничего внедрять, что может сделать мою жизнь хоть немного хуже, или потенциально хуже, или потенциально более эффективной", потому что они выставляют счета по часам. Это было только намного позже, когда вышел ChatGPT. Вы знаете, в то время мы в частном порядке и тайно работали над GPT-4. Вышел ChatGPT, и вдруг каждый юрист в Америке, вероятно, в мире, увидел: "О боже, я не знаю точно, как это изменит мою работу, но это изменит ее очень существенно". Они могли это почувствовать. И те же самые, знаете, парни и девушки говорили нам: "Я зарабатываю 5 миллионов долларов в год. Почему это должно что-то менять в моей жизни?". "Я зарабатываю 5 миллионов долларов в год. Это что-то изменит. Мне нужно быть впереди этого". Сама технология, и мы поговорим об этом через секунду, действительно изменила то, что мы можем создавать для юристов, но также и рыночное восприятие того, что было необходимо, действительно изменилось. И впервые за наши десять лет, знаете, еще до того, как мы публично запустили CoCounsel на основе GPT-4, они звонили нам, типа: "Мы знаем, что вы работаете над ИИ. Нам нужно быть в курсе этого. Что вы можете, знаете, что вы можете нам показать? Над чем мы можем работать?". И я думаю, это потому, что изменения больше не были постепенными. Они были фундаментальными. И вдруг им пришлось обратить на это внимание. Они не могли это игнорировать.
Гари: У меня есть ментальная модель для вас, это концепция лабиринта идей. Основатель входит в начало лабиринта, и он просто как бы ощупывает, как будто на арене, разговаривает с клиентами, узнает, где стены, по какому пути идти? Должен ли я идти налево или направо? И затем, как это обычно бывает с основателями стартапов в лабиринте идей, вы фактически заходите в тупик. И тогда обычно вам приходится делать поворот. И я думаю, у вас очень интересная история, потому что вы были как бы к концу, может быть, одной из частей, которые не собирались привести вас к полному соответствию продукта рынку, но затем появились LLM, и лабиринт как бы встряхнулся. И вы были на самом деле намного ближе к product/market fit, чем кто-либо другой. Вот почему… Какое безумное…
Джейк: Время. Да, это совершенно верно.
Гари: Вот почему вы первый человек на Луне.
Джейк: Да. Да. Я думаю, в этом действительно что-то есть. И дело в том, что каждый раз, когда мы продвигались по этому лабиринту, казалось, что, возможно, теперь у нас есть product/market fit. Знаете, мы получали реальную выручку до того, как запустили CoCounsel, у нас были реальные клиенты, и они говорили о нас очень хорошие вещи. Я продолжаю думать об этой статье, написанной Марком Андриссеном примерно в начале 2000-х. Я думаю, она называется "Единственное, что имеет значение". И в ней он описывает, каково ощущение, когда у тебя есть product/market fit. Он перечисляет такие вещи, как: "Ваши серверы упадут. Вы не сможете нанимать сотрудников поддержки и продавцов достаточно быстро. Вы будете есть бесплатно в течение года в Bucks", знаменитой закусочной в Вудсайде, куда многие венчурные капиталисты водят вас. Пресса... И я читал это в начале своей, знаете, карьеры. И я подумал: "Ну, это гипербола". Но когда мы запустили CoCounsel, это было буквально именно так. Наши серверы падали. Мы не могли нанимать сотрудников поддержки достаточно быстро. Мы не могли нанимать продавцов достаточно быстро. Я много ел в Bucks, знаете, э-э, до того, как… Это был действительно важный день, если мы были в ABA Journal или каком-то другом, знаете, юридическом издании, мы были на CNN, MSNBC и, знаете, вдруг все изменилось. И вот как выглядит настоящий product/market fit. Я думаю, рынки, даже в 2005 году или когда бы эта статья ни вышла, совершенно правы в том, как это выглядело в 2023 году.
Джаред: Можете рассказать об этом безумном времени? Потому что прошло всего два месяца с момента запуска CoCounsel до покупки за 650 миллионов долларов. Так что, типа, что произошло за эти два месяца?
Джейк: Ну, если быть точным, сделка закрылась только через шесть месяцев после запуска. Но через два месяца начались разговоры. Итак, мы начали создавать CoCounsel. И просто для справки, идея, которая пришла нам в голову, опять же, за 48 часов, за выходные после того, как мы увидели GPT-4, была… И это то, что сегодня не кажется таким уж безумным, но в то время это казалось безумным, а именно: этот ИИ-помощник юриста, под которым мы подразумеваем, что это почти как новый сотрудник фирмы. Вы можете просто поговорить с ним, почти так же, как вы можете говорить с чем-то вроде ChatGPT сегодня, и дать ему такие задания, как: "Мне нужно, чтобы ты прочитал эти миллион документов для меня и сказал мне, есть ли какие-либо доказательства мошенничества в этой компании". И затем через пару часов: "Я прочитал все документы. Вот краткое изложение". Или обобщить документы, или провести юридическое исследование и составить целую записку. После изучения сотен или тысяч дел, отвечая на первоначальный исследовательский вопрос юриста. И в этом смысле это было действительно мощным расширением рабочей силы этих юридических фирм. Это была концепция с самого начала. И мы сделали очень раннюю начальную версию этого, и мы начали, потому что мы не могли, знаете, согласно нашему соглашению с OpenAI, мы не могли публично говорить об этом продукте. Но они позволили нам распространить NDA на нескольких наших клиентов. И поэтому мы начали просить наших клиентов использовать его. Итак, знаете, за несколько месяцев до того, как GPT-4 была публично запущена, у нас было несколько юридических фирм, которые, типа, понятия не имели, что они используют GPT-4, но они видели что-то действительно особенное, верно? Это было еще до ChatGPT. Так что это был их первый опыт общения с этим божественным, знаете, ИИ, который вдруг выполнял эти задачи, которые занимали у меня, когда я практиковал, целый день, и это делается за полторы минуты. И, как вы можете себе представить, это было безумие. Я имею в виду, во-первых, вся компания, все 120 из нас не спали в течение этих, знаете, месяцев до того, как GPT-4 была публично запущена, и поэтому мы могли публично запустить продукт. Мы чувствовали, что у нас есть эта удивительная возможность сильно опередить рынок. Что-то действительно прекрасное происходит, когда все работают очень, очень усердно, а именно вы итерируете так быстро… И на самом деле я все еще вижу некоторые компании, которые застряли там, где мы были в первый месяц после того, как увидели GPT-4. И я думаю, это потому, что они просто не так интенсивно сосредоточены и вовлечены, как мы смогли быть в течение этих нескольких, примерно шести месяцев или около того до публичного запуска GPT-4.
Диана: Вам пришлось сделать этот переход. Вам пришлось встряхнуть компанию. Вы как бы перешли в глубокий режим основателя, потому что было много сопротивления со стороны сотрудников. Они говорили: "О, эта штука работала. Почему мы должны бросаться в омут с головой в ИИ?". И да, расскажите нам об этом моменте режима основателя для вас.
Джейк: Итак, во-первых, это особенно верно, если вы управляете бизнесом в течение десяти лет, потому что они видели, как вы блуждаете по этому лабиринту и натыкаетесь на тупики. И многие из этих людей были там в течение большей части или всего этого времени, наблюдая, знаете, за мной как основателем, говорящим: "Мы определенно идем в этом направлении. Это определенно сработает". И иногда это не работает. И у вас есть только несколько таких случаев с сотрудниками. Поэтому это был, может быть, мой последний случай с некоторыми из этих людей. И они такие: "Вот Джейк снова со своей новой безумной технологией и какой-то идеей, в которую мы будем глубоко инвестировать". И да, потребовалось некоторое усилие, чтобы убедить людей. И если вы представите, каковы некоторые из различных ролей, если вы работаете в отделе выхода на рынок, если вы продаете или продвигаете продукт, и мы зарабатываем, знаете, мы растем на 70-80% год к году, у нас от 15 до 20 миллионов долларов IRR. Все было не так уж плохо. Это здорово. Да, у нас все было отлично. Да. Но, типа, поэтому они такие: "Что? Зачем мы вообще…?". Совет директоров. Знаете, некоторые члены сразу поняли это. А некоторых пришлось убеждать. О моменте режима основателя, одна вещь, которая действительно сработала для меня, это то, что я показал пример. Я сам создал первую версию. Ух ты.
Джаред: Даже имея компанию из 120 человек с целой кучей инженеров, юристов и прочего, типа, до этого вы, типа, открыли свою IDE и фактически сами создали эту штуку.
Джейк: О да. И отчасти это было связано с тем, что NDA сначала распространялось только на меня и моего соучредителя, и все. Это было благословением. Да, именно. Так и оказалось. Это оказалось идеальным. И даже после того, как NDA было немного расширено, мы держали его довольно узким поначалу, в течение первого, знаете, небольшого промежутка времени. Я решил в течение 48 часов, что я собираюсь это сделать, но мы фактически сообщили компании, я думаю, через неделю с половиной после того, как мы впервые получили доступ. И за эту неделю с половиной мы создали самую первую версию, как бы прототип этой штуки. И, опять же, я никогда не забуду это. Время было просто таким забавным. Мы увидели это в пятницу. У нас были все выходные. Мы работали с этим. А потом в понедельник был выезд руководителей, куда все приехали. Все мои руководители приехали, и они ожидали, что будут говорить о том, как мы собираемся достичь наших целей по продажам на следующий квартал. А я такой: "Ребята, мы не будем говорить ни о чем из этого. Сейчас мы говорим о чем-то совершенно другом. Позвольте мне показать вам кое-что на моем ноутбуке". Знаете, так что да, я сам создал первую версию. Но пройти через этот процесс, мне, а потом еще нескольким людям, я думаю, было очень полезно. И мы также привлекли клиентов на ранней стадии, и это помогло убедить многих людей, как только скептически настроенный продавец, маркетолог или кто-то еще, или даже инженер, оказался по другую сторону звонка в Zoom, где клиент реагировал на продукт в режиме реального времени и выдавал свои честные реакции, и, типа, видя выражение их лиц. И, опять же, вам нужно представить, почти трудно представить, каким был мир до ChatGPT. Но тогда некоторые из этих людей видели эту идею впервые. И они были просто поражены. И это действительно быстро изменило их мнение. Я имею в виду, мы видели, как люди переживают экзистенциальные кризисы в прямом эфире, знаете, во время звонков в Zoom, типа: "О…". Они могли видеть…
Диана: Как меняется их выражение лица.
Джейк: Точно. Во всех смыслах. Типа: "Что я буду делать?". Очень распространенной реакцией среди старших юристов, которым мы это показывали, было: "Ну, им придется иметь дело с этим отставному чуваку, типа, знаете, мне придется иметь дело с этим".
Гари: И кое-что из этого было действительно вызвано выходом GPT-4. У вас был доступ к третьей версии. У вас был доступ даже ко второй. Я думаю, у нас был доступ.
Джейк: Мы были в тесных отношениях со многими лабораториями, включая OpenAI, и они продолжали показывать нам вещи на ранней стадии разработки. И они такие: "Можете ли вы построить что-нибудь с этим для юридической сферы?". И каждый раз мы такие: "Нет, это отстой". Типа, знаете, к тому времени, когда вы дошли до третьей и 3.5 версии, это было типа: "Хорошо, это правдоподобно звучащий английский, и это звучит как юрист, так что честь им и хвала". Но это просто дико выдумывает вещи, типа, мы просто не… Очень трудно связать это с реальным вариантом использования, особенно в юридической сфере, где так важно, чтобы вы действительно правильно понимали факты, что вы не можете галлюцинировать, вы не можете даже делать неправильные предположения. И нам пришлось много работать с этими более ранними моделями, чтобы даже приблизить их к использованию, и они просто не были на самом деле… Я имею в виду, один тотем, или один пример по пути, это когда вышла GPT 3.5, было проведено исследование, э-э, и оно показало, что GPT 3.5 попала в 10-й процентиль по сдаче экзамена на адвоката. То есть она справилась лучше некоторых людей. Но 10% из них? Да, вероятно, те, кто просто заполнял его случайным образом. Когда мы получили ранний доступ к GPT-4, мы такие: "Давайте снова проведем исследование". Мы работали с OpenAI. Мы такие: "Мы хотим подтвердить это. Этот тест не входит в обучающий набор". И это был совершенно новый тест для нее. И в тесте, который мы провели, она справилась лучше, чем 90% участников теста. Так что это большая разница. И мы также начали писать некоторые тесты, типа: "Хорошо, вот 4 или 5 дел для прочтения. Используя эти дела, напишите записку в ответ на этот вопрос". И мы проделали большую работу с подсказками, чтобы заставить ее, по сути, просто делать это точно, ссылаться на реальные вещи в контексте, который мы ей дали, и не выдумывать вещи. И мы такие: "Хорошо, это сильно отличается от того, что мы видели раньше". Так что это был большой момент для нас. И, честно говоря, я не уверен, каков был настрой исследователей, с которыми мы работали, но это почти казалось, как будто к тому времени, когда у нас была эта встреча, это было похоже на одну из тех встреч, которые у нас были в прошлом, где мы готовились сказать, типа: "Это не сработает для юридической сферы. Продолжайте пытаться". И я думаю, они видели, как мы проходим, может быть, какую-то форму экзистенциального кризиса на этом звонке, который переживали наши клиенты. Мы такие: "О, подождите, это очень, очень сильно отличается". Я думаю…
Гари: Знаете, сегодня у нас есть Zero-One. У нас есть, знаете, цепочка мыслей, рассуждений. Э-э, я думаю, многие люди смотрят на это как не просто на сам текст, но и на инструкции, которые приводят к рабочему процессу. Но, знаете, в самом начале никто ничего из этого не знал. С чего вы начали? У вас были ваши тесты, которые вы написали для предыдущих версий модели. Они превзошли ожидания. Но затем наступает момент, когда вы говорите: "Хорошо, теперь это что-то, но что нам делать дальше? И как нам это сделать?".
Джейк: Итак, процесс, с которого мы начали тогда, и он на самом деле не слишком отличается от того, что мы делаем сегодня. Он начался с вопроса: "Хорошо, какую проблему мы пытаемся решить для пользователя?". Пользователь хочет провести исследование, юридическое исследование. Так… и он хочет, типа, получить записку с ответом на свой вопрос со ссылками на первоисточник. Так что это конечный результат. И затем мы такие: "Хорошо, как нам перейти от этого конечного результата, работая как бы в обратном направлении? Что потребуется, чтобы туда добраться?". И что в итоге происходит со многими вещами, которые мы создали для CoCounsel, мы называем их навыками, что казалось очень уникальным. И в то время, я думаю, многие компании теперь называют свои возможности ИИ навыками. Так что когда вы создаете эти навыки, оказывается, что обычно требуется много работы, чтобы перейти от, скажем, того, что клиент вводит что-то, скажем, набор документов или вопрос или что-то еще, к конечному результату, который он ищет. И мы думали об этом так: "Как бы лучший юрист в мире подошел к этой проблеме?". Итак, в случае исследования, например, лучший юрист, знаете, получил бы запрос, скажем, от партнера, а затем разбил бы этот запрос на фактические поисковые запросы, которые запускаются на этих платформах. И иногда они используют специальный синтаксис поиска, который выглядит очень похоже на SQL. Типа… Так что из запроса на английском языке вам нужно разбить его на эти разные поисковые запросы, может быть, десяток разных поисковых запросов, если вы действительно усердны. А затем они выполняют эти поисковые запросы в этих базах данных законов. И они возвращаются, скажем, со 100 результатами каждый. А затем они, знаете, самый усердный, лучший юрист сядет и просто прочитает каждый из этих результатов, которые вернулись, все прецедентное право, статуты, правила, и начнет делать такие вещи, как делать заметки, обобщать и составлять как бы план того, каким может быть ваш ответ. Строка…
Гари: За строкой или абзац за абзацем.
Джейк: Да, на 100%. И вы начинаете просто выписывать эти идеи, которые вы получаете из того, что вы читаете. И затем, наконец, основываясь на всей этой работе и всех цитатах, которые вы собрали, и так далее, затем, наконец, вы составляете свою исследовательскую записку. И мы такие: "Хорошо, каждый из этих шагов по пути, для подавляющего большинства из них, эти шаги было невозможно выполнить с помощью предыдущих технологий. Но теперь это подсказки".
Гари: Я думаю, шаг за шагом.
Джейк: Да, думайте шаг за шагом. Именно. Но мы фактически разбили это на каждый… знаете… Так что достижение конечного результата может быть десятком или двумя десятками отдельных подсказок, каждая из которых, кстати, может быть сама по себе цепочкой мыслей. Но, э-э, и затем для каждой из этих подсказок, знаете, как часть этой цепочки действий, которые вы предпринимаете, чтобы достичь конечного результата, у нас было очень четкое представление о том, как выглядит хороший результат. И мы смогли, знаете, у нас была серия, как бы батарея тестов раньше, но это стало намного интенсивнее, где мы писали сначала, может быть, несколько десятков тестов, а затем несколько сотен и несколько тысяч для каждой из этих подсказок. Так что, знаете, если задача, которую нужно выполнить в самом начале этого исследовательского процесса, например, заключается в том, чтобы взять запрос на английском языке и разбить его на поисковые запросы, у нас было очень четкое представление о том, как выглядят хорошие поисковые запросы, и мы написали, как бы эталонные ответы. "Учитывая этот ввод, вот как выглядит вывод", верно? И наши инженеры по подсказкам, э-э, и я был одним из них в самом начале. Мы все как бы вместе в этом участвовали, писали эти подсказки на английском языке, пытаясь, знаете, в основном, сначала написать тест, и писали эти подсказки на английском языке, пытаясь получить… из 1200… 200 раз он получил правильный ответ, 1000… 1199 раз или что-то в этом роде.
Диана: Так что это своего рода… разработка через тестирование. Да. Подход из разработки программного обеспечения к подсказкам.
Джейк: Именно так. И самое забавное, что я никогда не верил в разработку через тестирование до подсказок. Я думал: "О, код работает. Не работает. Все нормально". Типа, вы увидите это, когда… Но с подсказками, я думаю, это становится еще важнее из-за природы этих LLM, поскольку они могут неожиданно пойти в самых безумных направлениях. И поэтому, знаете, вы можете очень легко добавить набор инструкций для решения одной проблемы, которую вы видите с этими наборами тестов. А затем это ломает что-то с этими наборами тестов. И поэтому эта теория разработки через тестирование применима, я бы сказал, в десять раз больше в мире подсказок.
Диана: Многие скептики говорят, что многие компании просто создают обертки для GPT, и не создается много интеллектуальной собственности, но на самом деле есть много тонкостей в том, как вы все это объясняете. Можете рассказать нам обо всем этом и о том, сколько еще предстоит построить?
Джейк: О да. Я имею в виду, я думаю, дело в том, что когда вы фактически пытаетесь решить проблему для клиента и фактически выполняете работу, в нашем случае, типа, то, что может делать молодой юрист, и делаете это действительно хорошо, есть много слоев вещей, которые вам нужно добавить, чтобы фактически выполнить работу. И к тому времени, когда вы все это добавите, вы уже не просто обертка для GPT. Вы полноценное приложение, которое может включать, в нашем случае, собственные наборы данных, такие как сам закон и наши аннотации к закону, которые мы добавили автоматически. Оно может включать, э-э, подключения к клиентским базам данных. В нашем случае, в юридической сфере, у них есть эти очень специфические юридические системы управления документами. Э-э, знаете, подключение к ним очень важно. Э-э, оно может включать что-то такое тонкое, как то, насколько хорошо вы распознаете текст, и какие программы распознавания текста вы используете, и как вы их настраиваете, когда выполняете эту задачу… Одна из задач, которую выполняет CoCounsel, например, заключается в просмотре больших наборов документов. Как только вы начинаете работать с большим количеством документов, вы видите такие вещи, как рукописный текст повсюду, и они, типа, наклонены при сканировании. И есть эта безумная вещь, которую они делают в юридической сфере, где они печатают четыре страницы на одной странице, чтобы сэкономить место, и OCR прочитает это прямо поперек, но на самом деле это идет, знаете, один, два, три, четыре. Так что к тому времени, когда вы разобрались со всеми крайними случаями, честно говоря, еще до того, как вы дойдете до большой языковой модели, типа, все остальное до большой языковой модели, э-э, в вашем приложении могут быть десятки вещей, которые вы встроили, чтобы оно фактически работало и работало хорошо, а затем вы доходите до части с подсказками и написания тестов, и очень специфических подсказок, и стратегии того, как вы разбиваете, знаете, э-э, большую проблему на пошаговое мышление, э-э, и как вы подаете информацию, как вы форматируете эту информацию правильным образом. Э-э, все это также становится, знаете, вашей интеллектуальной собственностью, и это очень трудно воспроизвести, очень трудно построить, и поэтому очень трудно воспроизвести, что все…
Диана: Вся бизнес-логика, которая… даже все очень успешные SaaS-компании с очень специфической областью. Вам нужны очень, очень специфические, эзотерические нишевые интеграции, типа, подключение к этой эзотерической юридической базе данных.
Джейк: Да, абсолютно. Две вещи, о которых я все время думаю, это то, что в основном все SaaS какое-то время были просто оберткой для SQL. Если вы думаете о таких очень успешных компаниях, как Salesforce, они построили эту бизнес-логику вокруг баз данных и связей между таблицами в базе данных, и иногда преодолевая этот разрыв между тем, что, типа, либо очень технический человек может сделать, но большинство людей не могут, и делая это доступным, или преодолевая разрыв между тем, что почти работает, как… Вы можете делать много классных демонстраций в ChatGPT, не написав ни строчки кода, но это почти работает и работает, знаете, в 70% случаев. Но довести это до 100% - это совсем другая задача. И люди будут платить 20 долларов в месяц за 70%, и, может быть, 500 или 1000 долларов в месяц за то, что действительно работает, в зависимости от варианта использования. Так что есть большая ценность в прохождении этой последней мили, или 100 миль, или сколько там еще.
Джаред: Можете рассказать о том, как вы перешли от 70% к 100%? Потому что, я думаю, еще один недостаток этой технологии, о котором мы много слышим, это: «О, эти LLM слишком много галлюцинируют. Они недостаточно точны для использования в реальном мире». Но, как вы сказали ранее, вариант использования, над которым вы работаете, является критически важным. Многое поставлено на карту, если агент предоставляет неверную информацию юристам, которые работают над важными судебными делами. Как вы сделали его достаточно точным, чтобы юристы, консервативные по своей природе, могли ему доверять?
Джейк: Эта структура разработки через тестирование. Во-первых, она очень помогает, потому что вы можете начать видеть, знаете, закономерности в том, почему она совершает ошибку. И затем вы добавляете инструкции против этой закономерности. А затем иногда она все равно, знаете, делает неправильно. И тогда вы действительно спрашиваете себя: «Хорошо, был ли я предельно ясен в своих инструкциях? Включаю ли я информацию, которую она не… знаете… не должна видеть, или слишком много, или слишком мало информации, чтобы она действительно получила полный контекст?». И обычно эти штуки довольно умные. И поэтому обычно вы можете найти первопричину того, почему вы проваливаете определенные тесты, а затем дойти до того, где вы фактически проходите эти тесты, и она делает все правильно. Знаете, одна из вещей, которые мы узнали, это то, что если она проходит, честно говоря, даже 100 тестов, вероятность того, что она сделает на любом случайном распределении пользовательских вводов следующие 100… на 100% точно, очень высока.
Гари: Одна из вещей, которая меня поражает, это то, что многие основатели, с которыми мы работаем, очень склонны просто делать это вслепую. Просто, типа, без оценок, без разработки через тестирование. Мы просто, типа, только на интуиции. Инженерия подсказок только на интуиции. И, может быть… Я имею в виду, вы очень быстро переключились на это. Было ли это просто очевидно с самого начала, вы такие: «Мы просто не можем делать это по-другому. Мы не должны делать ни одну из этих подсказок вслепую».
Джейк: Да, я думаю… Думаю, самое главное, во-первых, зависит от варианта использования. Для многих вещей, над которыми мы работали, к счастью или к сожалению, был правильный ответ. И если вы получите неправильный ответ, юристы не будут этому рады. Я сам был юристом, но также продавал юристам в течение десятилетия. И каждый раз, когда мы совершали малейшую ошибку в чем-либо, что мы делали, мы сразу же слышали об этом. Так что у меня был этот голос в голове, может быть, когда я проходил через этот процесс. И это… как…
Джаред: Это урок, извлеченный из десяти лет упорной работы над проблемами? Вы такие: «Нет, это должно быть на 100%». О да, о да.
Гари: Это, вероятно, верно для гораздо большего числа областей, чем мы думаем.
Джейк: На самом деле, может быть. Потому что еще одна вещь, о которой мы много думаем, это то, что вы можете очень быстро потерять веру в эти вещи. У вас есть один неудачный опыт, особенно если это ваш первый неудачный… Ваш первый опыт неудачный. И вы такие: «Знаете, может быть, я проверю эти ИИ-штуки через год», особенно если вы занятой юрист, а не технолог. Поэтому мы знали, что должны сделать эту первую встречу… первую неделю действительно, действительно рабочей для юриста, иначе они не будут вкладываться в это глубоко.
Диана: Давайте немного поговорим об OpenAI One, потому что это совсем другая модель. Я имею в виду, до этого момента с GPT-4 и всем предыдущим поколением, аналогия с точки зрения интеллекта - это своего рода мышление Системы 1 и типа Дэниела Канемана, э-э, интеллект, верно, у него есть вся эта экономическая теория. Он получил Нобелевскую премию за это. Мышление Системы 1 очень быстрое, это своего рода решения, которые люди принимают очень интуитивно и основываясь на шаблонах, и LLM великолепны в этом, но они ужасны в исполнительной функции, потому что то, что я слышу во всем этом, что вы описываете, это своего рода… вы просто даете LLM, типа, исполнительную функцию, это как: «Как сделать это правильно? Как мне управлять этим действительно… этим более медленным мышлением?». И я думаю, One захватывающая. Мы еще не видели, чтобы что-то было построено, потому что она была анонсирована всего несколько дней назад. Я думаю, она добирается до этого мышления Системы 2, и я думаю, что это была большая область исследований, которую я много видел в NeurIPS год назад, где многие исследователи были рады раскрыть это, потому что это недостающая часть нашего общего ИИ. Давайте поговорим о том, что вы думаете о Zero-One и как это меняет…
Джейк: Итак, во-первых, я думаю, O-1 - очень впечатляющая модель. Э-э, как и с другими вещами, мы дали ей тесты, которые, как мы знали, она провалит. И степень… это не просто математика, степень тщательности, точности, интеллекта, применяемого к некоторым из этих вопросов. И иногда это вещи, которые вы бы не… не ожидали, что вам понадобится суперумная модель, чтобы сделать это. Типа, в одном из тестов, которые мы проводим, мы даем ей реальный юридический бриф юристов, но мы очень немного отредактировали некоторые из цитат этого юриста из дела, чтобы сделать это неправильной цитатой или неправильным обобщением его дела. Так что у него 40-страничный юридический бриф. Вы изменяете вещи, просто добавляя слово «не», что может полностью изменить смысл чего-либо. А затем мы даем полный текст дела ИИ и говорим: «Ну, что ты знаешь? Что юрист сделал неправильно в этом деле, если вообще что-то сделал?». И буквально каждая LLM до этого говорила: «Ничего. Все совершенно верно». И это просто не точный мыслитель в отношении некоторых очень тонких вещей, которые мы изменили в брифе, чтобы сделать его немного неправильным. И One понимает это сразу же, как вы сказали, она действительно думает какое-то время, типа, она сидит там минуту. Ты такой: «Эта штука… эта штука работает?». Знаете, типа, но затем она начинает отвечать, и это типа: «О, ну, знаете, она изменила «и» на «ни… ни…». Так что это те виды тестов, которые вы вроде как ожидаете, честно говоря, даже от более ранних LLM, чтобы они могли пройти, но они просто не могли. И вдруг One даже делает эти вещи, которые требуют, типа, точного, детального мышления.
Гари: Очевидно, у нас нет внутренней информации о том, как действительно работает O-1. У нас есть, знаете, эта общая идея цепочки мыслей. По-видимому, мы знаем, что если бы у OpenAI был гигантский корпус внутреннего монолога людей, обдумывающих вещи шаг за шагом, O-1 была бы еще намного лучше. Это своего рода рифмуется с тем, что вы сделали, чтобы сделать свой первый шаг на Луне, верно? Типа, это рифмуется с разбиением на, знаете, э-э, куски, где вы можете достичь 100% точности, вместо того, чтобы просто бросать все в контекстное окно и, знаете, может быть, волшебным образом это сработает. Вы думаете, что это то, что происходит? Я думаю, есть…
Джейк: Шанс, что они, знаете, может быть, изменили то, что делают их подрядчики, и вместо того, чтобы просто делать, знаете, ввод и вывод ответа, они делают ввод и «как бы я подумал о решении этой проблемы», а затем вывод ответа. Но тогда, знаете, интересная вещь заключается в том, что это как бы ограничено интеллектом людей, пишущих эти инструкции. И одна из вещей, которые мы исследуем, если это что-то значит, с One, это «можем ли мы подсказать ей, о чем думать во время ее мыслительного процесса», и внедрить, типа, опять же, мы наняли одних из лучших юристов в стране. «Как бы некоторые из лучших юристов в стране подумали о решении этой проблемы?». И, может быть, знаете, у нас пока нет убедительных доказательств в ту или иную сторону, что это значительно улучшает ситуацию. Это так рано. Просто пока прошло недостаточно времени. Есть шанс, что одна из новых техник подсказок с One - это учить ее не просто, типа, как отвечать на вопрос… как выглядят хорошие примеры ответов, но как думать. И я думаю, что это еще одна действительно интересная возможность здесь - это внедрение опыта в предметной области или просто вашего собственного интеллекта.
Гари: Я просто так благодарен, потому что я думаю, что вы как бы делитесь хлебными крошками, и знаете, есть много других областей, где эта технология только начинается. Я имею в виду, вы идете практически в любую компанию. У людей нет понятия о том, что только что произошло. Они на самом деле буквально все еще повторяют все эти, типа, избитые фразы, типа: «О, вам лучше донастраивать» или все эти… Я имею в виду, эти вещи просто не связаны с тем, что мы видим изо дня в день со стартапами и основателями, пытающимися создавать вещи для пользователей. То, чему я рад, это то, что мы можем фактически поделиться этими новостями… этими знаниями, потому что, типа, даже то, о чем мы говорили, знаете, «эй, вам, вероятно, следует проводить оценки»… есть много ценности в том, чтобы достичь 100%, а не только 70%. Это своего рода хлебные крошки, которые фактически приведут к созданию всех компаний стоимостью в миллиарды долларов, может быть, тысяч из них. Мы надеемся на это.
Джейк: Я имею в виду, я думаю, что вы начинаете видеть, как многие другие области, подобные юриспруденции, действительно выходят на новый уровень, когда вам не нужно тратить, знаете, миллионы долларов и шесть месяцев, буквально в подвале. Читая документ за документом. Когда вы действительно можете просто пройти мимо этого и получить просто результаты. И теперь вы мыслите стратегически и разумно, и открывающиеся возможности для этих компаний… Я имею в виду, в настоящее время они платят, опять же, миллионы долларов в виде зарплат за выполнение этих работ, каждой из них. Так что для любой компании, которая выпустит ИИ, который может делать даже 80% этого, ценность действительно есть. И я просто хочу призвать людей не сдаваться, основываясь на этих избитых фразах. Типа: «О, он слишком много галлюцинирует, он слишком неточный. Он слишком… что угодно». Есть… на примере чего угодно. Типа, есть путь, и вы можете это сделать.
Гари: И в этом есть хорошие новости. Знаете что? Рабочие места никуда не денутся. Они просто станут более интересными.
Джейк: Вот что я думаю.
Гари: Хорошо, на этом наше время истекло. Но, Джейк, большое спасибо, что были с нами.
Джейк: Спасибо, что пригласили.
Гари: Увидимся в следующий раз.