Типа как блох Yorko
Тут это... больше 10к человек сидит, а группу активной явно не назовешь. Пока я (и мы – ODS в целом) думаем, как бы возродить mlcourse.ai в исходном виде и кто это будет тащить, я тут временно буду о чем-то писать.
Вроде как блог, как если бы на дворе был 2016 и начинать новый блог по ML/DS/"AI" было круто. У меня нет иллюзии, что я тут сейчас стану суперблогером-инфлюенсером (иначе делал бы видеообзоры статей в тиктоке). Я сам подписан на блоги кучи крутых парней и никого почти регулярно не читаю (может, за исключеним vas3k) – только по необходимости, по конкретной теме. Так что чукча – писатель, я тут ~ раз в месяц буду писать что-то для самого себя интересное :) потенциально это может оказаться интересным и для вас.
А для меня интересны реальные истории ML-проектов, карьерные вопросы, математика в ML, разные кулстори и немного (по инерции) образование в области ML. Прям блог да на английском начинать не хочется (commitment), так что тут попишу, посмотрю, как это вам заходит, как это мне заходит.
Первый пост – про пару важных ML-курсов, которых сейчас не существует (вроде как).
Количество постов 181
Частота постов 316 часов 44 минуты
ER
91.35
Нет на рекламных биржах
Графики роста подписчиков
Лучшие посты
Скоро DataFest 2021, прекрасное событие, всем рекомендую. В частности, в треке про найм и карьеру в Data Science я расскажу о своих набитых шишках и фэйлах в DS-проектах. Этот пост для затравки, рассказывает об одном таком фэйле.
Люблю нашу профессию – Data Science. Хоть изредка, но появляется в проектах математика. Поделюсь одной задачкой на графы, которая у меня возникла прямо в проекте, сначала будет мотивация, потом математическая формулировка. Там хоть не чисто ML, но понятия точности/полноты возникают, так что, может, и не ML, но DS – да.
Мотивация
Прилетают тексты, которые мы обрабатываем, это может быть что угодно – обращения в техподдержку, заявки на гранты и т.д. Суть в том, что на каждый текст тратятся усилия, а также могут быть дубликаты, и хочется избежать обработки дубликатов. Вопрос в том, как с течением времени (и накоплением размера выборки) меняется процент дубликатов. То есть, по сути, насколько хуже становится ситуация, насколько больше денег теряется на обработку дубликатов. На практике речь идет о почти-дубликатах и есть эффективный алгоритм их нахождения (вот тут, к слову, возникают точность и полнота, т.к. алгоритм вероятностный)– Locality Sensitive Hashing – но это уже не принципиально.
Математическая постановка задачи
Пусть граф G = (V, E) обозначает отношение “быть почти-дубликатом”, V – множество индексов текстов, E – множество ребер, соединяющих пары вершин - почти-дубликатов.
Предположение: пусть вероятность наличия ребра между любой парой вершин фиксирована и равна p.
Вопрос: как доля вершин, имеющих хотя бы одно ребро (т.е. текстов, имеющих хотя бы один почти-дубликат), меняется с ростом числа вершин |V| ?
Продвинутый уровень: есть два разных отдела, занимающиеся одним и тем же – обработкой таких заявок. Дубликаты попадаются как внутри каждого отдела, так и между отделами. Но обмен данными между отделами сложен или запрещен, так что замерить процент дубликатов между отелами мы не можем. Как и не можем предполагать, каков вероятность появления дубликата между отделами (просто никак не сможем это проверить на данных). На картинке показаны оранжевый граф и синий граф, а также черные ребра – между ними. Вот про них мы ничего не знаем. Можем ли мы смоделировать процент дубликатов между отелами на основе наблюдений внутри каждого отдела?
То есть есть два графа G1 = (V1, E1) и G2 = (V2, E2).
Вероятность наличия ребра между любой парой вершин из V1 фиксирована и равна p1. Вероятность наличия ребра между любой парой вершин из V2 фиксирована и равна p2.
Какова доля соединенных ребер в графе G = (V, E), где
V = V1 ∪ V2,
E = E1 ∪ E2 ∪ E12,
E12 – множество ребер (v1, v2) таких что v1 ∈ V1, v2 ∈ V2.
Кто хочет, может взять ручку-бумажку и поботать. Я позже поделюсь своим решением.
Мотивация
Прилетают тексты, которые мы обрабатываем, это может быть что угодно – обращения в техподдержку, заявки на гранты и т.д. Суть в том, что на каждый текст тратятся усилия, а также могут быть дубликаты, и хочется избежать обработки дубликатов. Вопрос в том, как с течением времени (и накоплением размера выборки) меняется процент дубликатов. То есть, по сути, насколько хуже становится ситуация, насколько больше денег теряется на обработку дубликатов. На практике речь идет о почти-дубликатах и есть эффективный алгоритм их нахождения (вот тут, к слову, возникают точность и полнота, т.к. алгоритм вероятностный)– Locality Sensitive Hashing – но это уже не принципиально.
Математическая постановка задачи
Пусть граф G = (V, E) обозначает отношение “быть почти-дубликатом”, V – множество индексов текстов, E – множество ребер, соединяющих пары вершин - почти-дубликатов.
Предположение: пусть вероятность наличия ребра между любой парой вершин фиксирована и равна p.
Вопрос: как доля вершин, имеющих хотя бы одно ребро (т.е. текстов, имеющих хотя бы один почти-дубликат), меняется с ростом числа вершин |V| ?
Продвинутый уровень: есть два разных отдела, занимающиеся одним и тем же – обработкой таких заявок. Дубликаты попадаются как внутри каждого отдела, так и между отделами. Но обмен данными между отделами сложен или запрещен, так что замерить процент дубликатов между отелами мы не можем. Как и не можем предполагать, каков вероятность появления дубликата между отделами (просто никак не сможем это проверить на данных). На картинке показаны оранжевый граф и синий граф, а также черные ребра – между ними. Вот про них мы ничего не знаем. Можем ли мы смоделировать процент дубликатов между отелами на основе наблюдений внутри каждого отдела?
То есть есть два графа G1 = (V1, E1) и G2 = (V2, E2).
Вероятность наличия ребра между любой парой вершин из V1 фиксирована и равна p1. Вероятность наличия ребра между любой парой вершин из V2 фиксирована и равна p2.
Какова доля соединенных ребер в графе G = (V, E), где
V = V1 ∪ V2,
E = E1 ∪ E2 ∪ E12,
E12 – множество ребер (v1, v2) таких что v1 ∈ V1, v2 ∈ V2.
Кто хочет, может взять ручку-бумажку и поботать. Я позже поделюсь своим решением.