یادگیری از مردی که بازار را حل کرده است

ساخت وبلاگ

آنچه می توانیم برای علم داده از جیم سیمونز ، بهترین سرمایه گذار در تاریخ اخیر بیاموزیم

اولین باری که من از جیم سیمونز شنیدم به عنوان دانشجوی فارغ التحصیل در سال 2007 بود ، وقتی که من در حال جستجوی کتابهای درسی هندسه دیفرانسیل از کنجکاوی بودم ، نام ریاضیدان معروف را پیدا کردم. در آن زمان ، من کمی می دانستم که در آستانه یکی از بحران مالی بدتر در تاریخ اخیر و همچنین یک رویداد مهم در سیاست ایالات متحده قرار داشتیم.

مدتی بعد در سال 2009 ، من با یک فارغ التحصیل امور مالی در یک کارکرد دانشگاهی در ملبورن آشنا شدم که پس از پرسیدن چه کاری انجام دادم ، به طور خلاصه در مورد فناوری های رنسانس یا Rentech اظهار داشت. او شروع به نقاشی تصویری از صندوق پرچین مخفی و غیرمستقیم کرد که هیچ کس را با مدرک مالی استخدام نکرد. فقط فارغ التحصیلان STEM ، ترجیحاً در علوم سخت ، مانند فیزیک و ریاضیات. به نظر می رسید مانند فرقه ای از کیمیاگران مالی امروزی که در یک ساختمان اداری در جایی در لانگ آیلند ، نیویورک قرار دارند.

من مجذوب شدم: در اینجا یک صندوق پرچین بود که مانند اکثر بودجه فعالیت نمی کرد و تمام معاملات خود را به صورت خودکار و بی پروا با حداقل مداخله انسانی انجام می داد. داستان واقعاً با من صحبت کرد زیرا من همیشه با پیش بینی آینده ، خواه در تجارت و یا در غیر این صورت ، وسواس داشته ام ، و ساخت دستگاه هایی که به ما کمک می کنند تا این کار را به طور مؤثر انجام دهیم (در آن مرحله ، من هیچ ایده ای نداشتم که شروع کنمشغلی در علوم داده).

باز هم ، نام جیم سیمونز آمد.

فارغ التحصیل خاطرنشان كرد كه پس از اتمام پایان نامه دكتر ، باید درخواست كنم. در آن زمان ، تحقیقات دانشگاهی هنوز چیزی نزدیک به قلب من باقی مانده است ، بنابراین من هرگز فرصتی برای کمیت بودن نداشتم. پول به عنوان حل مشکلات چالش برانگیز و پیشبرد مجموعه دانش بشر مهم نبود. یا با خودم فکر کردم.

بنابراین جالب بود که کمی بیش از یک دهه بعد ، من می دیدم که جیم سیمونز و Rentech در فید توییتر خود ظاهر می شوند ، با مدالیون ، رکورد صندوق پرچمدار آنها در توییت ، با 66 ٪ درخشان نسبت به سال گذشتهبازده سالانه قبل از هزینه (39 ٪ پس از هزینه). این متعاقباً من را به حساب Gregory Zuckerman از جیم سیمونز ، Rentech و بازیگران درخشان و رنگارنگ شخصیت هایی که Rentech را امروز تبدیل کرده اند ، سوق داد.

داستان Rentech و بازده پدیده آنها از منظر علوم داده جالب است ، زیرا این یکی از اولین صندوق های پرچین بود که از ابزارهای مشابهی که امروزه داریم ، مانند یادگیری ماشین ، به بازارها استفاده می کرد. در اینجا چند درسهایی وجود دارد که می توانیم از این کتاب شگفت انگیز نوشته شده استخراج کنیم.

n همیشه مدل های خود را به حقیقت ببرید

با تعریف یک مدل ، از آنجا که این یک نمایش فشرده شده از واقعیت است ، فقط در بهترین حالت می تواند واقعیت را تقریبی کند. سوال اینجاست که چقدر از واقعیت فاصله دارد؟

در به اصطلاح علوم سخت ، مدل ها از دقت پیش بینی بالایی برخوردار هستند. مدل های مکانیک و گرانش نیوتنی (که توسط نسبیت عام کنار گذاشته می شود) بسیار خوب کار می کند ، به گونه ای که می توانیم موشک ها و پروب ها را به فضا با دقت نسبتاً بالایی راه اندازی کنیم. علاوه بر این ، مدل های فیزیکی که امروز به ما اعتماد می کنیم تا به ما در راه اندازی موشک ها کمک کنیم ، انتظار نمی رود چندین هزار سال به آینده تغییر کند. این به دلیل زیبایی فرآیندهای طبیعی است: گرانش در گوشه ما از کهکشان اساساً به همان روشی که یک گوشه دور دیگر از جهان است ، کار می کند. در فرآیندهای طبیعی ثبات تصادفی وجود دارد.

در هنگام مدل سازی فعالیت های انسانی در بازار چنین نیست. ما فقط داده های پاک در مورد نحوه رفتار بازار نداریم (گرچه در زمان های اخیر این مسئله کاملاً تغییر کرده است) ، و همچنین ما به اندازه مشاهدات زیادی نداریم ، زیرا بازار سهام فقط حدود صد سال یا بیشتر برمی گرددبشر

به طور طبیعی ، ما باید در مورد مدل هایی که می سازیم ، یک دوز سالم از شک و تردید داشته باشیم.

در این کتاب نمونه هایی از رقبا در اختیار ما قرار گرفت. Rentech تنها بنگاهی نبود که از روشهای کمی در تجارت استفاده کرد. یکی دیگر از صندوق های رقیب مدیریت بلند مدت سرمایه (LTCM) بود که توسط جان دبلیو ماریوث در سال 1994 تأسیس شد و دارای چراغ هایی مانند Myron S. Scholes (از معادله مشهور سیاه و سفید) و رابرت مرتون ، دو برنده جایزه نوبل در آن بود. اقتصاد. بر خلاف Rentech ، محققان LTCM معتقد بودند که مدل های آنها حقیقت را منعکس می کند. آنها کمی می دانستند که اعتماد مطلق آنها به مدل های آنها ، خنثی کردن آنها در اواخر سال 1998 خواهد بود و با وجود دستاوردهای چشمگیر اولیه ، تمام پول خود را از دست می دهند.

در مقابل ، هنگامی که در سال 2008 با بحران وام مسکن زیر نظر روبرو شد ، علی رغم اعتراضات تیمش ، جیم سیمونز با فروش این سیستم را به حداقل رساند تا خسارت را به حداقل برساند. علاوه بر این ، او صندوق را با گزینه های نفتی قبل از جنگ نخستین خلیج فارس در دهه 90 محافظت کرد. به عبارت دیگر ، هنوز تصمیمی بر اساس شهود هدایت شده انسان گرفته شده است. در زمان های شدید ، مدل ها می توانند شکست بخورند و داوری انسان هنوز مورد نیاز است.

مشکلات LTCM نیز با استفاده بیش از حد از اهرم ، همانطور که توسط Ed Thorp لمس شده است ، که می تواند از 30 تا 1 تا 100 تا 1 باشد ، فراتر از آنچه که توسط معیار کلی توصیه شده است ، پیچیده شده است. استفاده از اهرم هیچ مشکلی ندارد. Rentech از اهرم نیز استفاده کرد. اما وقتی قضاوت شما نادرست و بدتر از آن است ، شما با این فرض که حقیقت را می دانید ، اعتماد به نفس کاذب دارید.

نکته اصلی در اینجا سازگاری و تکرارپذیری است. مدل های موجود در فیزیک بارها و بارها به طور مداوم پیش بینی می کنند و نتایج آنها می تواند تکثیر شود. در مقابل ، مدل های تجارت و به طور معمول آنهایی که با رفتار انسان سر و کار دارند ، به همان اندازه سازگار نیستند. به عنوان مثال ، محصولات و ویژگی های جدید می تواند بر رفتار مصرف کننده و احساسات به طور غیر منتظره ای از جمله استفاده از محصول به روش های ناخواسته تأثیر بگذارد.

بعضی اوقات ، قضاوت بشر در صورت تغییر چشم انداز به دلیل شرایط غیرمعمول که توسط یک مدل اسیر نشده است ، به شدت تغییر می کند. همچنین دانستن محدودیت های یک مدل و همچنین فرضیاتی که وارد آن شد ، بسیار مضاعف است.

علاوه بر این ، به عنوان دانشمندان داده ، این وظیفه ما این است که انتظارات را در مورد مدل هایی که می سازیم ، مدیریت کنیم و ذینفعان را در مورد محدودیت های ابزارهای خود احتیاط کنیم.

به معنای واقعی کلمه ، برای داشتن پاک ترین داده ها می پردازد

من مانند بسیاری از مهندسان داده ، دانشمندان و تحلیلگران دیگر در سراسر جهان ، روزانه با مشکلات داده روبرو می شوم. از داده های گمشده گرفته تا داده های مدل شده اشتباه گرفته تا عدم تطابق توزیع بین داده های آموزش و تولید ، من همه آنها را در طول حرفه خود دیده ام.

تمیز کردن ، بررسی اینکه آیا داده ها معنا پیدا می کنند ، و نوشتن تست در مورد داده ها (وظایف جمع آوری شده در مورد داده ها همانطور که من آن را می نامم) جنسی ترین بخش کار نیست. ببین ، من آن را دریافت می کنم. قرار است علوم داده جنسی ترین کار قرن بیست و یکم باشد. قرار است سرگرم کننده و پر زرق و برق باشد ، مانند بوت کردن خوشه ای از Tesla V100s آموزش یک سبک برای تولید مدلهای مد جعلی زندگی برای یک کاتالوگ فروش. در اصل ، این سمت پنهان علم داده است که روابط عمومی را به دست نمی آورد.

با این حال اجتناب ناپذیر است.

به عنوان مصرف کنندگان پایین دست تولیدکنندگان داده در هر شرکتی ، همیشه در داده ها نواقصی وجود خواهد داشت ، زیرا روش های بسیاری بیشتر از آن وجود دارد که به درستی پیش بروند. تغییرات UI/UX وجود دارد که به تیم داده ها ابلاغ نمی شوند ، که یک بار در حرفه من اتفاق افتاد. علاوه بر نویسنده ، تغییراتی در یک طرح ایجاد شده است که هیچ کس از آن آگاه نبود. یک ویژگی محصول کاهش می یابد و باعث می شود دقت یک مدل به طور قابل توجهی فرو رود. قطع سرور باعث ایجاد حوادث گمشده می شود. حتی در شرکت های بالغ داده محور مانند Google ، این مشکلات هنوز هم در تیم ها و بخش های مختلف محصول وجود دارد.

در واقع ، منظورم این است که یک سرایدار داده ، در واقع یکی از مهمترین بخش کار است. اگر می خواهید مدل های شما به طور دقیق پیش بینی کنند ، بهتر است در وهله اول به الگوهای مناسب داده شود. قانون زباله های غالباً ذکر شده در گارباژ اعمال می شود!

در روزهای ابتدایی ، جیم سیمونز و تیمش با همان مشکلات روبرو شدند. در داده های قیمت کالا شکاف هایی وجود دارد. یک بانک اطلاعاتی مرکزی خوب از داده های مالی و قیمت گذاری حتی در آن زمان وجود نداشت.

خوشبختانه ، این تیم یک ریاضیدان به نام Sandor Strauss داشت که به عنوان اولین پاک کننده داده خود عمل می کرد. تلاش زیادی از طرف وی برای جستجوی داده های کالایی از Dunn & Hargitt انجام شد ، سپس فهرست بندی کرد و آنها را به سایر اطلاعات تاریخی اضافه کرد. وی ناسازگاری را بررسی کرد ، یک دانش آموز را برای انجام چک های کیفیت داده در مورد قیمت کالاهای استراوس جمع آوری کرد و با زحمت قیمت های جمع آوری شده را با سایر منابع اطلاعاتی مانند سالنامه ها و بایگانی های دیوار سنت ژورنال مقایسه کرد.

این فداکاری و وسواس کامل اشتراوس به این کار بود که تفاوت بزرگی ایجاد کرد. از آنجا که داده ها بسیار تمیزتر شدند ، گزینه های بسیار بیشتری را باز کرد و Rentech امکان پیش بینی و تجارت با افزایش زمان دقیق را فراهم کرد. این امر به آنها نسبت به سایر بنگاهها منجر شد و سود بیشتری کسب کرد. سایر داده های محیطی تمیز استراوس که بعداً جمع آوری شد ، در تهیه Rentech بیشتر از یک لبه ارزشمند است ، زیرا سیگنال های اضافی به مدل اصلی آنها اضافه می شوند. تمام این سرمایه گذاری پر دردسر برای اطمینان از مهمترین داده های آنها در حال پاک شدن و سود سهام تازه در جاده است.

در مورد Rentech ، داده ها توسط بازاری تولید شده است که بسیار آشوب آور بود ، و داده ها توسط اشخاص ثالث جمع آوری می شود که همیشه کیفیت داده های جمع آوری شده را تضمین نمی کنند.

خوشبختانه ، بر خلاف Rentech ، بیشتر ما می توانیم در مکانهایی که در آن کار می کنیم تغییر کند ، زیرا ما به طور معمول با داده های تولید شده در داخل می پردازیم. ما می توانیم از فرایندهایی که اطمینان حاصل می کند تا حد امکان تمیز باشد ، دفاع ، آموزش و ایجاد کنیم. ما می توانیم کانال های ارتباطی را بهبود بخشیم تا تغییرات بالادست در صورت امکان ، حتی در مرحله برنامه ریزی ، قبل از دست شناخته شود. ما می توانیم ذینفعان را متقاعد کنیم که تغییرات فرهنگی را برای بهبود جمع آوری داده ها و تجزیه و تحلیل در سراسر محصول ایجاد کنند. این هرگز کامل نخواهد بود ، اما هدف این است که مشکلات داده را به حداقل برساند تا اینکه آنها را به طور کامل ریشه کن کنید.

چه کسی می داند؟برخی از این داده ها ممکن است راه های جدیدی را برای ویژگی های محصول در آینده باز کنند ، دقیقاً مانند آنچه برای Rentech انجام داد.

ما حتی ابزارهای بیشتری از گذشته برای ارائه بررسی کیفیت داده داریم. یکی از ابزارهای مورد علاقه من در اواخر ابزار Data Build یا DBT است که قطعاً با معرفی چک و تعادل به کیفیت داده در Canva تفاوت ایجاد کرده است.

k اکنون "چرا" همیشه مفید نیست

یکی از موضوعات غالب در سرمایه گذاری ، دلبستگی یک روایت دروغین برای توضیح تغییرات قیمت در بازار است.

ما انسانها عاشق داستان هستیم. ما سعی می کنیم برای هر چیزی توضیحی پیدا کنیم. ما می شنویم که چرا بازار یک روز خاص در رسانه ها بالا رفته است یا نه در رسانه ها. شاید این آخرین تغییر در داده های اشتغال ملی باشد. شاید این یک پروانه باشد که بالهای خود را در گوشه ای از جهان می چرخاند. حقیقت این است که ، هیچ کس کاملاً نمی تواند به طور خاص بداند. اگر کسی ادعا کند این کار را انجام می دهد ، آن شخص یا توهین آمیز است ، یا یک دروغگو که سعی در فروش محصولی دارد.

سؤال اساسی که باید از خود بپرسیم ، این است که آیا این مهم است که اگر بدانیم علت چیست؟

در معاملات ، عوامل علّی لزوماً مشخص نیستند. با این حال ، مهم است که اگر یک سیگنال بالقوه کشف شده از داده ها سودآور باشد. به این معنا ، پیش بینی ها فقط به وظیفه مورد نظر محدود می شوند ، یعنی به حداکثر رساندن احتمال تجارت سودآور. واضح است که این متناسب با مدل تبعیض آمیز است. در حالی که همبستگی ها علیت برابر نیستند ، آنها جنبه های علت را منعکس می کنند و اغلب به اندازه کافی خوب هستند که در کار پیش بینی مورد استفاده قرار می گیرند. یادگیری ماشین واقعاً فقط از بسیاری از همبستگی های ضعیف در کنار هم سوءاستفاده می کند ، و تلاش برای مهندسی معکوس دلایلی که منجر به این امر از این مدل شده است ، یک احمق است.

با این وجود ، هرچند ، Rentech ، طبق این کتاب ، فقط بیش از 50 ٪ میزان موفقیت در هر تجارت را دارد ، اما آنها با حجم زیاد معاملات و همچنین اندازه موقعیت آن را تشکیل می دهند. ما می توانیم ببینیم که دقت پیش بینی اهمیت دارد ، اما چگونگی پیش بینی ها در فرآیند تصمیم گیری عمیقاً بر نتیجه نهایی تأثیر می گذارد.

در کار اخیر من در مورد پیش بینی حفظ در Canva ، برای من بسیار وسوسه انگیز بود که داستانی را در مورد اینکه چرا برخی از مشتریان حفظ می کنند و برخی دیگر در محصول اشتراک ما نیستند ، وصل کنم. یک الگوریتم مانند XGBOOST ممکن است نمرات اهمیت ویژگی را ارائه دهد ، اما هرگز قادر به مشخص کردن عوامل علیت پنهان اساسی نخواهد بود. با این حال ، در مورد استفاده من ، مهمتر از این است که بفهمم دلایل آن چیست ، بلکه برای من آموزنده تر است که مدلی را تهیه کنم که کار مورد نظر خود را به خوبی انجام دهد: به تصمیم گیری در مورد اینکه کاربران در درک محصول ما به کمک نیاز دارند ، کمک می کندبشر

درک علل اصلی احتباس در مقابل چرند ، به منابع خارجی اضافی داده ها و دانش دامنه ، مانند بررسی های کیفی و احساسات رسانه های اجتماعی یا تکنیک های جدید مانند یادگیری ماشین علیت و یادگیری ماشین قابل تفسیر نیاز دارد.

مسلماً ، این امر در شرایط فعلی حقوق شخصی به داده ها ، با اجرای قانون مانند آیین نامه عمومی حمایت از داده ها (GDPR) و حق مصرف کننده برای توضیح پیش بینی های ارائه شده در مورد آنها ، چالش برانگیزتر است. با این حال ، ما می توانیم این مسئله را همیشه با صریح در مورد داده های آموزش ، فرضیاتی که وارد مدل شد و نسخه مناسب مدل ها برای حفظ سابقه در حال اجرا از گذشته ، کاهش دهیم.

داستان Rentech و جیم سیمونز یک داستان جذاب است. اگرچه کتاب زوکرمن با توجه به اینکه چقدر مخفی است ، نمی تواند جزئیات بیشتری را در مورد عملکرد داخلی Rentech ارائه دهد ، اما نگاه های ما کافی است تا درس های مورد نیاز خود را برای علوم داده ارائه دهیم. موضوعاتی که ده ها سال پیش با آنها روبرو بودند ، اساساً همان موضوعاتی است که امروز با آن روبرو هستیم.

شاید یکی از جالب ترین درس ها ، هیچ ارتباطی با علوم داده نداشته باشد: جیم سیمونز کار تجاری خود را در سن 41 سالگی آغاز کرد. اگر چیزی وجود داشته باشد که بتوانیم از آن فاصله بگیریم ، این است که شروع به کار جدید هرگز دیر نیست!

ویرایش: در نسخه قبلی ذکر شده است که جیم سیمونز برنده جایزه نوبل است.

فارکس پرشین...
ما را در سایت فارکس پرشین دنبال می کنید

برچسب : نویسنده : احمدي مينا بازدید : 49 تاريخ : يکشنبه 28 اسفند 1401 ساعت: 21:07