خلاصه کتاب همه دروغ می گویند
اینترنت چقدر می تواند خود واقعی ما را بشناسد؟ با مطالعه ی داده های گوگل چه چیزهایی می شود درباره رفتار آدمها یاد گرفت؟ این کتاب درباره این است که اینهمه اطلاعاتی که گوگل و شرکت های مشابهش از مردم جمع می کنند به چه دردی می خورد و چه چیزهای جالب و مهمی درباره عادات و رفتارها و روحیات انسان ها نشان میدهند. حرف اصلی کتاب این است که ما به همه دروغ می گوییم به جز گوگل. مثلا اگر شما نیمه شب با درد و سوزش معده بیدار شوید ممکن است درباره درد چیزی به شریک یا والدینتان نگویید. ولی به احتمال زیاد از گوگل می پرسید که چنین دردی نشانه چه چیزی می تواند باشد. این اطلاعات دقیق تر و صادقانه تر از هر نظرسنجی ای هستند و می توان از آنها استفاده کرد و مثلا فهمید کسانی که امروز درمان سرطان معده را گوگل می کنند شش ماه پیش در گوگل دنبال چه چیزی بوده اند. شاید اصلا با این کار توانستیم کسانی را که در معرض این بیماری هستند زودتر پیدا کنیم و شانس درمانشان را بالا ببریم.
نویسنده
Setth Stephens-Davidowitz
کارشناس بیگ دیتا (کلان داده). در استنفورد و هاروارد فلسفه و اقتصاد خوانده و قبلا هم خودش مدتی به عنوان دانشمند داده در گوگل کار کرده است. همه دروغ می گویند کتاب اول اوست و در حدود یک سالی که از انتشارش می گذرد باعث شهرتش شد. استفنس داویدوویتز در نیویورک تایمز می نویسد.
بخش اول
احتمالاً بسیاری از ما اصطلاحِ کلانداده (Big Data) را شنیدهایم. ولی کلانداده واقعاً و در عمل یعنی چه؟
همانطور که از نام کلانداده مشخص است، این به معنای دادههای بسیار بسیار بسیار زیاد است. آنچنان عظیم که مغز انسان نمیتواند آن را پردازش کند. حجمی چنان بزرگ از اطلاعات که برای استخراج الگوهای آن، نیازمند رایانه هستیم.
اما نکتهی جالب اینجا ست که با وجود حجم زیاد، کلانداده رویهای «حسی» نیز درد. چون در واقع اگر خوب دقت کنیم همهی ما انسانها به نوعی دانشمند داده (Data Scientist) هستیم.
نویسنده داستانِ مادربزرگش را به عنوان مثالی برای ورود به موضوع تعریف میکند. داستان از این قرار است که روز عید شکرگزاری مادربزرگ دربارهی انتخاب شریک زندگی به نویسند نصیحت میکند. او میگوید تا جایی که به عقل من میرسد شریک زندگی تو باید باهوش، بامزه، مهربان، خوشمشرب و زیبا باشد.
مادربزرگ ۸۸ سالهی نویسنده، رابطههای عاطفی زیادی را دیدهاست که شروع شده و تمام شدهاند. حالا (در روز عید شکرگزاری) او اطلاعاتی را که در این سالها از این روابط به دست آورده جمعآوری میکند و بر مبنای آن، ویژگیهای مهم یک شریک مناسب را استنباط میکند. از اطلاعاتش استفاده میکند تا الگوهایی را شناسایی و پیشبینی کند که براساس آن دستهای از متغیرها روی بقیه تاثیر میگذارند. این دقیقاً همان کاری است که یک دانشمند داده انجام میدهد.
درست است که فرایند Data Science شهودی است اما شهود علم محسوب نمیشود. به همین دلیل است که برای نگاه درست به دنیا ابتدا باید اطلاعاتی را که جمعآوری کردهایم درست استفاده کنیم. اطلاعات مواد خامی را میدهد که با آن حس اولیه را تایید یا رد کنیم. این به ما کمک میکند الگوهای دقیقتری شناسایی کنیم و پیشبینیهایی انجام دهیم که با اتکای صرف به تجربهی شخصی، قادر به آن نبودیم.
به شب عید شکرگزاری و نصیحتهای مادربزرگ برگردیم. مادربزرگ بر این عقیده بود که اگر شریکهای زندگی دوستان مشترکی داشتهباشند، رابطهی پایدارتری هم خواهند داشت. او از آنجا به این عقیده رسیده بود که خودش و شوهرش بعدازظهرها با دوستان مشترک در خانهشان اوقات خوشی را میگذراندند. تجربهای شخصی که منجر به درک و استنتاج شده.
اما واقعیت این است که نمونهی مادربزرگ حجم کوچکی داشت. از قضا آمارها نشان میدهد که او اشتباه میکرد. مطالعهای که در سال ۲۰۱۴ با استفاده از اطلاعات استخراج شده از فیسبوک انجام شد نشان داده زوجهایی که دوستان مشترکی زیادتری داشتند، بیش از آنها که دوستان مشترک کمتری داشتند وضعیت رابطهی خود را از «در رابطه» به «مجرد» تغییر دادهاند.
ثابت میشود اگرچه آن «حس اولیه» تا در گام نخست به ما کمک کند اما این دادهها و اطلاعات هستند که در مراحل بعد به کار میآیند و حتی نقطهنظر بابصیرتترینِ افراد را هم تصحیح میکنند.
بخش دوم
Data Science ابزاری مفید است. مهمترین استفادهی آن «گردآوری اطلاعات» نیست. استخراج الگوهایی است که براساس آن بتوان پیشبینیهایی دربارهی آنچه در آینده اتفاق میافتد انجام داد.
بهطور مثال گوگل بهخاطر میزان اطلاعاتی که جمعآوری میکرد تبدیل به غول بزرگ دنیای سایبری نشد. آنچه این موتور جستوجوی عظیم را از بقیه متمایز میکند، استفادهی موثر از این اطلاعات بود. امروزه بسیاری از ما تصوری از دنیای اینترنت پیش از گوگل نداریم. اگرچه آن زمان هم موتورهای جستوجوی بسیاری در اینترنت وجود داشتند اما گوگل با شیوهای متفاوت وارد اینترنت شد.
مثلاً اگر در موتورهای جستوجو عبارتی مانند بیل کلینتون را تایپ میکردیم صفحات زیادی را به عنوان نتایج جستوجو نمایش میداد که در آنها اسم بیل کلینتون بارها تکرار شدهبود اما بسیاری از آنها هیچ ربطی به کلینتون نداشت. این وضعیت بیشباهت به آنچه ما هنوز هنگام جستوجوی فارسی در گوگل داریم نیست.
اما گوگل الگوریتم جستوجو را جور دیگری طراحی کرد. مبنای مناسب بودن نتیجه را نه تکرار عبارت جستوجو بلکه میزان «لینک»هایی که با آن عبارت به آن صفحه دادهشدهبود قرار داد. بنابراین سایت رسمی کلینتون که در سایتهای دیگر احتمالاً بیشتر به آن لینک دادهشدهاست نتیجهی معتبرتری است تا سایتی که عبارت جستوجو در آن تکرار شده. گوگل اطلاعات این لینکها را گرد آورد و الگوهایی را استخراج کرد که با آن میتوانست پیشبینی کند چه سایتی برای کاربر مفید تر است.
در این چکیده، چهار دلیل را که نویسندهی کتاب «همه دروغ میگویند» به عنوان دلایل اصلی مهم و قدرتمند بودن کلانداده برشمرده بررسی خواهیم کرد.
رویکرد گوگل مثال خوبی از نخستین اصل اهمیت کلانداده است. کلانداده از این نظر که جریانی دائمی از اطلاعات تازه را در اختیار ما میگذارد، پدیدهی بدیعی است. اطلاعات تازه مدام بهروز میشود و در اختیار دانشمندان داده قرار میگیرد.
پیش از ظهور کلانداده، برای دستیابی و محاسبهی آمار بیکاری باید منتظر ادارهی آمار امور کارگران بودید تا تلفنی اطلاعات را جمع کند و حساب و کتابها را انجام دهد. یا برای بهدست آورد میزان ابتلای شهروندان به یک بیماری خاص منتظر آمار ادارهی دولتی بهداشت عمومی میماندید.
اما امروز کلاندادهی گوگل میتواند به شما کمک کند هردویِ اینها و بسیاری اطلاعات دیگر را به دست بیاورید. دستکم این کاری بود که یک مهندس گوگل برای مردم آمریکا انجام داد. او جستوجوهایی را که مردم دربارهی موارد مرتبط با آنفلوآنزا کردهبودند را بررسی کرد. مثلاً علائم آنفلوآنزا یا درمان آن. او بر این عقیده بود که این جستوجوها الگوی انتشار بیماری را مشخص میکند و با پایش این الگوها میتوان پراکندگی انتشار آنفلوآنزا (یا هر بیماری دیگر)در طول زمان را دریافت. گوگل مثال خوبی برای نشان دادن این موضوع است که کلانداده چهگونه میتواند اطلاعات جدید در اختیار کسانی که به دنبال استفاده از آن هستند قرار دهد.
اما نکتهی جالب دیگر دربارهی کلانداده این است: ابر داده دروغ نمیگوید. در تحقیقی که اخیراً از دانشآموختگان دانشگاه مریلند انجام شد، معدل آنها از دانشجویان پرسیدهَشد. ۲درصد از جامعهی آماری اعلام کردند که معدلشان زیر ۲.۵ بوده است (توضیح: سقف معدل ۴ است).
این در حالیاست که دانشگاه اطلاعات معدل همهی دانشآموختگان را در اختیار دارد و طبق این آمار ۱۱ درصد آنها معدل زیر ۲.۵ کسب کردهبودند به ۲ درصد. اختلافی بسیار زیاد. این فقط یک مثال است. میتوان نمونهها و شواهدی دیگری هم پیدا کرد که نشان میدهد مردم در نظرسنجیها بهراحتی دروغ میگویند. «همه دروغ میگویند»
اما چرا؟ چون میخواهند تصویر خوبی از خود ارائه دهند. تصویری که هم در نظر دیگران و هم در ذهن خودشان بازتاب مییابد. به این پدیده social desirability bias میگویند. سوگیریِ مطلوبیتِ اجتماعی.
جز این، پرسششوندگان نظرسنجی علاقه دارند پرسشگر را تحت تاثیر قرار دهند. حتی اگر مصاحبه بهصورت ناشناس انجام شود. مثلاً اگر پرسشگرِ یک نظرسنجی دربارهی اینکه «آیا علف میکشید یا نه؟» فردی شبیهِ پدرِ پرسششونده باشد، احتمالاً پرسششونده تمایلی به اینکه حقیقت را بگوید و اعلام کند که مصرف میکند نخواهد داشت.
این گرایش به دروغگویی منجر میشود هنگامی که نظرسنجیها دربارهی افکار، اعتقادات یا تمایلات ما باشد و با هدف فهمِ رفتار ما انجام شود، به خطا رفته و غیرقابل اعتماد شوند.
بخش سوم
تصور کنید در هشتاد سال گذشته هر زمان که پژوهشگران میخواستند از خواستهها، علتِ کارها، و برنامههایِ آیندهی مردم مطلع شوند سراغ نظرسنجی میرفتند. در حالیکه مردم بهویژه هنگامی که موضوع کمی حساس باشد، پاسخ درست نمیدهند. چیزی را میگویند که فکر میکنند درستتر است. یا آنچیزی که تصور میکنند پرسشگر تمایل دارد بشنود.
از این واقعیت، دومین دلیل قدرتمند بودن کلانداده به دست میآید: کلانداده دروغ نمیگوید. چون از روی رفتار غربالنشدهی کاربران آنلاین جمعآوری شده و همیشه نمایانگرِ حقیقت است. احتمال بسیار کمی است که کاربران هنگام جستوجو اطلاعات تحریفشده وارد گوگل کنند. موقع جستوجو هیچ پرسشنامهای در کار نیست. کاربران و گوگل تنها هستند.
نویسنده در این بخش نمونههای جالبی را ذکر میکند. مثلاً این نمونه که اگر پیش از انتخابات آمریکا از شهروندان بپرسید آیا در انتخابات شرکت میکنند یا نه، اکثر آنها با قاطعیت میگویند که شرکت خواهند کرد و وظیفهی شهروندیشان را ادا میکنند. اما هنگام برگزاری انتخابات در نهایت ۵۵ درصد مشارکت ثبت میشود. این یعنی پرسششوندگان تصمیم به رای دادن نداشتهاند اما نمیخواستند در نظرسنجی این موضوع را بیان کنند.
در نمونهی جالب دیگری از پرسششوندگان این سوال مطرح میشود که چهقدر رابطهی جنسی دارند و چه میزان از کاندوم استفاده میکنند. اطلاعات ابرازی پرسششوندگان مشخص میکند طبق گفتهی مردان، سالانه ۱ میلیارد و ۶۰۰ میلیون کاندوم در سال مصرف میشود. اما طبق گفتهی زنان این رقم ۱ میلیارد و ۱۰۰ میلون است.
بنابراین یکی از این دو گروه دروغ میگویند. پژوهشگران برای مشخص شدن حقیقت سراغ اطلاعات فروش کاندومها رفتند ومشخص شد رقم درست ۶۰۰ میلیون در سال است. یعنی هر دو گروه دروغ میگویند اما مردان بیشتر. فشار فرهنگی روی شهروندان باعث میشود بسیاری خودشان را از نظر جنسی فعالتر از آنچه هستند نشان دهند.
نویسنده معتقد است، همچنان که مردم در نظرسنجیها حقیقت را پنهان میکنند و تحلیلگران را به بیراهه میبرند، با گوگل خیلی روراستتر هستند. چیزهایی را جستوجو میکنند که ممکن است افراد دیگری نکنند. البته اطلاعات جستوجو ناشناس است و مشخص نیست کدام کاربر چه چیزی را جستوجو کردهاست اما وقتی همهی آن را با هم نگاه کنیم میتوانیم الگوهایی را تشخیص دهیم که به ما کمک کند متوجه شویم مردم واقعاً چه میخواهند و به چه چیزی فکر میکنند. نتیجهای بسیار بهتر و دقیقتر از هر نوع نظرسنجی. مثالهای زیادی از این تفاوت بین نتایج الگوهای گوگل و نتایج نظرسنجیها در کتاب ذکر شدهاست که بعضی از آنها واقعاً غافلگیرکننده هستند. و با پیشفرضهای ما همخوانی ندارد.
بخش چهارم
در سال ۲۰۰۸، ۹۹ درصد شهروندان آمریکایی در نظرسنجیها ابراز میکردند که سیاهپوست بودن باراک اوباما برای آنها اهمیتی ندارند. رقم بسیار بالایی که نویسنده را مشکوک کرد. نویسند میگوید با خودم فکر میکردم آیا واقعاً آمریکاییها اینقدر از نژادپرستی فاصله گرفتهاند؟ به همین دلیل نویسنده اطلاعات جستوجوی گوگل کاربران را نیز بررسی کرد. در این بررسی او معیارهایی مانند «جوکهای قبیح نژادپرستانه» را برای تشخیص الگو تعیین کرد و به نتایج جالبی دست یافت. اولاً اینکه کاربران بیش از آنچه در نظرسنجیها عنوان میشود نژادپرست هستند. ثانیاً اینکه برخلاف تصور اولیه، مرز نژادپرستی شمال و جنوب نیست بلکه شرق و غرب آمریکا است. آمریکاییانِ ساکن در شرق میسیسیپی بیشتر گرایش به نژادپرستی دارند تا غرب آن.
نویسنده رای اوباما در ایالتهایی را که جستوجوی بیشتری برای جوکهای نژادپرستانه در گوگل کردهبودند را نیز بررسی کرده و آن را با رای نامزدهای قبلی حزب دموکرات مقایسه کردهاست. بهطور مثال جان کری (نامزد حزب دموکرات در انتخابات ریاستجمهوری سال ۲۰۰۴ آمریکا) که به گفتهی نویسند همانند اوباما سیاستمداری لیبرال است، در این ایالتها رای بیشتری به نسبت اوباما کسب کرده و اوباما به دلیل رنگ پوستش آرای زیادی را از دست داده است. نویسنده اینگونه نتیجه میگیرد که ۱۰ درصد دموکراتهای سفیدپوست در ایالات متحدهی آمریکا، به یک نامزد سیاهپوست برای انتخابات ریاست جمهوری صرفاً به دلیل سیاهپوست بودنش رای نمیدهند.
شاید به همین دلیل است که وقتی دونالد ترامپ در انتخابات مقدماتی حرفهایی میزد که بسیاری از کارشناسان معتقد بودند نباید بگوید، همچنان رای جمهوریخواهان را کسب میکرد. یک خبرنگار نیویورکتایمز با استفاده از همین اطلاعاتی که نویسندهی کتاب گرد آوردهبود، به این نتیجه رسید که آراء ترامپ در ایالتهای دارای گرایش بیشتر به نژادپرستی بیشتر است. این ارتباط واضحتر نتایج جستوجوهای اقتصادی یا تحصیلات یا سن یا داشتن اسلحه بود. آرای ترامپ در دور مقدماتی را چیزی به خوبی میزان گرایش به نژادپرستی نمیتوانست توضیح بدهد. همان گرایشی که به اوباما ضربه زد اما در آمار و نظرسنجیها دیدهنمیشد و به همین دلیل بسیاری آن را کتمان کردند یا نادیده گرفتند. این گرایش حالا و در سال ۲۰۱۶ تبدیل شد به گرایش به ترامپ و اثر خود را در انتخابات ریاستجمهوری آمریکا نشان داد.
کتاب «همه دروغ میگویند» از لحاظ آشکار کردن این واقعیت ناراحتکننده است. اینکه اگر مستقیماً نظر مردم را بپرسیم، نتیجه مثبتتر و بهتر از واقعیت است. به همین دلیل یافتههای نویسنده دربارهی نژادپرستی، کودکآزاری، سقط جنینهای خانگی و موارد مشابه تاریک و تلخ است. اما واقعیت دارد. واقعیتی تلخ.
بخش پنجم
مورد دیگری که نویسنده بررسی کردهاست، جستوجوهای کاربران دربارهی فرزندان دختر و پسرشان است. نویسنده میگوید تصور من این بود که در آمریکای امروز مردم نگاه برابری به دختران و پسران خوددارند. ولی اینبار هم دادههای جستوجوی گوگل نمایانگر شرایطی متفاوت است.
جستوجوهایی که با عبارت «آیا پسرم….» شروع میشود با این عبارات ادامه میباید که «آیا پسرم نابغه است؟» «آیا پسرم نظرکرده است؟» اما جستوجوهای مشابه دربارهی فرزندان دختر بیشتر با عباراتی مانند «آیا دخترم اضافهوزن دارد؟» «آیا دخترم زشت است؟» انجام میشود. یعنی برخلاف آنچه احتمالاً نظرسنجیها نشان خواهند داد، هنگامی که والدین در خلوت خود و صادقانه با گوگل برخورد میکنند برای پسرهای خود بهخاطر تواناییهای فکریشان هیجانزدهاند اما برای دخترهایشان به دلیل کاستیهای فیزیکی نگران. چیزی که حتی امکان دارد خود نیز از آن باخبر نباشند.
مثال جالب دیگری در کتاب دربارهی اسلامهراسی وجود دارد. در حادثهای که مدتی تبدیل به خبر مهم و روز شدهبود، در سنبرناردینو دو نفر که نامهای اسلامی داشتند یکی از همکارانشان را به قتل رساندند. پس از این حادثه فهرست جستوجوهای گوگل که واژهی مسلمان (Muslim) را داشت عباراتی از این دست بود: «مسلمانها را بکشید» «من از مسلمانها متنفر ام» و …
چند روز بعد اوباما در یک سخنرانی به این موضوع پرداخت که شهروندان آمریکایی هم باید دربرابر خطر تروریسم از خود محافظت کنند و هم با این اسلامهراسی بجنگند تا عرصه را به این گروه کوچک اما خطرناک واگذار نکنند. سخنرانی جالب و گیرایی که نویسنده هم از آن تعریف میکند و در رسانهها هم بازتاب مثبت و خوبی داشت.
اما نویسنده هنگام پخش سراسری این سخنرانی، دقیقه به دقیقه جستوجوهای گوگل را بررسی کرد ا دریابد که آیا سخنرانی اوباما توانسته به هدف خود یعنی مهار کردن آتش خشم و نفرت، برسد یا نه.
طبق آنچه نویسنده در بررسی خود دیدهاست، نهتنها جستوجوها با مضامین نفرت از مسلمانان در طول سخنرانی کم نشد بلکه دقیقاً هروقت اوباما به این موضوع اشاره کرده که باید با همسایگان مسلمانمان مهربان باشیم، انگار این حرفها اثر معکوس داشته و این جستوجوها را زیادتر کردهاست. بهجز یک استثناء. اوباما در سخنرانی خود گفت «یادمان باشد بسیاری از مسلمانان آمریکایی قهرمانهای ورزشی و مردان و زنانی هستند که بهخاطر این کشور جان خود را از دست دادهاند». بلافاصله پس از این جمله، پس از پنج سال عبارات جستوجو دربارهی مسلمانان از مسلمان تروریست به «مسلمانان قهرمان ورزشی» و «سربازان مسلمان» تغییر کرد و این وضعیت تا یک هفته نیز ادامه داشت. از مقایسهی آن چند جملهی سخنرانی و بقیهی حرفهای اوباما میتوان نکات زیادی را دریافت.
بقیهی سخنرانی حرفهایی بود که همان چیزهایی را به مردم میگفت که بارها شنیدهبودند. اینکه انسانهای بهتری باشند. اما آن دو خط دربارهی قهرمانان مسلمان آمریکایی، کنجکاوی مردم را تحریک کرد. اطلاعات جدیدی به آنها داد و به همین دلیل موفقتر بود.
نتیجهی این بررسی در نیویورکتایمز منتشر شد. اوباما دو هفته بعد در مسجدی در بالتیمور سخنرانی کرد اما اینبار گویی که از این بررسی چیزی آموخته باشد، بخش اندرز و نصیحتگر سخنرانی را حذف کرد و بهجای آن بخش اصلی سخنرانی را به تحریک همان کنجکاوی اختصاص داد. اطلاعاتی مانند اینکه مسلمانان آمریکایی نهتنها سرباز و قهرمان ورزشی هستند بلکه کشاورز و تاجر نیز هستتند و تاماس جفرسون یک نسخه از قرآن در کتابخانه داشتهاست و آسمانخراشهای شیکاگو را مسلمانان ساختهاند و اطلاعاتی مشابه و کنجکاویبرانگیز. با این اطلاعات تصویر جدیدی از مسلمانان در ذهن مخاطب ایجاد شد و اینبار تا ساعتها پس از سخنرانی، میزان عبارات جستوجوهای گوگل با مضمون کشتن مسلمانان و نفرت از آنها به شدت افت کرد. اگرچه مشکل نفرت با دو سخنرانی حل نمیشود ولی این موضوع نشان میدهد که ابزار سخنرانی چه کارایی موثری دارد. کسی نمیتوانست این افراد را با نظرسنجی پیدا کند یا نظر واقعی آنها را دربارهی مسلمانان بداند. اما چون اطلاعات جستوجوی گوگل وجود دارد و صادقانه هم هست، میتوان چگونگی تاثیرگذاری را با استفاده از این اطلاعات پیدا کرد.
حجم کلانداده بسیار بسیار بزرگ است. فهمیدن بزرگی آن راحت نیست. همهی دادههایی که روزانه در گوگل و دیگر موتورهای جستوجو وارد میشود بسیار زیاد است.
سومین مولفهی قدرتمند کلانداده این است که میتوان روی بخش مشخصی از اطلاعات متمرکز شد و از آن بخش نیز الگوها و نتایج بسیار مفیدی به دست آورد. یعنی چون به کلانداده دسترسی داریم، فهمِ دادههای خُرد نیز آسانتر و بهتر است.
یک استاد دانشگاه هاروارد در پی پاسخ این سوال بود که آیا آنچه روزگاری «رویای آمریکایی» مینامیدند هنوز وجود دارد یا نه؟ آیا میشود فردی از خانوادهای فقیر، ثروتمند شود یا نه. او برای پیدا کردن پاسخ اطلاعات مالیاتی مردم در سالهای مختلف را از ادارههای مربوطه گرفت و بیش از یک میلیارد پروندهی مالیاتی را بررسی کرد. نتیجه اینکه در آمریکا اوضاع برای فقرا چندان خوب نیست. یک آمریکایی فقیر تنها ۷.۵ درصت اقبال دارد تا در زمینهای که به آن علاقه دارد موفق شود. اما همین اقبال برای خانوادهای در دانمارک ۱۱.۷۵ درصد و در کانادا ۱۳.۵ درصد است.
اما کارآمدی مهم دیگر کلانداده این است که این پژوهشگران میتوانستند روی بخشهای مختلف این اطلاعات متمرکز شوند و همین مطالعه را بهصورت ایالتی و شهری هم انجام دهند تا دریابند وضعیت در آن منطقه چهگونه است. در نتیجهی همین تمرکز در بررسی بود که مشخص شد رویای آمریکایی در برخی مناطق این کشور هنوز کاملاً برقرار است. همان اقبال که در کل آمریکا ۷.۵ درصد بود در سنخوزه ۱۲.۹ درصد بود. یعنی بالاتر از دانمارک. اما در شارلوت و یا نورث کارولاینا فقط ۴.۴ درصد بود.
قابلیت تمرکز بر روی بخشی از کلانداده امکانات زیادی به ما میدهد که دریابیم در گوشه گوشهی دنیا چه وضعیت و شرایط دربارهی موضوعِ بررسی حاکم است.
بخش ششم
هر روز ما چیزهای زیادی دربارهی همبستگی (Correlation) میشنویم. البته نه دربارهی خود آن. مصداقهایی از مفهموم آن. مثلاً اینکه اگر زنجبیل تازه را پشت گوشت قرمز بمالیم تا ۴۸ درصد امکان ابتلا به سرطان معده را کاهش میدهد. یا اینکه افرادی که هنگام دوش گرفتن ابتدا گردنشان را میشویند مدیران موفقتری هستند. از این جنس اطلاعات که دو چیز را بدون آنکه لزوماً رابطهی علت و معلولی میان آنها باشد به هم ربط میدهد. اگرچه این مثالها اغراقآمیز و خارج از کتاب بود اما اگر اخبار علمی یا شبهعلمی را دنبال کنین همواره چنین چیزهایی خواهید دید.
درواقع برای اثبات رابطهی علت و معلولی میان دو پدیده باید آزمایشهایی انجام شود که به آن AB Test میگویند. فرض بگیریم نتایج یک مطالعه نشان میدهد افرادی که مصرف متعادل چای دارند معمولاً سالمتر هستند. آیا این نتیجه چنین میگوید که مصرف متعادل چای حتماً باعث سلامتی میشود. البته که نه. برای اثبات این موضوع باید نمونههای تصادفی بسیاری گردآورد و به دو گروه تقسیمبندی کرد که یک گروه از این نمونهها هر روز دو لیوان چای مینوشند و گروه دیگر هیچ. بعد پس از مدتی وضع سلامت این دو گروه مقایسه میشود و اگر نتایج نشان داد گروه اول سالمتر هستند آن وقت این اطلاعات بر این موضوع که مصرف متعادل چای انسان را سالمتر نگه میدارد دلالت ضمنی خواهد داشت.
کلانداده انجام این آزمونهای الف ب را آسانتر میکند. این چهارمین دلیل قدرتمند بودن آن است.
قبلاً برای انجام چنین آزمونی باید افراد زیادی استخدام میشدند و اطلاعاتشان ثبت و سپس دادهها تحلیل میشد. اکنون دانشمندان داده میتوانند برنامهای طراحی کنند که تقریباً این کار را خود انجام دهد.
به کمک همین کلانداده، اکنون تعداد تستهایی که فیسبوک در یک روز انجام میدهد از تستهایی که سازمان غذا و داروی آمریکا FDA در یک سال انجام میدهد بیشتر است. چون با داشتن کلانداده میتوان نظریهها، احتمالات و گزینههای مختلف را سریعتر آزمایش کرد. مثال معروف این آزمایش سال ۲۰۰۸ است که کمپین اوباما میخواست سایتی طراحی کند که مردم را به کمک مالی تشویق کند. طراحان سایتترکیبات مختلفی از عکس و چیدمان صفحه و متن را ایجاد کردند و سپس با استفاده از کلاندادهها رفتار کاربران را تحلیل کردند تا دریابند کدام بهتر کار میکند.
هرچه تا اینجای خلاصه کتاب گفتیم خوبیها و مزایایی کلانداده بود. حالا باید عیبهای آن را هم بررسی کنیم.
بخش هفتم
یکی از ایرادهای کلانداده موقعی است که تعداد متغیرها بسیار زیاد میشود و نمیتوان راحت نتیجهگیری کرد. مثلاً یک استاد دانشگاه دادههای DNA دانشجویانش را جمعآوری کرد و سپس آنها را با نتایج آزمون هوش آنها سنجید و به این نتیجه رسیدهبود که ژن مشخص IGF2R کلید هوش انسانها ست. او بر این تصور بود که ژن هوش را کشف کردهاست اما وقتی چند سال بعد این آزمایش را تکرار کرد چنین همبستگی مشاهده نکرد. ایراد از آنجا بود که ژنوم انسانها از هزاران ژن تشکیل شده و اگر همبستگیای اتفاق بیفتد کاملاً امکان تصادفی بودن آن وجود دارد. تحلیل و الگویابی از کلانداده هنگامی که میزان متغیرها زیاد باشد چندان منجر به نتیجهی درست نمیشود چون تعدد متغیرها ممکن است الگوهای تصادفیای ایجاد کرده باشد.
ایراد دیگر کلانداده، غیرقابلتحلیل بودن پدیدههایی است که نمیتوان آنها را اندازهگیری کرد. مثلاً فیسبوک اگرچه دادهی همهی لایکها و کلیکها را جمعآوری میکند اما نمیتواند این را تحلیل کند که تجربهی کاربران با یک محصول یا یک سایت چهقدر خوب بودهاست. این، همانجایی است که باید از مردم نظرشان را پرسید. نظرسنجی و خُردداده. کاری که فیسبوک هم آن را انجام میدهد. علاوه بر آن، فیسبوک کارشناسان روانشناسی و جامعهشناسی استخدام میکند که به تحلیل رفتار کاربران کمک کند و چیزهای غیرقابلاندازهگیری را اینگونه استخراج کند.
البته مشکل کامل نبودن کلانداده از این نیز ریشهایتر است. هنگامی که کاربران چیزی را در گوگل جستوجو میکنند یا کالایی را آنلاین میخرند در جمع شدن کلانداده مشارکت دارند. اما اگر این اطلاعات در اختیار دولتها قرار بگیرد با آن چه کارهایی میتوانند انجام دهند؟ فرض اینکه کاربری جستوجو کرد «می خوام خودمو بکشم» آیا باید پلیس را از این موضوع خبردار کرد؟ البته حکومتها نمیتوانند در اینگونه موارد فردی وارد عمل شوند. ماهانه ۳.۵ میلیون جستوجوی مربوط به خودکشی انجام میشود اما تعداد واقعی خودکشی چیزی کمتر از ۴۰۰۰ مورد است. اگر پلیس بخواهد به مورد تک تک کاربرانی که خودکشی را جستوجو میکنند رسیدگی کند هزینهی زیادی دربرخواهد داشت. و موضوع مهمتر اینکه آیا حکومت باید اجازه داشتهباشد وارد حریم خصوصی ما شود؟ آیا این موضوع از نظر اخلاقی درست است؟
البته این ملاحظهی اخلاقی در سطح محلی تا کنون مانع حکومتها برای ورود به حریم خصوصی کاربران نشدهاست. بهویژه که حکومتها همبستگی میان دادههای جستوجو و اقدامات عملی پس از آن را متوجه شدند و اینگونه به ارزش این اطلاعات پی بردند. این اتفاق در سطح ایالتی بیشتر رخ دادهست. از آن سو نیز حکومتها در همان سطح اقداماتی را براساس الگوهای کلانداده انجام دادهاند. مثلاً هنگامی که میزان جستوجوی عبارات مربوط به خودکشی در یک شهر زیاد شد، تبلیغات متعددی با مضمون یاریخواهی و کمک گرفتن افراد از رادیوتلویزیون پخش شد تا به عنوان اقدامی پیشگیرانه جلوی خودکشی افراد را بگیرد. درواقع میتوان از الگوهای کلانداده برای اقدامات انساندوستانه هم استفاده کرد.
کتاب تفاوتی هم میان رسانههای اجتماعی (Social Media) و موتورهای جستوجوگر مانند گوگل قائل میشود. به اعتقاد نویسند، رسانههای اجتماعی نیز مراکز دروغگویی هستند. چون در این رسانهها کاربران برای تحت تاثیر قرار دادن بقیه مرتب دروغ میگویند. مثال این موضوع ترکیباتی است که با واژهی «شوهرم» ساختهشدهبود. ترکیبات رسانههای اجتماعی با این واژه چنین بود: «شوهرم بهترین است» ، «شوهرم بهترین دوست من است»، «شوهرم شگفتانگیز است»، «شوهرم بزرگترین است»، «شوهرم خیلی جذاب است».
از سوی دیگر دربرابر گوگل کسی دروغ نمیگوید. در گوگل عبارات پس از «شوهرم» با این جملات تکمیل میشد: «شوهرم عوضی است»، «شوهرم عذابآور است»، «شوهرم بدجنس است»…
پیام اصلی این کتاب
این خلاصه را با مثال های جالبی از نویسنده تمام میکنیم. محققین مایکروسافت مطالعهی جالبی بر روی موتور جستوجوی مایکروسافت (Bing) انجام دادهاند. وقتی کاربری دربارهی سرطان لوزالمعده جستوجو میکند، جستوجوهای چندین ماه پیش آن کاربر را ردگیری کردهاند تا ببینند او قبلاً چه چیزهای دیگری را جستوجو کرده که میتواند به سرطان لوزالمعده مرتبط باشد و با اثبات این ارتباط بتوان تا حدی امکان ابتلا به این بیماری را با استفاده از تحلیل کلانداده پیشبینی کرد. این اطلاعات چنین نشان دادن که کاربران چندین ماه پیش دل درد را جستوجو کردهبودند و اکنون در جستوجوی اطلاعات سرطان لوزالمعده هستند.
سرطان لوزالمعده بیماریای است که اگر زود تشخیص داده شود امکان درمان زیادی دارد. حال این میتواند ایدهای باشد به این شکل که ساعت هوشمند یک کاربر، با بررسی جستوجوهای او به وی هشدار دهد که با این علائم مثلاً ده درصد احتمال ابتلا به سرطان لوزالمعده وجود دارد. اگرچه احتمال کمی است اما دانستن آن بخت درمان کاربر (اگر بیمار باشد) را بسیار زیاد میکند.
شاید در آینده با این اطلاعات جستوجو چیزهایی مانند نظام سلامت نیز تغییر کند.
- ۹۸/۰۷/۰۶