ساجد

ساجد

خلاصه کتاب همه دروغ می گویند

شنبه, ۶ مهر ۱۳۹۸، ۱۰:۲۶ ق.ظ

اینترنت چقدر می تواند خود واقعی ما را بشناسد؟ با مطالعه ی داده های گوگل چه چیزهایی می شود درباره رفتار آدمها یاد گرفت؟ این کتاب درباره این است که اینهمه اطلاعاتی که گوگل و شرکت های مشابهش از مردم جمع می کنند به چه دردی می خورد و چه چیزهای جالب و مهمی درباره عادات و رفتارها و روحیات انسان ها نشان می­دهند. حرف اصلی کتاب این است که ما به همه دروغ می گوییم به جز گوگل. مثلا اگر شما نیمه شب با درد و سوزش معده بیدار شوید ممکن است درباره درد چیزی به شریک یا والدینتان نگویید. ولی به احتمال زیاد از گوگل می پرسید که چنین دردی نشانه چه چیزی می تواند باشد. این اطلاعات دقیق تر و صادقانه تر از هر نظرسنجی ای هستند و می توان از آنها استفاده کرد و مثلا فهمید کسانی که امروز درمان سرطان معده را گوگل می کنند شش ماه پیش در گوگل دنبال چه چیزی بوده اند. شاید اصلا با این کار توانستیم کسانی را که در معرض این بیماری هستند زودتر پیدا کنیم و شانس درمانشان را بالا ببریم.

نویسنده

Setth Stephens-Davidowitz

کارشناس بیگ دیتا (کلان داده). در استنفورد و هاروارد فلسفه و اقتصاد خوانده و قبلا هم خودش مدتی به عنوان دانشمند داده در گوگل کار کرده است. همه دروغ می گویند کتاب اول اوست و در حدود یک سالی که از انتشارش می گذرد باعث شهرتش شد. استفنس داویدوویتز در نیویورک تایمز می نویسد.

بخش اول

احتمالاً بسیاری از ما اصطلاحِ کلان‌داده (Big Data) را شنیده‌ایم. ولی کلان‌داده واقعاً و در عمل یعنی چه؟

همان‌طور که از نام کلان‌داده مشخص است، این به معنای داده‌های بسیار بسیار بسیار زیاد است. آن‌چنان عظیم که مغز انسان نمی‌تواند آن را پردازش کند. حجمی چنان بزرگ از اطلاعات که برای استخراج الگوهای آن، نیازمند رایانه هستیم.

اما نکته‌ی جالب این‌جا ست که با وجود حجم زیاد، کلان‌داده رویه‌ای «حسی» نیز درد. چون در واقع اگر خوب دقت کنیم همه‌ی ما انسان‌ها به نوعی دانشمند داده (Data Scientist) هستیم.
نویسنده داستانِ مادربزرگش را به عنوان مثالی برای ورود به موضوع تعریف می‌کند. داستان از این قرار است که روز عید شکرگزاری مادربزرگ درباره‌ی انتخاب شریک زندگی به نویسند نصیحت می‌کند. او می‌گوید تا جایی که به عقل من می‌رسد شریک زندگی تو باید باهوش، بامزه، مهربان، خوش‌مشرب و زیبا باشد.

مادربزرگ ۸۸ ساله‌ی نویسنده، رابطه‌های عاطفی زیادی را دیده‌است که شروع شده و تمام شده‌اند. حالا (در روز عید شکرگزاری) او اطلاعاتی را که در این سال‌ها از این روابط به دست آورده جمع‌آوری می‌کند و بر مبنای آن، ویژگی‌های مهم یک شریک مناسب را استنباط می‌کند. از اطلاعاتش استفاده می‌کند تا الگوهایی را شناسایی و پیش‌بینی کند که براساس آن دسته‌ای از متغیرها روی بقیه تاثیر می‌گذارند. این دقیقاً همان کاری است که یک دانش‌مند داده انجام می‌دهد.
درست است که فرایند
Data Science شهودی است اما شهود علم محسوب نمی‌شود. به همین دلیل است که برای نگاه درست به دنیا ابتدا باید اطلاعاتی را که جمع‌آوری کرده‌ایم درست استفاده کنیم. اطلاعات مواد خامی را می‌دهد که با آن حس اولیه را تایید یا رد کنیم. این به ما کمک می‌کند الگوهای دقیق‌تری شناسایی کنیم و پیش‌بینی‌هایی انجام دهیم که با اتکای صرف به تجربه‌ی شخصی، قادر به آن نبودیم.

به شب عید شکرگزاری و نصیحت‌های مادربزرگ برگردیم. مادربزرگ بر این عقیده بود که اگر شریک‌های زندگی دوستان مشترکی داشته‌باشند، رابطه‌ی پایدارتری هم خواهند داشت. او از آن‌جا به این عقیده رسیده بود که خودش و شوهرش بعدازظهرها با دوستان مشترک در خانه‌شان اوقات خوشی را می‌گذراندند. تجربه‌ای شخصی که منجر به درک و استنتاج شده.
اما واقعیت این است که نمونه‌ی مادربزرگ حجم کوچکی داشت. از قضا آمارها نشان می‌دهد که او اشتباه می‌کرد. مطالعه‌ای که در سال ۲۰۱۴ با استفاده از اطلاعات استخراج شده از فیس‌بوک انجام شد نشان داده زوج‌هایی که دوستان مشترکی زیادتری داشتند، بیش از آن‌ها که دوستان مشترک کم‌تری داشتند وضعیت رابطه‌ی خود را از «در رابطه» به «مجرد» تغییر داده‌اند.

ثابت می‌شود اگرچه آن «حس اولیه» تا در گام نخست به ما کمک کند اما این داده‌ها و اطلاعات هستند که در مراحل بعد به کار می‌آیند و حتی نقطه‌نظر بابصیرت‌ترینِ افراد را هم تصحیح می‌کنند.

بخش دوم

Data Science ابزاری مفید است. مهم‌ترین استفاده‌ی آن «گردآوری اطلاعات» نیست. استخراج الگوهایی است که براساس آن بتوان پیش‌بینی‌هایی درباره‌ی آن‌چه در آینده اتفاق می‌افتد انجام داد.
به‌طور مثال گوگل به‌خاطر میزان اطلاعاتی که جمع‌آوری می‌کرد تبدیل به غول بزرگ دنیای سایبری نشد. آن‌چه این موتور جست‌وجوی عظیم را از بقیه متمایز می‌کند، استفاده‌ی موثر از این اطلاعات بود. امروزه بسیاری از ما تصوری از دنیای اینترنت پیش از گوگل نداریم. اگرچه آن زمان هم موتورهای جست‌وجوی بسیاری در اینترنت وجود داشتند اما گوگل با شیوه‌ای متفاوت وارد اینترنت شد.
مثلاً اگر در موتورهای جست‌وجو عبارتی مانند بیل کلینتون را تایپ می‌کردیم صفحات زیادی را به عنوان نتایج جست‌وجو نمایش می‌داد که در آن‌ها اسم بیل کلینتون بارها تکرار شده‌بود اما بسیاری از آن‌ها هیچ ربطی به کلینتون نداشت. این وضعیت بی‌شباهت به آن‌چه ما هنوز هنگام جست‌وجوی فارسی در گوگل داریم نیست.

اما گوگل الگوریتم جست‌وجو را جور دیگری طراحی کرد. مبنای مناسب بودن نتیجه را نه تکرار عبارت جست‌وجو بلکه میزان «لینک‌»هایی که با آن عبارت به آن صفحه داده‌شده‌بود قرار داد. بنابراین سایت رسمی کلینتون که در سایت‌های دیگر احتمالاً بیش‌تر به آن لینک داده‌شده‌است نتیجه‌ی معتبرتری است تا سایتی که عبارت جست‌وجو در آن تکرار شده. گوگل اطلاعات این لینک‌ها را گرد آورد و الگوهایی را استخراج کرد که با آن می‌توانست پیش‌بینی کند چه سایتی برای کاربر مفید تر است.

در این چکیده، چهار دلیل را که نویسنده‌ی کتاب «همه دروغ می‌گویند» به عنوان دلایل اصلی مهم و قدرت‌مند بودن کلان‌داده برشمرده بررسی خواهیم کرد.

روی‌کرد گوگل مثال خوبی از نخستین اصل اهمیت کلان‌داده است. کلان‌داده از این نظر که جریانی دائمی از اطلاعات تازه را در اختیار ما می‌گذارد، پدیده‌ی بدیعی است. اطلاعات تازه مدام به‌روز می‌شود و در اختیار دانش‌مندان داده قرار می‌گیرد.

پیش از ظهور کلان‌داده، برای دست‌یابی و محاسبه‌ی آمار بی‌کاری باید منتظر اداره‌ی آمار امور کارگران بودید تا تلفنی اطلاعات را جمع کند و حساب و کتاب‌ها را انجام دهد. یا برای به‌دست آورد میزان ابتلای شهروندان به یک بیماری خاص منتظر آمار اداره‌ی دولتی بهداشت عمومی می‌ماندید.
اما امروز کلان‌داده‌ی گوگل می‌تواند به شما کمک کند هردویِ این‌ها و بسیاری اطلاعات دیگر را به دست بیاورید. دست‌کم این کاری بود که یک مهندس گوگل برای مردم آمریکا انجام داد. او جست‌وجوهایی را که مردم درباره‌ی موارد مرتبط با آنفلوآنزا کرده‌بودند را بررسی کرد. مثلاً علائم آنفلوآنزا یا درمان آن. او بر این عقیده بود که این جست‌وجوها الگوی انتشار بیماری را مشخص می‌کند و با پایش این الگوها می‌توان پراکندگی انتشار آنفلوآنزا (یا هر بیماری دیگر)‌در طول زمان را دریافت. گوگل مثال خوبی برای نشان دادن این موضوع است که کلان‌داده چه‌گونه می‌تواند اطلاعات جدید در اختیار کسانی که به دنبال استفاده از آن هستند قرار دهد.

اما نکته‌ی جالب دیگر درباره‌ی کلان‌داده این است: ابر داده دروغ نمی‌گوید. در تحقیقی که اخیراً از دانش‌آموختگان دانش‌گاه مریلند انجام شد، معدل آن‌ها از دانش‌جویان پرسیده‌َشد. ۲درصد از جامعه‌ی آماری اعلام کردند که معدل‌شان زیر ۲.۵ بوده است (توضیح: سقف معدل ۴ است).

این در حالی‌است که دانش‌گاه اطلاعات معدل همه‌ی دانش‌آموختگان را در اختیار دارد و طبق این آمار ۱۱ درصد آن‌ها معدل زیر ۲.۵ کسب کرده‌بودند به ۲ درصد. اختلافی بسیار زیاد. این فقط یک مثال است. می‌توان نمونه‌ها و شواهدی دیگری هم پیدا کرد که نشان می‌دهد مردم در نظرسنجی‌ها به‌راحتی دروغ می‌گویند. «همه دروغ می‌گویند»

اما چرا؟ چون می‌خواهند تصویر خوبی از خود ارائه دهند. تصویری که هم در نظر دیگران و هم در ذهن خودشان بازتاب می‌یابد. به این پدیده social desirability bias می‌گویند. سوگیریِ مطلوبیتِ اجتماعی.

جز این، پرسش‌شوندگان نظرسنجی علاقه دارند پرسش‌گر را تحت تاثیر قرار دهند. حتی اگر مصاحبه به‌صورت ناشناس انجام شود. مثلاً اگر پرسش‌گرِ یک نظرسنجی درباره‌ی این‌که «آیا علف می‌کشید یا نه؟» فردی شبیهِ پدرِ پرسش‌شونده باشد، احتمالاً پرسش‌شونده تمایلی به این‌که حقیقت را بگوید و اعلام کند که مصرف می‌کند نخواهد داشت.

این گرایش به دروغ‌گویی منجر می‌شود هنگامی که نظرسنجی‌ها درباره‌ی افکار، اعتقادات یا تمایلات ما باشد و با هدف فهمِ رفتار ما انجام شود، به خطا رفته و غیرقابل اعتماد شوند.

 

بخش سوم

تصور کنید در هشتاد سال گذشته هر زمان که پژوهش‌گران می‌خواستند از خواسته‌ها، علتِ کارها، و برنامه‌هایِ آینده‌ی مردم مطلع شوند سراغ نظرسنجی می‌رفتند. در حالی‌که مردم به‌ویژه هنگامی که موضوع کمی حساس باشد، پاسخ درست نمی‌دهند. چیزی را می‌گویند که فکر می‌کنند درست‌تر است. یا آن‌چیزی که تصور می‌کنند پرسش‌گر تمایل دارد بشنود.

از این واقعیت، دومین دلیل قدرت‌مند بودن کلان‌داده به دست می‌آید: کلان‌داده دروغ نمی‌گوید. چون از روی رفتار غربال‌نشده‌ی کاربران آنلاین جمع‌آوری شده و همیشه نمایان‌گرِ حقیقت است. احتمال بسیار کمی است که کاربران هنگام جست‌وجو اطلاعات تحریف‌شده وارد گوگل کنند. موقع جست‌وجو هیچ پرسش‌نامه‌ای در کار نیست. کاربران و گوگل تنها هستند.

نویسنده در این بخش نمونه‌های جالبی را ذکر می‌کند. مثلاً این نمونه که اگر پیش از انتخابات آمریکا از شهروندان بپرسید آیا در انتخابات شرکت می‌کنند یا نه، اکثر آن‌ها با قاطعیت می‌گویند که شرکت خواهند کرد و وظیفه‌ی شهروندی‌شان را ادا می‌کنند. اما هنگام برگزاری انتخابات در نهایت ۵۵ درصد مشارکت ثبت می‌شود. این یعنی پرسش‌شوندگان تصمیم به رای دادن نداشته‌اند اما نمی‌خواستند در نظرسنجی این موضوع را بیان کنند.

در نمونه‌ی جالب دیگری از پرسش‌شوندگان این سوال مطرح می‌شود که چه‌قدر رابطه‌ی جنسی دارند و چه میزان از کاندوم استفاده می‌کنند. اطلاعات ابرازی پرسش‌شوندگان مشخص می‌کند طبق گفته‌ی مردان، سالانه ۱ میلیارد و ۶۰۰ میلیون کاندوم در سال مصرف می‌شود. اما طبق گفته‌ی زنان این رقم ۱ میلیارد و ۱۰۰ میلون است.

بنابراین یکی از این دو گروه دروغ می‌گویند. پژوهش‌گران برای مشخص شدن حقیقت سراغ اطلاعات فروش کاندوم‌ها رفتند ومشخص شد رقم درست ۶۰۰ میلیون در سال است. یعنی هر دو گروه دروغ می‌گویند اما مردان بیش‌تر. فشار فرهنگی روی شهروندان باعث می‌شود بسیاری خودشان را از نظر جنسی فعال‌تر از آن‌چه هستند نشان دهند.

نویسنده معتقد است، هم‌چنان که مردم در نظرسنجی‌ها حقیقت را پنهان می‌کنند و تحلیل‌گران را به بی‌راهه می‌برند، با گوگل خیلی روراست‌تر هستند. چیزهایی را جست‌وجو می‌کنند که ممکن است افراد دیگری نکنند. البته اطلاعات جست‌وجو ناشناس است و مشخص نیست کدام کاربر چه چیزی را جست‌وجو کرده‌است اما وقتی همه‌ی آن را با هم نگاه کنیم می‌توانیم الگوهایی را تشخیص دهیم که به ما کمک کند متوجه شویم مردم واقعاً چه می‌خواهند و به چه چیزی فکر می‌کنند. نتیجه‌ای بسیار بهتر و دقیق‌تر از هر نوع نظرسنجی. مثال‌های زیادی از این تفاوت بین نتایج الگوهای گوگل و نتایج نظرسنجی‌ها در کتاب ذکر شده‌است که بعضی از آن‌ها واقعاً غافل‌گیرکننده هستند. و با پیش‌فرض‌های ما هم‌خوانی ندارد.

بخش چهارم

در سال ۲۰۰۸، ۹۹ درصد شهروندان آمریکایی در نظرسنجی‌ها ابراز می‌کردند که سیاه‌پوست بودن باراک اوباما برای آن‌ها اهمیتی ندارند. رقم بسیار بالایی که نویسنده را مشکوک کرد. نویسند می‌گوید با خودم فکر می‌کردم آیا واقعاً آمریکایی‌ها این‌قدر از نژادپرستی فاصله گرفته‌اند؟ به همین دلیل نویسنده اطلاعات جست‌وجوی گوگل کاربران را نیز بررسی کرد. در این بررسی او معیارهایی مانند «جوک‌های قبیح نژادپرستانه» را برای تشخیص الگو تعیین کرد و به نتایج جالبی دست یافت. اولاً این‌که کاربران بیش از آن‌چه در نظرسنجی‌ها عنوان می‌شود نژادپرست هستند. ثانیاً این‌که برخلاف تصور اولیه، مرز نژادپرستی شمال و جنوب نیست بلکه شرق و غرب آمریکا است. آمریکاییانِ ساکن در شرق می‌سی‌سی‌پی بیش‌تر گرایش به نژادپرستی دارند تا غرب آن.

نویسنده رای اوباما در ایالت‌هایی را که جست‌وجوی بیش‌تری برای جوک‌های نژادپرستانه در گوگل کرده‌بودند را نیز بررسی کرده و آن را با رای نامزدهای قبلی حزب دموکرات مقایسه کرده‌است. به‌طور مثال جان کری (نامزد حزب دموکرات در انتخابات ریاست‌جمهوری سال ۲۰۰۴ آمریکا) که به گفته‌ی نویسند همانند اوباما سیاست‌مداری لیبرال است، در این ایالت‌ها رای بیش‌تری به نسبت اوباما کسب کرده و اوباما به دلیل رنگ پوستش آرای زیادی را از دست داده است. نویسنده این‌گونه نتیجه می‌گیرد که ۱۰ درصد دموکرات‌های سفیدپوست در ایالات متحده‌ی آمریکا، به یک نامزد سیاه‌پوست برای انتخابات ریاست جمهوری صرفاً به دلیل سیاه‌پوست بودنش رای نمی‌دهند.

شاید به همین دلیل است که وقتی دونالد ترامپ در انتخابات مقدماتی حرف‌هایی می‌زد که بسیاری از کارشناسان معتقد بودند نباید بگوید، هم‌چنان رای جمهوری‌خواهان را کسب می‌کرد. یک خبرنگار نیویورک‌تایمز با استفاده از همین اطلاعاتی که نویسنده‌ی کتاب گرد آورده‌بود، به این نتیجه رسید که آراء ترامپ در ایالت‌های دارای گرایش بیش‌تر به نژادپرستی بیش‌تر است. این ارتباط واضح‌تر نتایج جست‌وجوهای اقتصادی یا تحصیلات یا سن یا داشتن اسلحه بود. آرای ترامپ در دور مقدماتی را چیزی به خوبی میزان گرایش به نژادپرستی نمی‌توانست توضیح بدهد. همان گرایشی که به اوباما ضربه زد اما در آمار و نظرسنجی‌ها دیده‌نمی‌شد و به همین دلیل بسیاری آن را کتمان کردند یا نادیده گرفتند. این گرایش حالا و در سال ۲۰۱۶ تبدیل شد به گرایش به ترامپ و اثر خود را در انتخابات ریاست‌جمهوری آمریکا نشان داد.

کتاب «همه دروغ می‌گویند» از لحاظ آشکار کردن این واقعیت ناراحت‌کننده است. این‌که اگر مستقیماً نظر مردم را بپرسیم، نتیجه مثبت‌تر و بهتر از واقعیت است. به همین دلیل یافته‌های نویسنده درباره‌ی نژادپرستی، کودک‌آزاری، سقط جنین‌های خانگی و موارد مشابه تاریک و تلخ است. اما واقعیت دارد. واقعیتی تلخ.

 

بخش پنجم

مورد دیگری که نویسنده بررسی کرده‌است، جست‌وجوهای کاربران درباره‌ی فرزندان دختر و پسرشان است. نویسنده می‌گوید تصور من این بود که در آمریکای امروز مردم نگاه برابری به دختران و پسران خوددارند. ولی این‌بار هم داده‌های جست‌وجوی گوگل نمایان‌گر شرایطی متفاوت است.

جست‌وجوهایی که با عبارت «آیا پسرم.» شروع می‌شود با این عبارات ادامه می‌باید که «آیا پسرم نابغه است؟» «آیا پسرم نظرکرده است؟» اما جست‌وجوهای مشابه درباره‌ی فرزندان دختر بیش‌تر با عباراتی مانند «آیا دخترم اضافه‌وزن دارد؟» «آیا دخترم زشت است؟» انجام می‌شود. یعنی برخلاف آن‌چه احتمالاً نظرسنجی‌ها نشان خواهند داد، هنگامی که والدین در خلوت خود و صادقانه با گوگل برخورد می‌کنند برای پسرهای خود به‌خاطر توانایی‌های فکری‌شان هیجان‌زده‌اند اما برای دخترهایشان به دلیل کاستی‌های فیزیکی نگران. چیزی که حتی امکان دارد خود نیز از آن باخبر نباشند.
مثال جالب دیگری در کتاب درباره‌ی اسلام‌هراسی وجود دارد. در حادثه‌ای که مدتی تبدیل به خبر مهم و روز شده‌بود، در سن‌برناردینو دو نفر که نام‌های اسلامی داشتند یکی از همکارانشان را به قتل رساندند. پس از این حادثه فهرست جست‌وجوهای گوگل که واژه‌ی مسلمان (
Muslim) را داشت عباراتی از این دست بود: «مسلمان‌ها را بکشید» «من از مسلمان‌ها متنفر ام» و

چند روز بعد اوباما در یک سخن‌رانی به این موضوع پرداخت که شهروندان آمریکایی هم باید دربرابر خطر تروریسم از خود محافظت کنند و هم با این اسلام‌هراسی بجنگند تا عرصه را به این گروه کوچک اما خطرناک واگذار نکنند. سخن‌رانی جالب و گیرایی که نویسنده هم از آن تعریف می‌کند و در رسانه‌ها هم بازتاب مثبت و خوبی داشت.

اما نویسنده هنگام پخش سراسری این سخن‌رانی، دقیقه به دقیقه جست‌وجوهای گوگل را بررسی کرد ا دریابد که آیا سخن‌رانی اوباما توانسته به هدف خود یعنی مهار کردن آتش خشم و نفرت، برسد یا نه.

طبق آن‌چه نویسنده در بررسی خود دیده‌است، نه‌تنها جست‌وجوها با مضامین نفرت‌ از مسلمانان در طول سخن‌رانی کم نشد بلکه دقیقاً هروقت اوباما به این موضوع اشاره کرده که باید با هم‌سایگان مسلمانمان مهربان باشیم، انگار این حرف‌ها اثر معکوس داشته و این جست‌وجوها را زیادتر کرده‌است. به‌جز یک استثناء. اوباما در سخن‌رانی خود گفت «یادمان باشد بسیاری از مسلمانان آمریکایی قهرمان‌های ورزشی و مردان و زنانی هستند که به‌خاطر این کشور جان خود را از دست داده‌اند». بلافاصله پس از این جمله، پس از پنج سال عبارات جست‌وجو درباره‌ی مسلمانان از مسلمان تروریست به «مسلمانان قهرمان ورزشی» و «سربازان مسلمان» تغییر کرد و این وضعیت تا یک هفته نیز ادامه داشت. از مقایسه‌ی آن چند جمله‌ی سخن‌رانی و بقیه‌ی حرف‌های اوباما می‌توان نکات زیادی را دریافت.

بقیه‌ی سخن‌رانی حرف‌هایی بود که همان چیزهایی را به مردم می‌گفت که بارها شنیده‌بودند. این‌که انسان‌های بهتری باشند. اما آن دو خط درباره‌ی قهرمانان مسلمان آمریکایی، کنجکاوی مردم را تحریک کرد. اطلاعات جدیدی به آن‌ها داد و به همین دلیل موفق‌تر بود.

نتیجه‌ی این بررسی در نیویورک‌تایمز منتشر شد. اوباما دو هفته بعد در مسجدی در بالتیمور سخن‌رانی کرد اما این‌بار گویی که از این بررسی چیزی آموخته باشد، بخش اندرز و نصیحت‌گر سخن‌رانی را حذف کرد و به‌جای آن بخش اصلی سخن‌رانی را به تحریک همان کنجکاوی اختصاص داد. اطلاعاتی مانند این‌که مسلمانان آمریکایی نه‌تنها سرباز و قهرمان ورزشی هستند بلکه کشاورز و تاجر نیز هستتند و تاماس جفرسون یک نسخه از قرآن در کتاب‌خانه داشته‌است و آسمان‌خراش‌های شیکاگو را مسلمانان ساخته‌اند و اطلاعاتی مشابه و کنجکاوی‌برانگیز. با این اطلاعات تصویر جدیدی از مسلمانان در ذهن مخاطب ایجاد شد و این‌بار تا ساعت‌ها پس از سخن‌رانی، میزان عبارات جست‌وجوهای گوگل با مضمون کشتن مسلمانان و نفرت از آن‌ها به شدت افت کرد. اگرچه مشکل نفرت با دو سخن‌رانی حل نمی‌شود ولی این موضوع نشان می‌دهد که ابزار سخن‌رانی چه کارایی موثری دارد. کسی نمی‌توانست این افراد را با نظرسنجی پیدا کند یا نظر واقعی آن‌ها را درباره‌ی مسلمانان بداند. اما چون اطلاعات جست‌وجوی گوگل وجود دارد و صادقانه هم هست، می‌توان چگونگی تاثیرگذاری را با استفاده از این اطلاعات پیدا کرد.

حجم کلان‌داده بسیار بسیار بزرگ است. فهمیدن بزرگی آن راحت نیست. همه‌ی داده‌هایی که روزانه در گوگل و دیگر موتورهای جست‌وجو وارد می‌شود بسیار زیاد است.

سومین مولفه‌ی قدرت‌مند کلان‌داده این است که می‌توان روی بخش مشخصی از اطلاعات متمرکز شد و از آن بخش نیز الگوها و نتایج بسیار مفیدی به دست آورد. یعنی چون به کلان‌داده دست‌رسی داریم، فهمِ داده‌های خُرد نیز آسان‌تر و بهتر است.


یک استاد دانشگاه هاروارد در پی پاسخ این سوال بود که آیا آن‌چه روزگاری «رویای آمریکایی» می‌نامیدند هنوز وجود دارد یا نه؟ آیا می‌شود فردی از خانواده‌ای فقیر، ثروت‌مند شود یا نه. او برای پیدا کردن پاسخ اطلاعات مالیاتی مردم در سال‌های مختلف را از اداره‌های مربوطه گرفت و بیش از یک میلیارد پرونده‌ی مالیاتی را بررسی کرد. نتیجه این‌که در آمریکا اوضاع برای فقرا چندان خوب نیست. یک آمریکایی فقیر تنها ۷.۵ درصت اقبال دارد تا در زمینه‌ای که به آن علاقه دارد موفق شود. اما همین اقبال برای خانواده‌ای در دانمارک ۱۱.۷۵ درصد و در کانادا ۱۳.۵ درصد است.
اما کارآمدی مهم دیگر کلان‌داده این است که این پژوهش‌گران می‌توانستند روی بخش‌های مختلف این اطلاعات متمرکز شوند و همین مطالعه را به‌صورت ایالتی و شهری هم انجام دهند تا دریابند وضعیت در آن منطقه چه‌گونه است. در نتیجه‌ی همین تمرکز در بررسی بود که مشخص شد رویای آمریکایی در برخی مناطق این کشور هنوز کاملاً برقرار است. همان اقبال که در کل آمریکا ۷.۵ درصد بود در سن‌خوزه ۱۲.۹ درصد بود. یعنی بالاتر از دانمارک. اما در شارلوت و یا نورث کارولاینا فقط ۴.۴ درصد بود.

 

قابلیت تمرکز بر روی بخشی از کلان‌داده امکانات زیادی به ما می‌دهد که دریابیم در گوشه گوشه‌ی دنیا چه وضعیت و شرایط درباره‌ی موضوعِ بررسی حاکم است.

بخش ششم

هر روز ما چیزهای زیادی درباره‌ی همبستگی (Correlation) می‌شنویم. البته نه درباره‌ی خود آن. مصداق‌هایی از مفهموم آن. مثلاً این‌که اگر زنجبیل تازه را پشت گوشت قرمز بمالیم تا ۴۸ درصد امکان ابتلا به سرطان معده را کاهش می‌دهد. یا این‌که افرادی که هنگام دوش گرفتن ابتدا گردنشان را می‌شویند مدیران موفق‌تری هستند. از این جنس اطلاعات که دو چیز را بدون آن‌که لزوماً رابطه‌ی علت و معلولی میان آن‌ها باشد به هم ربط می‌دهد. اگرچه این مثال‌ها اغراق‌آمیز و خارج از کتاب بود اما اگر اخبار علمی یا شبه‌علمی را دنبال کنین همواره چنین چیزهایی خواهید دید.
درواقع برای اثبات رابطه‌ی علت و معلولی میان دو پدیده باید آزمایش‌هایی انجام شود که به آن
AB Test می‌گویند. فرض بگیریم نتایج یک مطالعه نشان می‌دهد افرادی که مصرف متعادل چای دارند معمولاً سالم‌تر هستند. آیا این نتیجه چنین می‌گوید که مصرف متعادل چای حتماً باعث سلامتی می‌شود. البته که نه. برای اثبات این موضوع باید نمونه‌های تصادفی بسیاری گردآورد و به دو گروه تقسیم‌بندی کرد که یک گروه از این نمونه‌ها هر روز دو لیوان چای می‌نوشند و گروه دیگر هیچ. بعد پس از مدتی وضع سلامت این دو گروه مقایسه می‌شود و اگر نتایج نشان داد گروه اول سالم‌تر هستند آن وقت این اطلاعات بر این موضوع که مصرف متعادل چای انسان را سالم‌تر نگه می‌دارد دلالت ضمنی خواهد داشت.

کلان‌داده انجام این آزمون‌های الف ب را آسان‌تر می‌کند. این چهارمین دلیل قدرت‌مند بودن آن است.
قبلاً برای انجام چنین آزمونی باید افراد زیادی استخدام می‌شدند و اطلاعات‌شان ثبت و سپس داده‌ها تحلیل می‌شد. اکنون دانشمندان داده می‌توانند برنامه‌ای طراحی کنند که تقریباً این کار را خود انجام دهد.

به کمک همین کلان‌داده، اکنون تعداد تست‌هایی که فیس‌بوک در یک روز انجام می‌دهد از تست‌هایی که سازمان غذا و داروی آمریکا FDA در یک سال انجام می‌دهد بیش‌تر است. چون با داشتن کلان‌داده می‌توان نظریه‌ها، احتمالات و گزینه‌های مختلف را سریع‌تر آزمایش کرد. مثال معروف این آزمایش سال ۲۰۰۸ است که کمپین اوباما می‌خواست سایتی طراحی کند که مردم را به کمک مالی تشویق کند. طراحان سایتترکیبات مختلفی از عکس و چیدمان صفحه و متن را ایجاد کردند و سپس با استفاده از کلان‌داده‌ها رفتار کاربران را تحلیل کردند تا دریابند کدام بهتر کار می‌کند.
هرچه تا این‌جای خلاصه کتاب گفتیم خوبی‌ها و مزایایی کلان‌داده بود. حالا باید عیب‌های آن را هم بررسی کنیم.
 

بخش هفتم

یکی از ایرادهای کلان‌داده موقعی است که تعداد متغیرها بسیار زیاد می‌شود و نمی‌توان راحت نتیجه‌گیری کرد. مثلاً یک استاد دانش‌گاه داده‌های DNA دانشجویانش را جمع‌آوری کرد و سپس آن‌ها را با نتایج آزمون هوش آن‌ها سنجید و به این نتیجه رسیده‌بود که ژن مشخص IGF2R کلید هوش انسان‌ها ست. او بر این تصور بود که ژن هوش را کشف کرده‌است اما وقتی چند سال بعد این آزمایش را تکرار کرد چنین همبستگی مشاهده نکرد. ایراد از آن‌جا بود که ژنوم انسان‌ها از هزاران ژن تشکیل شده و اگر همبستگی‌ای اتفاق بیفتد کاملاً امکان تصادفی بودن آن وجود دارد. تحلیل و الگویابی از کلا‌ن‌داده هنگامی که میزان متغیرها زیاد باشد چندان منجر به نتیجه‌ی درست نمی‌شود چون تعدد متغیرها ممکن است الگوهای تصادفی‌ای ایجاد کرده ‌باشد.

ایراد دیگر کلان‌داده، غیرقابل‌تحلیل بودن پدیده‌هایی است که نمی‌توان آن‌ها را اندازه‌گیری کرد. مثلاً فیس‌بوک اگرچه داده‌ی همه‌ی لایک‌ها و کلیک‌ها را جمع‌آوری می‌کند اما نمی‌تواند این را تحلیل کند که تجربه‌ی کاربران با یک محصول یا یک سایت چه‌قدر خوب بوده‌است. این، همان‌جایی است که باید از مردم نظرشان را پرسید. نظرسنجی و خُردداده. کاری که فیس‌بوک هم آن را انجام می‌دهد. علاوه بر آن، فیس‌بوک کارشناسان روان‌شناسی و جامعه‌شناسی استخدام می‌کند که به تحلیل رفتار کاربران کمک کند و چیزهای غیرقابل‌اندازه‌گیری را این‌گونه استخراج کند.

البته مشکل کامل نبودن کلان‌داده از این نیز ریشه‌ای‌تر است. هنگامی که کاربران چیزی را در گوگل جست‌وجو می‌کنند یا کالایی را آن‌لاین می‌خرند در جمع شدن کلان‌داده مشارکت دارند. اما اگر این اطلاعات در اختیار دولت‌ها قرار بگیرد با آن چه کارهایی می‌توانند انجام دهند؟ فرض این‌که کاربری جست‌وجو کرد «می خوام خودمو بکشم» آیا باید پلیس را از این موضوع خبردار کرد؟ البته حکومت‌ها نمی‌توانند در این‌گونه موارد فردی وارد عمل شوند. ماهانه ۳.۵ میلیون جست‌وجوی مربوط به خودکشی انجام می‌شود اما تعداد واقعی خودکشی چیزی کم‌تر از ۴۰۰۰ مورد است. اگر پلیس بخواهد به مورد تک تک کاربرانی که خودکشی را جست‌وجو می‌کنند رسیدگی کند هزینه‌ی زیادی دربرخواهد داشت. و موضوع مهم‌تر این‌که آیا حکومت باید اجازه داشته‌باشد وارد حریم خصوصی ما شود؟ آیا این موضوع از نظر اخلاقی درست است؟

البته این ملاحظه‌ی اخلاقی در سطح محلی تا کنون مانع حکومت‌ها برای ورود به حریم خصوصی کاربران نشده‌است. به‌ویژه که حکومت‌ها همبستگی میان داده‌های جست‌وجو و اقدامات عملی پس از آن را متوجه شدند و این‌گونه به ارزش این اطلاعات پی بردند. این اتفاق در سطح ایالتی بیش‌تر رخ داده‌ست. از آن سو نیز حکومت‌ها در همان سطح اقداماتی را براساس الگوهای کلان‌داده انجام داده‌اند. مثلاً هنگامی که میزان جست‌وجوی عبارات مربوط به خودکشی در یک شهر زیاد شد، تبلیغات متعددی با مضمون یاری‌خواهی و کمک گرفتن افراد از رادیوتلویزیون پخش شد تا به عنوان اقدامی پیش‌گیرانه جلوی خودکشی افراد را بگیرد. درواقع می‌توان از الگوهای کلان‌داده برای اقدامات انسان‌دوستانه هم استفاده کرد.

کتاب تفاوتی هم میان رسانه‌های اجتماعی (Social Media) و موتورهای جست‌وجوگر مانند گوگل قائل می‌شود. به اعتقاد نویسند، رسانه‌های اجتماعی نیز مراکز دروغ‌گویی هستند. چون در این رسانه‌ها کاربران برای تحت تاثیر قرار دادن بقیه مرتب دروغ می‌گویند. مثال این موضوع ترکیباتی است که با واژه‌ی «شوهرم» ساخته‌شده‌بود. ترکیبات رسانه‌های اجتماعی با این واژه چنین بود: «شوهرم بهترین است» ، «شوهرم بهترین دوست من است»، «شوهرم شگفت‌انگیز است»، «شوهرم بزرگ‌ترین است»، «شوهرم خیلی جذاب است».

از سوی دیگر دربرابر گوگل کسی دروغ نمی‌گوید. در گوگل عبارات پس از «شوهرم» با این جملات تکمیل می‌شد: «شوهرم عوضی است»، «شوهرم عذاب‌آور است»، «شوهرم بدجنس است»

 

پیام اصلی این کتاب

این خلاصه را با مثال های جالبی از نویسنده تمام می‌کنیم. محققین مایکروسافت مطالعه‌ی جالبی بر روی موتور جست‌وجوی مایکروسافت (Bing) انجام داده‌اند. وقتی کاربری درباره‌ی سرطان لوزالمعده جست‌وجو می‌کند، جست‌وجوهای چندین ماه پیش آن کاربر را ردگیری کرده‌اند تا ببینند او قبلاً چه چیزهای دیگری را جست‌وجو کرده که می‌تواند به سرطان لوزالمعده مرتبط باشد و با اثبات این ارتباط بتوان تا حدی امکان ابتلا به این بیماری را با استفاده از تحلیل کلان‌داده پیش‌بینی کرد. این اطلاعات چنین نشان دادن که کاربران چندین ماه پیش دل درد را جست‌وجو کرده‌بودند و اکنون در جست‌وجوی اطلاعات سرطان لوزالمعده هستند.

سرطان لوزالمعده بیماری‌ای است که اگر زود تشخیص داده شود امکان درمان زیادی دارد. حال این می‌تواند ایده‌ای باشد به این شکل که ساعت هوش‌مند یک کاربر، با بررسی جست‌وجوهای او به وی هشدار دهد که با این علائم مثلاً ده درصد احتمال ابتلا به سرطان لوزالمعده وجود دارد. اگرچه احتمال کمی است اما دانستن آن بخت درمان کاربر (اگر بیمار باشد) را بسیار زیاد می‌کند.
شاید در آینده با این اطلاعات جست‌وجو چیزهایی مانند نظام سلامت نیز تغییر کند.

موافقین ۰ مخالفین ۰ ۹۸/۰۷/۰۶
ساجد موسی زاده

نظرات  (۰)

هیچ نظری هنوز ثبت نشده است

ارسال نظر

ارسال نظر آزاد است، اما اگر قبلا در بیان ثبت نام کرده اید می توانید ابتدا وارد شوید.
شما میتوانید از این تگهای html استفاده کنید:
<b> یا <strong>، <em> یا <i>، <u>، <strike> یا <s>، <sup>، <sub>، <blockquote>، <code>، <pre>، <hr>، <br>، <p>، <a href="" title="">، <span style="">، <div align="">
تجدید کد امنیتی