Если вы думаете, что вам удастся избежать проблем с коммуникативными навыками в качестве специалиста по данным, потому что данные говорят сами за себя, Dr. Линдси Брин здесь, чтобы сказать вам обратное. Она считает, что изучение того, как передавать данные посредством надлежащей визуализации, имеет решающее значение для специалистов по обработке данных, и объясняет, почему эта способность важна для установления истины.

Рабочий процесс Data Science

Цель визуализации данных - сделать концепции и истины более прозрачными, чем они были бы в чистой числовой форме. Брин сразу же отмечает, что вы должны внимательно посмотреть на свои данные, прежде чем приступить к анализу, жизненно важно, будь то простой, как показывает ее примерный слайд, или гораздо более сложный.

Она приводит примеры того, как на самом деле просмотр ваших данных помогает правильно применять статистику и устанавливать правильные параметры модели.

В общении это очень важно, потому что нам часто кажется, что мы лучше понимаем что-то в данных с помощью правильного изображения или визуализации. Это касается как представления данных более широкой аудитории, так и выбора того, следует ли уточнить или скрыть, но также касается вас, когда вы рассматриваете данные, которые у вас есть.

[Статья по теме: Преимущества и оптимальное использование четырех популярных инструментов визуализации данных]

Выбор в визуализации данных

Некоторые типы данных поддаются визуализации с помощью изображений, но не все соответствуют критериям. Фактически, некоторые визуализации могут быть излишне избыточными или намеренно вводить в заблуждение. Знание того, когда использовать визуализацию, - это первый шаг в правильной передаче данных:

  • Визуализация бесполезна, если у вас всего две точки данных.
  • Это неэффективно, если скрывает связь между данными (особенно если таблица более оправдана).
  • Очень эффективно отображать общие тенденции и развитие закономерностей.

Наука о данных и целостность

Визуализация данных улучшает понимание, но с другой стороны, она может показать неверную историю, как случайно, так и с более коварными намерениями. Чтобы избежать таких потенциальных ловушек, необходимо знать, как люди интерпретируют сигналы, как скрытые, так и явные. Осведомленность об этих сигналах может помочь вам лучше представить данные для ясности и избежать неправильной интерпретации.

Параметры участка

Выбор масштаба может повлиять на то, как мы видим какие-либо данные. В некоторых случаях сокращающая шкала может выделить взаимосвязи в данных. Уменьшение масштаба до того, что представлено в данных, может сильно повлиять на то, как мы видим различия в точках данных. Например:

Сезонность рождаемости в Торонто, Канада, видна на этой визуализации. Однако если мы вернемся к гораздо более широкой визуализации, история данных изменится:

Здесь мы видим, что, несмотря на сезонные изменения рождаемости, общая рождаемость относительно стабильна. Какую историю вы расскажете, будет зависеть от задаваемого вопроса и вашей честности.

Крайние значения диапазонов осей также могут повлиять на эффективность вашей визуализации. Трудно понять, имеют ли эти значения истинное значение или они находятся на границе вашего диапазона. Подмножество оси, например, или преобразования журнала могут быть способами показать вам шаблоны данных способами, которые вы, возможно, не видели. Хотя есть много способов решить эту проблему, Брин надеется, что вы начнете понимать, как визуализация может влиять на ваши собственные интерпретации.

[Статья по теме: 7 советов по визуальному поиску в масштабе]

Другой пример вводящей в заблуждение визуализации - использование точек и линий для чего-то вроде категориальной переменной. Если между переменными нет реальной взаимосвязи или в информации есть пробелы, вы можете начать видеть закономерности, которых на самом деле не существует из-за психологии линий. Например:

Это бессмысленная визуализация, потому что млекопитающие на самом деле не связаны друг с другом таким образом, чтобы гарантировать линейное продвижение.

Выбор цвета

Различные элементы цвета также могут повлиять на то, как вы интерпретируете свои данные. Вы можете этого не осознавать, но такие вещи, как оттенок, ценность и интенсивность играют определенную роль в вашей интерпретации. Изучение теории цвета и того, как наши глаза движутся по композиции, может помочь объяснить, как визуализации могут вызывать воспоминания и быть полезными или не привлекать внимание.

В искусстве художники часто используют цвет намеренно, но специалисты по данным не всегда могут действовать так намеренно. Например, оттенок (или название цвета), значение (темный или светлый) и интенсивность (или насыщенность) могут заставить вашу аудиторию двигаться определенным образом в композиции. Это очень очевидно в картине Дега, в которой взгляд обычно улавливает красный свитер (оттенок, интенсивность) и перемещается по картине, следуя значению (от темного к светлому).

В типах графиков цвет может помочь выявить определенные закономерности, маскируя другие, как это видно на этих трех графиках, которые различаются по цветовой схеме, но представляют одни и те же данные. Полиномиальные отношения более очевидны в одних, а в других вводят в заблуждение или замаскированы.

Подумайте, как цвет заставляет вас придавать значение. Эта важность актуальна или точна? Если это не так, Брин рекомендует вам пересмотреть то, как вы используете цвет в своей визуализации.

Когда цвета на цветовом круге имеют одинаковый оттенок или близки, может казаться, что между ними существует взаимосвязь, которой может не быть. Если группы действительно связаны, цвет может помочь показать эту взаимосвязь. В противном случае это может исказить вашу интуицию.

Цвет также может скрывать узоры. Вы можете выполнять преобразования журнала, в которых цвета назначаются более случайным образом, чтобы показать эти отношения, или просто добавить намного больше цветов к своим значениям для этого визуального контраста. Это также может иметь противоположный эффект, если подчеркивать не такие экстремальные отношения.

Говорят не только цифры

Брин подчеркивает, что цвет может быть замечательным инструментом, помогающим показать взаимосвязь с данными, но он также отвлекает, когда использование не является продуманным. Можно скрыть связи или подчеркнуть их излишне, просто манипулируя такими вещами, как цвет и визуальный стиль, поэтому рассмотрение этих вещей в дополнение к вашим данным делает рассказ о ваших данных более прозрачным и надежным.

См. Полный текст выступления Брина здесь!

Прочтите больше статей по науке о данных на OpenDataScience.com, включая учебные пособия и руководства от новичка до продвинутого уровня! Подпишитесь на нашу еженедельную рассылку здесь и получайте последние новости каждый четверг.