На прошлой неделе у меня была возможность принять участие в местной встрече Toronto Open Data. Встреча объединяет людей различных профессий, включая энтузиастов данных, студентов, работников государственной службы и других граждан, объединенных общей целью – исследование общедоступных наборов данных и обсуждение идей по улучшению государственных услуг в городе Торонто.
Во время встречи мы сосредоточились на наборе данных 211 Youth Services Data, который предоставляет полный список социальных услуг для молодежи в Торонто. Погружаясь в этот набор данных и работая над созданием новой визуализации Power BI, я осознал потенциал извлечения ценной информации из неструктурированных текстовых данных и необходимость эффективного способа работы с такими данными.
Особое внимание привлек один атрибут в наборе данных – столбец DescriptionService. Этот столбец содержит свободные текстовые описания деятельности и программ, предлагаемых каждым агентством. Для визуализации этих текстовых данных я решил использовать визуальный элемент Word Cloud, введенный для Power BI в ноябре 2015 года.
Визуализация Word Cloud отображает набор слов в виде облака, размер шрифта каждого слова определяется его частотой в наборе данных. Визуализация Word Cloud обычно используется для анализа данных Twitter, но я хотел проверить ее возможности, применив ее к текстовому полю в наборе данных 211, где размер столбца варьировался от 17 до 4197 символов для разных агентств.
К моему восторгу, Power BI Word Cloud смог обработать большое количество текстовых данных в одной строке, позволяя мне работать с несколькими тысячами записей для создания визуализации. Что еще впечатляет, так это интерактивность отчетов Power BI, где каждая визуализация может взаимодействовать друг с другом.
Например, если я нажимаю на слово “employment” в моей визуализации Word Cloud, это влияет как на карту Bing, так и на количество агентств с этим словом. Такой уровень взаимодействия открывает бесконечные возможности для анализа данных, такие как получение лучшего понимания часто встречающихся деятельностей и выявление выбросов в наборе программ, предлагаемых каждым агентством.
Если вас интересует работа с визуализацией Word Cloud в Power BI, вот несколько дополнительных советов:
- Потратите время на очистку и подготовку ваших данных, чтобы обеспечить точность текстовых настроений.
- Не включайте опцию “Поворот текста”, чтобы сохранить чистое и организованное облако слов.
- Включите опцию “Стоп-слова”, чтобы скрыть общие слова (например, to, from, or, and и т. д.) из вашего облака слов. Вы также можете добавить другие исключительные фразы в свой список стоп-слов.
В заключение, я с большим удовольствием работал с визуализацией Word Cloud в Power BI и настоятельно рекомендую ее для анализа неструктурированных текстовых данных. Так что, если у вас есть облако слов, позвольте им полететь!