Published on

July 15, 2016

Исследование неструктурированных текстовых данных с помощью SQL Server

На прошлой неделе у меня была возможность принять участие в местной встрече Toronto Open Data. Встреча объединяет людей различных профессий, включая энтузиастов данных, студентов, работников государственной службы и других граждан, объединенных общей целью – исследование общедоступных наборов данных и обсуждение идей по улучшению государственных услуг в городе Торонто.

Во время встречи мы сосредоточились на наборе данных 211 Youth Services Data, который предоставляет полный список социальных услуг для молодежи в Торонто. Погружаясь в этот набор данных и работая над созданием новой визуализации Power BI, я осознал потенциал извлечения ценной информации из неструктурированных текстовых данных и необходимость эффективного способа работы с такими данными.

Особое внимание привлек один атрибут в наборе данных – столбец DescriptionService. Этот столбец содержит свободные текстовые описания деятельности и программ, предлагаемых каждым агентством. Для визуализации этих текстовых данных я решил использовать визуальный элемент Word Cloud, введенный для Power BI в ноябре 2015 года.

Визуализация Word Cloud отображает набор слов в виде облака, размер шрифта каждого слова определяется его частотой в наборе данных. Визуализация Word Cloud обычно используется для анализа данных Twitter, но я хотел проверить ее возможности, применив ее к текстовому полю в наборе данных 211, где размер столбца варьировался от 17 до 4197 символов для разных агентств.

К моему восторгу, Power BI Word Cloud смог обработать большое количество текстовых данных в одной строке, позволяя мне работать с несколькими тысячами записей для создания визуализации. Что еще впечатляет, так это интерактивность отчетов Power BI, где каждая визуализация может взаимодействовать друг с другом.

Например, если я нажимаю на слово “employment” в моей визуализации Word Cloud, это влияет как на карту Bing, так и на количество агентств с этим словом. Такой уровень взаимодействия открывает бесконечные возможности для анализа данных, такие как получение лучшего понимания часто встречающихся деятельностей и выявление выбросов в наборе программ, предлагаемых каждым агентством.

Если вас интересует работа с визуализацией Word Cloud в Power BI, вот несколько дополнительных советов:

  • Потратите время на очистку и подготовку ваших данных, чтобы обеспечить точность текстовых настроений.
  • Не включайте опцию “Поворот текста”, чтобы сохранить чистое и организованное облако слов.
  • Включите опцию “Стоп-слова”, чтобы скрыть общие слова (например, to, from, or, and и т. д.) из вашего облака слов. Вы также можете добавить другие исключительные фразы в свой список стоп-слов.

В заключение, я с большим удовольствием работал с визуализацией Word Cloud в Power BI и настоятельно рекомендую ее для анализа неструктурированных текстовых данных. Так что, если у вас есть облако слов, позвольте им полететь!

Click to rate this post!
[Total: 0 Average: 0]

Let's work together

Send us a message or book free introductory meeting with us using button below.