<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>Определение характеристик городов, влияющих на тональность отзывов, на основе анализа социальной сети Twitter</article-title>
      </title-group>
      <contrib-group>
        <aff id="aff0">
          <label>0</label>
          <institution>Exposoft</institution>
          ,
          <addr-line>Novosibirsk</addr-line>
          ,
          <country country="RU">Russia</country>
        </aff>
        <aff id="aff1">
          <label>1</label>
          <institution>Exposoft</institution>
          , Новосибирск
          <addr-line>, Россия</addr-line>
        </aff>
      </contrib-group>
      <fpage>172</fpage>
      <lpage>176</lpage>
      <abstract>
        <p>Аннотация Статья посвящена анализу сообщений в социальной сети Twitter. В ходе работы устанавливается, какие характеристики городов России влияют на тональность сообщений, посвященных тому или иному городу, другими словами, от каких характеристик зависит отношение людей к городу. Ключевые слова: тональность текста, FRiS, машинное обучение, кластеризация.</p>
      </abstract>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>-</title>
      <p>Постановка задачи
В основе нашего исследования лежит предположение о том, что
тональность сообщений об определенном городе и тональность сообщений,
сделанных из этого города в различных социальных сетях, может зависеть от его
социальных, экономических и географических характеристик.
Предполагается исследовать влияние таких характеристик, как плотность населения,
климат, средний уровень заработной платы, возрастной состав, половой
состав, наличие крупных торговых центров, парков и зон отдыха.</p>
      <p>Для решения поставленной задачи в первую очередь необходимо набрать
базу сообщений, которые относятся к определенным городам России или
были в них созданы. Для этого нужно, во-первых, найти источник информации
и, во-вторых, отфильтровать нужные для исследования сообщения. Далее
необходимо определить тональность собранных высказываний.</p>
      <p>Следующим шагом необходимо набрать информацию о выбранных
характеристиках городов России и привести ее к удобному для работы виду.</p>
      <p>Наконец, планируется выделить те характеристики городов, которые
оказывают наибольшее влияние на тональность сообщений. Опционально
города планируется разбить на таксоны и определить, к какому типу городов
люди относятся лучше всего.
3</p>
      <p>
        Аналогичные работы
Идея использовать Twitter для анализа мнений людей по различным
вопросам возникла довольно давно [
        <xref ref-type="bibr" rid="ref2">2</xref>
        ]. Существуют похожие исследования, в
которых тональность сообщений используется для предсказания каких-либо
событий [
        <xref ref-type="bibr" rid="ref1">1</xref>
        ]. Так же уже разработано и опробовано большое количество
различных методов анализа тональности сообщений, как использующих
словарь эмотивной лексики [
        <xref ref-type="bibr" rid="ref4">4</xref>
        ], так и обучающихся на выборке [
        <xref ref-type="bibr" rid="ref3">3</xref>
        ], [5] . Эти
методы оказались достаточно эффективными и подходят для поставленной
в данной работе задачи.
4
      </p>
      <p>Предполагаемое решение
В качестве источника сообщений решено использовать Twitter, так как
он имеет широкую и разнообразную аудиторию, и содержит огромное
количество сообщений, которое растет с каждым днем. Кроме того данная сеть
предоставляет API для работы с потоком новых сообщений и данные в
качестве грантов3. Для отбора сообщений о городах используется, во-первых,
словарь их полных и сокращенных названий в различных
морфологических формах, во-вторых геолокация. Для фильтрации спама на обучающей
3 https://blog.twitter.com/2014/introducing-twitter-data-grants
выборке тренируется наивный классификатор Байеса. Сообщения
подвергаются предварительной обработке, которая включает нормализацию
сообщений, осуществляемую при помощи Pymorphy4, и исключение стоп-слов.
Стоп-слова планируется убрать автоматически, используя индекс TF-IDF на
всей коллекции собранных сообщений из Twitter[6],а так же находящиеся в
открытом доступе словари. Так же планируется заменить все эмотиконы на
специальные слова, соответствующие их тональности.</p>
      <p>Для оценки тональности полученных сообщений выбраны наивный
классификатор Байеса из-за его простоты и эффективности, а так же метод
опорных векторов из-за его точности [5]</p>
      <p>Отдельный интерес представляет использование алгоритма
классификации FRiS Stolp [7]. Интерес обусловлен желанием проверить пригодность
данного алгоритма для решения задач анализа текстов.</p>
      <p>Информацию о городах планируется собрать в полуавтоматическом
режиме, используя интернет ресурсы, в частности, Wikipedia. Для
кластеризации городов будет использован алгоритм FRiS Tax [7].</p>
      <p>Для определения наиболее значимых признаков предлагается
использовать способность алгоритма Random Forest определять важность
используемых признаков [8]. Достаточно просто обучить алгоритм на таблице
объектсвойство всех городов с целевым признаком тональности, который
высчитывается как сумма тональностей всех сообщений, относящихся к данному
городу.
5</p>
      <p>Заключение
В работе обозначена задача выявления характеристики городов,
которые оказывают влияние на тональность сообщений в социальных сетях. Так
же представлено предполагаемое решение этой задачи, основанное на
анализе тональности сообщений социальной сети Twitter методами машинного
обучения.
Список литературы
4 https://pythonhosted.org/pymorphy/
5. Клековкина, М. В., Котельников, Е. В. Автоматический анализ текстов на
основе методов машинного обучения // Компьютерная лингвистика и
интеллектуальные технологии: по материалам ежегодной Международной конференции
¾Диалог¿ (Бекасово, 30 мая – 3 июня 2012 г.). – Вып. 11 (18). – М. : Изд-во
РГГУ, 2012.
6. Ramos, J. Using TF-IDF to Determine Word Relevance in Document Queries //</p>
      <p>The First Instructional Conference on Machine Learnin, 2003.
7. Borisova, I. A., Dyubanov, V. V., Kutnenko, O. A., Zagoruiko, N. G. Use of the
FRiS-Function for Taxonomy, Attribute Selection and Decision Rule Construction
/в сб ¾Lecture Notes in Computer Science¿ С. 256–270. Berlin: Springer Berlin
Heidelberg, 2011.
8. Breiman, L. Random Forests // Machine Learning, 2001. Т. 45. № 1. C. 5–32.</p>
      <p>Alexander Zyryanov, Nikita Putintsev
Abstract. The paper is devoted to analysis of messages in the Twitter
social network. The present study is focused on which Russian cities’
features do affect the opinions’ sentiments expressed by people.</p>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>
          1.
          <string-name>
            <surname>Bollen</surname>
            ,
            <given-names>J.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Maon</surname>
            ,
            <given-names>H.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Zeng</surname>
            ,
            <given-names>H.</given-names>
          </string-name>
          <article-title>Twitter mood predicts the stock market //</article-title>
          <source>Journal of Computational Science. Март</source>
          <year>2011</year>
          . №
          <volume>1</volume>
          (
          <issue>2</issue>
          ). C. 1-
          <fpage>8</fpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref2">
        <mixed-citation>
          2.
          <string-name>
            <surname>Pak</surname>
            ,
            <given-names>A.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Paroubek</surname>
            ,
            <given-names>P.</given-names>
          </string-name>
          <article-title>Twitter as a Corpus for Sentiment Analysis</article-title>
          and
          <source>Opinion Mining // Proceedings of the International Conference on Language Resources and Evaluation</source>
          ,
          <string-name>
            <surname>LREC</surname>
          </string-name>
          <year>2010</year>
          ,
          <volume>17</volume>
          -
          <fpage>23</fpage>
          May 2010
        </mixed-citation>
      </ref>
      <ref id="ref3">
        <mixed-citation>
          3.
          <string-name>
            <surname>Kouloumpis</surname>
            ,
            <given-names>E.</given-names>
          </string-name>
          , Wilson,
          <string-name>
            <given-names>T.</given-names>
            ,
            <surname>Moore</surname>
          </string-name>
          ,
          <string-name>
            <surname>J.</surname>
          </string-name>
          <article-title>Twitter sentiment analysis: The good the bad and the omg</article-title>
          ! // The AAAI Press,
          <year>2011</year>
        </mixed-citation>
      </ref>
      <ref id="ref4">
        <mixed-citation>
          4.
          <string-name>
            <surname>Клековкина</surname>
          </string-name>
          , М. В.,
          <string-name>
            <surname>Котельников</surname>
          </string-name>
          , Е. В.
          <article-title>Метод автоматической классификации текстов по тональности, основанный на словаре эмоциональной лексики /в сб. Труды XIV Всероссийской научной конференции ¾Электронные библиотеки: перспективные методы и технологии, электронные коллекции¿</article-title>
          .
          <source>С</source>
          .
          <volume>118</volume>
          -
          <fpage>123</fpage>
          . Переславль-Залесский:
          <article-title>изд-во ¾</article-title>
          <source>Университет города Переславль¿</source>
          ,
          <year>2012</year>
          .
        </mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>