nas/config/elasticsearch.default.yml

# The standard ElasticSearch settings described in the original Mastodon code are stored.
# This configuration file is overridden by creating a ".elasticsearch.yml" file in the Mastodon root directory.

version: 1

accounts:
  filter:
    english_stop:
      type: stop
      stopwords: _english_
    english_stemmer:
      type: stemmer
      language: english
    english_possessive_stemmer:
      type: stemmer
      language: possessive_english

  analyzer:
    natural:
      tokenizer: standard
      filter:
        - lowercase
        - asciifolding
        - cjk_width
        - elision
        - english_possessive_stemmer
        - english_stop
        - english_stemmer
    verbatim:
      tokenizer: standard
      filter:
        - lowercase
        - asciifolding
        - cjk_width
    edge_ngram:
      tokenizer: edge_ngram
      filter:
        - lowercase
        - asciifolding
        - cjk_width

  tokenizer:
    edge_ngram:
      type: edge_ngram
      min_gram: 1
      max_gram: 15

public_statuses:
  filter:
    english_stop:
      type: stop
      stopwords: _english_
    english_stemmer:
      type: stemmer
      language: english
    english_possessive_stemmer:
      type: stemmer
      language: possessive_english

  analyzer:
    verbatim:
      tokenizer: uax_url_email
      filter:
        - lowercase
    content:
      tokenizer: standard
      filter:
        - lowercase
        - asciifolding
        - cjk_width
        - elision
        - english_possessive_stemmer
        - english_stop
        - english_stemmer
    hashtag:
      tokenizer: keyword
      filter:
        - word_delimiter_graph
        - lowercase
        - asciifolding
        - cjk_width

statuses:
  filter:
    english_stop:
      type: stop
      stopwords: _english_
    english_stemmer:
      type: stemmer
      language: english
    english_possessive_stemmer:
      type: stemmer
      language: possessive_english

  analyzer:
    verbatim:
      tokenizer: uax_url_email
      filter:
        - lowercase
    content:
      tokenizer: standard
      filter:
        - lowercase
        - asciifolding
        - cjk_width
        - elision
        - english_possessive_stemmer
        - english_stop
        - english_stemmer
    hashtag:
      tokenizer: standard
      filter:
        - word_delimiter_graph
        - lowercase
        - asciifolding
        - cjk_width

tags:
  analyzer:
    content:
      tokenizer: keyword
      filter:
        - word_delimiter_graph
        - lowercase
        - asciifolding
        - cjk_width
    edge_ngram:
      tokenizer: edge_ngram
      filter:
        - lowercase
        - asciifolding
        - cjk_width

  tokenizer:
    edge_ngram:
      type: edge_ngram
      min_gram: 2
      max_gram: 15

accounts_analyzers:
  display_name:
    analyzer: verbatim
    edge_ngram:
      analyzer: edge_ngram
      search_analyzer: verbatim
  username:
    analyzer: verbatim
    edge_ngram:
      analyzer: edge_ngram
      search_analyzer: verbatim
  text:
    analyzer: verbatim
    stemmed:
      analyzer: natural

public_statuses_analyzers:
  text:
    analyzer: verbatim
    stemmed:
      analyzer: content
  tags:
    analyzer: hashtag

statuses_analyzers:
  text:
    analyzer: verbatim
    stemmed:
      analyzer: content
  tags:
    analyzer: hashtag

tags_analyzers:
  name:
    analyzer: content
    edge_ngram:
      analyzer: edge_ngram
      search_analyzer: content