Sistemas de recomendação : Filtragem colaborativa baseada no usuário usando N Vizinhos Mais Próximos

Ashay Pathak

25 de fevereiro, 2019 – 9 min leia-se

Ashay Pathak, Chatana Mandava, Ritesh Patel

Collaborative Filtering é uma técnica amplamente utilizada em sistemas de recomendação e está avançando rapidamente na área de pesquisa. Os dois métodos mais utilizados são baseados em memória e baseados em modelos.

Neste post, vamos focar apenas em (User-Based Collaborative Filtering) UB-CF que é um método baseado em memória. A idéia principal por trás do UB-CF é que pessoas com características semelhantes compartilham gostos semelhantes. Por exemplo, se você estiver interessado em recomendar um filme ao nosso amigo Bob, suponha que eu e o Bob tenhamos visto muitos filmes juntos e os classificamos de forma quase idêntica. Faz sentido pensar que no futuro também gostaríamos de continuar a gostar de filmes semelhantes e usar essa métrica de similaridade para recomendar filmes.

Vamos tentar implementar o UB-CF e gerar uma lista de filmes que nosso amigo Bob, também conhecido como um usuário ativo, possa estar interessado em assistir. A motivação por trás de escrever este post é mergulhar profundamente no algoritmo e entender como o UB-CF realmente funciona. A maior parte do conteúdo deste post é inspirado por um Curso em Coursera.

Filtragem Colaborativa Usuário-Usuário
Score function
Cosine Similarity
Neighborhood for User (K)
Gerar a pontuação final S(u,i)

Filtragem Colaborativa Usuário-Usuário

O método identifica usuários que são similares ao usuário consultado e estima que a classificação desejada seja a média ponderada das classificações desses usuários similares.

Estaríamos fazendo as recomendações no MovieLens Dataset. A linguagem de programação usada é python e o trabalho de análise de dados é feito principalmente usando a biblioteca de pandas. A IDE utilizada é jupyter notebook.

Então antes de começar eu gostaria de dar a lista de bibliotecas utilizadas :

Pandas
Numpy
sklearn

Então vamos avançar e entender os conceitos por trás das recomendações. Eu anexei alguns trechos de código e saídas no blog para melhor compreensão. Todo o arquivo ipynb está anexado no final do blog.

Score function

É fácil criar uma função para filtragem colaborativa não personalizada (ou seja, não consideramos os gostos, aversões e classificações de usuários ativos do passado) que retorna uma pontuação tomando o usuário u e o item i como parâmetros de entrada. A função produz uma pontuação que quantifica o quanto um usuário u gosta/prefere o item i.

Então isso geralmente é feito usando as classificações de outras pessoas similares ao usuário. Tudo isso seria discutido em detalhes mais tarde. Por enquanto a fórmula que usei é,

função de pontuação

Onde ‘s’ é a pontuação prevista, ‘u’ é o usuário, ‘i’ é o item, ‘r’ é a pontuação dada pelo usuário e ‘w’ é o peso.

Neste caso nossa pontuação é igual à soma das classificações que cada usuário deu a esse item subtraindo a classificação média desse usuário multiplicada com algum peso que é do quanto esse usuário é semelhante ou supostamente contribui para as previsões de outro usuário. Este é o peso entre o usuário u e v. A pontuação varia entre 0 a 1 onde 0 é baixo e 1 é alto. Tudo parece perfeito, então porque subtraímos as classificações médias de cada usuário e porque usamos a média ponderada em vez da simples média?

O problema é com os tipos de usuários que estamos lidando. Começa com o fato de que as pessoas classificam frequentemente em escalas muito diferentes. Posso ser um usuário positivo e otimista onde vou classificar o filme que gostei como 4 em 5, mas algum outro usuário menos otimista ou com alguns padrões altos pode classificar seu filme favorito como 2 em 5. Aqui o seu 2 é o meu 4. Os ajustes para o tornar melhor é, podemos aumentar a eficiência deste algoritmo se normalizarmos a classificação do utilizador. Uma maneira de fazer isso é dizer que vamos calcular s(u,i) ou seja, pontuar como a classificação média que o usuário dá a cada item mais algum desvio e o desvio vai ser quanto este item é melhor ou pior que a média.

Eu usei a similaridade cosseno para calcular o peso dado na fórmula acima. Eu também usei a noção de vizinhança que seria discutida neste blog à medida que avançamos.

Para normalizar os dados da maneira acima, algumas análises de dados são necessárias em pandas. Você pode obter o código inteiro no final. Para o blog, vou focar nos conceitos importantes.

import pandas as pdmovies = pd.read_csv("movies.csv",encoding="Latin1")
Ratings = pd.read_csv("ratings.csv")
Tags = pd.read_csv("tags.csv",encoding="Latin1")Mean = Ratings.groupby(by="userId",as_index=False).mean()
Rating_avg = pd.merge(Ratings,Mean,on='userId')
Rating_avg=Rating_avg-Rating_avg
Rating_avg.head()

Então agora terminamos de calcular a classificação normalizada para um usuário. Os dados acima seriam usados para calcular a nota final para o usuário mais tarde.

Daqui vamos agora focar em alguns conceitos importantes relacionados a sistemas de recomendação.

Cosine Similarity

Para a fórmula acima precisamos encontrar os usuários que têm pensamentos similares. Isto soa tão interessante para encontrar um usuário que tenha gostos e desgostos semelhantes. Mas a questão é como encontrar a semelhança?

Para responder a isto, vamos usar a Cosine Similarity e ver como os utilizadores são semelhantes. Normalmente é calculado sobre as classificações que ambos os usuários classificaram no passado.

No nosso exemplo, eu usei a função de similaridade cosine_similaridade do sklearn para calcular a similaridade. Mas antes disso temos que fazer algum pré-processamento e limpar os dados.

from sklearn.metrics.pairwise import cosine_similarityfinal=pd.pivot_table(Rating_avg,values='adg_rating',index='userId',columns='movieId')

Contém muito valor de NaN já que todos os usuários não viram todos os filmes e esta é a razão pela qual este tipo de matriz é chamada de matriz esparsa. Métodos como a factorização matricial são usados para lidar com esta sparsity, mas não nos focaríamos nela neste blog. O próximo passo e um dos passos importantes é substituir estes valores NaN.

Existem dois métodos comumente usados para isto :

Utilizar a média do usuário sobre a linha.
Utilizar a média do filme sobre a coluna.

Utilizei ambos os métodos e você pode obtê-la no código abaixo. Mas para explicar eu usaria o método da média do filme.

# Replacing NaN by Movie Average
final_movie = final.fillna(final.mean(axis=0))

Substituir os valores de NaN pela média do filme

Agora, o próximo passo é calcular a similaridade entre os usuários.

# user similarity on replacing NAN by item(movie) avg
cosine = cosine_similarity(final_movie)
np.fill_diagonal(cosine, 0 )
similarity_with_movie =pd.DataFrame(cosine,index=final_movie.index)
similarity_with_movie.columns=final_user.index
similarity_with_movie.head()