- Apache MADlib 1.10.0以降がインストールされていること
- IMDB 5000 Movie Dataset | Kaggle https://www.kaggle.com/deepmatrix/imdb-5000-movie-dataset
- データセットをダウンロード
- zip
imdb-5000-movie-dataset.zip
を展開、csvファイルmovie_metadata.csv
を取得 movie_metadata.py
を実行してSQLファイルを生成- SQLファイルを実行してテーブル
movie_metadata
を作成 vectorize.sql
を実行してテーブルmovie_metadata_vec
を作成
query.sql
を実行
以上。