Résultats :
F1 Score: 0.8294178505558132
Accuracy: 0.8256594441827603
La durée de l'entraînement était : 3:21:42.332805
Rapport de classification :
Précision de la Prédiction: 82.56594441827603 %
Évaluation détaillée de la Classification par RDF :
Classe | Precision | Recall | F1-Score | Support | |
---|---|---|---|---|---|
10 | 0.41 | 0.72 | 0.52 | 623 | |
40 | 0.76 | 0.68 | 0.72 | 502 | |
50 | 0.79 | 0.82 | 0.80 | 336 | |
60 | 0.99 | 0.81 | 0.89 | 166 | |
1140 | 0.81 | 0.79 | 0.80 | 534 | |
1160 | 0.94 | 0.93 | 0.93 | 791 | |
1180 | 0.93 | 0.58 | 0.71 | 153 | |
1280 | 0.70 | 0.73 | 0.71 | 974 | |
1281 | 0.67 | 0.55 | 0.61 | 414 | |
1300 | 0.94 | 0.94 | 0.94 | 1009 | |
1301 | 0.97 | 0.86 | 0.91 | 161 | |
1302 | 0.89 | 0.78 | 0.83 | 498 | |
1320 | 0.86 | 0.79 | 0.82 | 648 | |
1560 | 0.82 | 0.83 | 0.82 | 1015 | |
1920 | 0.92 | 0.90 | 0.91 | 861 | |
1940 | 0.99 | 0.81 | 0.89 | 161 | |
2060 | 0.81 | 0.81 | 0.81 | 999 | |
2220 | 0.90 | 0.78 | 0.83 | 165 | |
2280 | 0.74 | 0.85 | 0.79 | 952 | |
2403 | 0.78 | 0.75 | 0.77 | 955 | |
2462 | 0.83 | 0.75 | 0.79 | 284 | |
2522 | 0.94 | 0.91 | 0.93 | 998 | |
2582 | 0.84 | 0.73 | 0.78 | 518 | |
2583 | 0.98 | 0.98 | 0.98 | 2042 | |
2585 | 0.82 | 0.79 | 0.81 | 499 | |
2705 | 0.80 | 0.68 | 0.74 | 552 | |
2905 | 0.99 | 0.95 | 0.97 | 174 | |
accuracy | 0.83 | 16984 | 16984 | ||
macro avg | 0.84 | 0.80 | 0.82 | 16984 | |
weighted avg | 0.84 | 0.83 | 0.83 | 16984 |
Matirce de confusion :
répartition des classes :
Les groupes critiques :
Examinons le travail du préprocessing sur les catégories que nous avons isolées lors du l’exploration des données. Il s’agissait des 3 groupes (40,50,2462) , (10,2280,2403,2705) et (1280,1281).
catégorie (10,2280,2403,2705)
Total | 10 | 2705 | 2280 | 2403 | |
---|---|---|---|---|---|
n° | 785 | 23.0 | NaN | 704.0 | 57.0 |
rsquo | 515 | NaN | 515.0 | NaN | NaN |
lot | 398 | NaN | NaN | NaN | 397.0 |
france | 198 | 13.0 | 63.0 | 83.0 | 39.0 |
vie | 190 | 16.0 | 127.0 | 32.0 | NaN |
livres | 183 | 11.0 | NaN | NaN | 156.0 |
01 | 171 | NaN | NaN | 161.0 | NaN |
tome | 169 | 29.0 | 58.0 | NaN | 73.0 |
livre | 162 | 27.0 | 90.0 | NaN | 42.0 |
histoire | 160 | 12.0 | 85.0 | 20.0 | 43.0 |
monde | 150 | NaN | 93.0 | 36.0 | 19.0 |
cette | 136 | NaN | 132.0 | NaN | NaN |
fran | 132 | 9.0 | 82.0 | 21.0 | 20.0 |
journal | 109 | 9.0 | NaN | 83.0 | NaN |
paris | 106 | NaN | NaN | 62.0 | NaN |
jean | 98 | 10.0 | NaN | 37.0 | 23.0 |
petit | 98 | NaN | NaN | 47.0 | 17.0 |
ans | 97 | NaN | 78.0 | NaN | NaN |
guerre | 95 | NaN | NaN | 34.0 | NaN |
deux | 94 | NaN | 58.0 | NaN | 19.0 |

l'échelle va du bleu foncé (valeur très basse)
au rouge foncé (valeur très haute),
le blanc représente une valeur nulle
Catégorie (40,50,2462)
Total | 40 | 50 | 2462 | |
---|---|---|---|---|
39 | 775 | 259.0 | 508.0 | 8.0 |
jeu | 481 | 179.0 | 231.0 | 71.0 |
jeux | 337 | 69.0 | 144.0 | 124.0 |
nintendo | 327 | 66.0 | 215.0 | 46.0 |
console | 277 | 60.0 | 188.0 | 29.0 |
produit | 223 | 144.0 | 79.0 | NaN |
charge | 211 | NaN | 194.0 | NaN |
contr | 193 | 93.0 | 100.0 | NaN |
xbox | 188 | 60.0 | 73.0 | 55.0 |
usb | 180 | NaN | 142.0 | NaN |
manette | 175 | NaN | 137.0 | 28.0 |
import | 172 | 170.0 | NaN | NaN |
ps4 | 157 | 57.0 | 94.0 | NaN |
câble | 150 | 42.0 | 104.0 | NaN |
protection | 147 | NaN | 107.0 | NaN |
switch | 136 | NaN | 112.0 | NaN |
pc | 135 | 57.0 | NaN | 41.0 |
con | 127 | NaN | 105.0 | NaN |
haute | 122 | NaN | 84.0 | NaN |
playstation | 117 | NaN | NaN | 41.0 |

l'échelle va du bleu foncé (valeur très basse)
au rouge foncé (valeur très haute),
le blanc représente une valeur nulle
Catégorie (1280,1281)
Total | 1280 | 1281 | |
---|---|---|---|
39 | 2732 | 2256.0 | 476.0 |
enfants | 1163 | 883.0 | 280.0 |
jouet | 537 | 412.0 | 125.0 |
bébé | 518 | 429.0 | 89.0 |
taille | 502 | 421.0 | 81.0 |
jouets | 479 | 373.0 | 106.0 |
haute | 426 | 357.0 | 69.0 |
couleur | 395 | 309.0 | 86.0 |
jeu | 385 | NaN | 240.0 |
cadeau | 370 | 281.0 | 89.0 |
toy | 364 | 295.0 | 69.0 |
poupée | 352 | 324.0 | NaN |
qualité | 350 | 285.0 | 65.0 |
voiture | 346 | 311.0 | NaN |
amp | 325 | 307.0 | NaN |
matériel | 313 | 250.0 | 63.0 |
batterie | 309 | 289.0 | NaN |
rc | 297 | 285.0 | NaN |
non | 294 | 217.0 | 77.0 |
produit | 274 | 212.0 | 62.0 |

l'échelle va du bleu foncé (valeur très basse)
au rouge foncé (valeur très haute),
le blanc représente une valeur nulle
Annexe
Modèle SVC
Pipeline utilisé :
text_clf = Pipeline([
('tfidf', TfidfVectorizer(lowercase=True, max_df=0.8, min_df=2)),
('clf', SVC(C=10,class_weight=None,kernel='rbf',probability=True)),
])
Résultats :
F1 Score: 0.8294178505558132
Accuracy: 0.8256594441827603
La durée de l'entraînement était : 3:21:42.332805
Rapport de classification :
Précision de la Prédiction: 82.56594441827603 %
Évaluation détaillée de la Classification par RDF :
Classe | Precision | Recall | F1-Score | Support | |
---|---|---|---|---|---|
10 | 0.41 | 0.72 | 0.52 | 623 | |
40 | 0.76 | 0.68 | 0.72 | 502 | |
50 | 0.79 | 0.82 | 0.80 | 336 | |
60 | 0.99 | 0.81 | 0.89 | 166 | |
1140 | 0.81 | 0.79 | 0.80 | 534 | |
1160 | 0.94 | 0.93 | 0.93 | 791 | |
1180 | 0.93 | 0.58 | 0.71 | 153 | |
1280 | 0.70 | 0.73 | 0.71 | 974 | |
1281 | 0.67 | 0.55 | 0.61 | 414 | |
1300 | 0.94 | 0.94 | 0.94 | 1009 | |
1301 | 0.97 | 0.86 | 0.91 | 161 | |
1302 | 0.89 | 0.78 | 0.83 | 498 | |
1320 | 0.86 | 0.79 | 0.82 | 648 | |
1560 | 0.82 | 0.83 | 0.82 | 1015 | |
1920 | 0.92 | 0.90 | 0.91 | 861 | |
1940 | 0.99 | 0.81 | 0.89 | 161 | |
2060 | 0.81 | 0.81 | 0.81 | 999 | |
2220 | 0.90 | 0.78 | 0.83 | 165 | |
2280 | 0.74 | 0.85 | 0.79 | 952 | |
2403 | 0.78 | 0.75 | 0.77 | 955 | |
2462 | 0.83 | 0.75 | 0.79 | 284 | |
2522 | 0.94 | 0.91 | 0.93 | 998 | |
2582 | 0.84 | 0.73 | 0.78 | 518 | |
2583 | 0.98 | 0.98 | 0.98 | 2042 | |
2585 | 0.82 | 0.79 | 0.81 | 499 | |
2705 | 0.80 | 0.68 | 0.74 | 552 | |
2905 | 0.99 | 0.95 | 0.97 | 174 | |
accuracy | 0.83 | 16984 | 16984 | ||
macro avg | 0.84 | 0.80 | 0.82 | 16984 | |
weighted avg | 0.84 | 0.83 | 0.83 | 16984 |
Matirce de confusion :
répartition des classes :