Předmět :Analýza dat
Téma :Analýza sentimentu recenzí produktů
Cíl :Cílem tohoto úkolu je provést analýzu sentimentu u recenzí produktů a určit sentiment recenzenta vůči produktu.
Pokyny :
1. Příprava dat :
- Shromážděte datovou sadu recenzí produktů z vhodného zdroje (např. Amazon, Yelp).
- Vyčistěte data odstraněním duplicitních recenzí, zpracováním chybějících hodnot a převodem textu na malá písmena.
2. Průzkumná analýza dat :
- Prozkoumejte data, abyste pochopili jejich vlastnosti a distribuci.
- Provádějte základní statistiky, jako jsou počty četností a mračna slov, abyste identifikovali běžná slova a fráze používané v recenzích.
3. Analýza sentimentu :
- Použijte vhodnou knihovnu nebo nástroj pro analýzu sentimentu (např. TextBlob, VADER nebo spaCy) k přiřazení skóre sentimentu každé recenzi.
- Seskupte recenze do pozitivních, negativních nebo neutrálních kategorií na základě jejich skóre sentimentu.
4. Feature Engineering :
- Extrahujte z recenzí relevantní funkce, které by mohly přispět k sentimentu. Ty mohou zahrnovat frekvence slov, interpunkční znaménka nebo jiné funkce související s NLP.
5. Model strojového učení :
- Vytvořte model strojového učení pod dohledem, abyste mohli klasifikovat recenze jako pozitivní nebo negativní.
- Trénujte model na označených datech a vyhodnoťte jeho výkon pomocí vhodných metrik (např. přesnost, preciznost, vyvolání a F1-skóre).
6. Interpretace modelu :
- Vizualizujte předpovědi modelu pomocí matoucích matic nebo jiných relevantních vizualizací.
- Analyzujte špatně klasifikované recenze a identifikujte oblasti pro zlepšení.
7. Hlášení :
- Napište zprávu shrnující zjištění analýzy sentimentu.
- Zahrňte podrobnosti o přípravě dat, průzkumné analýze dat, inženýrství funkcí, modelovém školení a výsledcích hodnocení.
Příspěvek :
- Odešlete následující:
- Jupyter Notebook nebo skript Python obsahující váš kód a analýzu.
- Zpráva ve formátu PDF shrnující zjištění.
Termín :
- Úkol je splatný [datum].
- Pozdní odeslání bude potrestáno pokutou 10 % za den.