Deep Learning UB 2021 — summer school : Day#10



Original Source Here

Мэдээж эхлээд хэрэгтэй сангуудаа суулгаж, хэрэглэх өгөгдлөө бэлдэнэ. Мөн Transformers маань амжилттай суусан эсэхийг шалгаж байгаа. python -c ‘’

Оруулж ирсэн өгөгдлөө шалгаж харвал (dataset) доорх шиг харагдана.

Бэлэн сургасан байгаа загварын оруулж ирээд tokenizer ашиглаад үзье. HuggingFace-с tugstugi/bert-base-mongolian-uncased сонгосон. Uncased → Бүх үсгийг ижилхэн жижиг болгосон гэсэн үг. Tokenizer гээд run-двал ямар сан, хэдэн vocabulary-тай гэх мэт бүх мэдээллийг харж болно.

Дараа нь мэдээний уртыг 128 token-ы урт гэж болно. Ойролцоогоор 3–4 өгүүлбэрийг хэсэгчилж авч сургахад бэлдэж байгаа гэсэн үг. (128 sub-words) Дараа нь түүнийгээ pre-process хийсэн. Өгүүлбэрийг тоо-руу хувиргасан.

Дараа нь pre-trained загвараа оруулж ирээд (MaskedLanguageModel=MLM). Жишээ болгож “Монгол бол MASK онцлогтой улс” гэсэн өгүүлбэрийг оруулахад дараах хариултууд гарч ирж байна.

Дараагийн хэсэгт model-руу оноож өгч байна. BERT-н хэсгийг аваад, ямархуу загвар гэдэг мэдээллийг харж байгаа. Бидний хувьд classifier давхаргыг нэмж сургана.

Тэгээд гараас hyperparameters-г оноож өгөөд, performance-аа accuracy-р хэмжихээр тохируулж байгаа.

За тэгээд сургалтаа эхлэнэ. Ойролцоогоор 2 цаг орчим ажиллахаар байна лээ.

Сургаж дууссаны дараа ямар нэг мэдээний сайтруу ороод мэдээг шалгаж ямар категори гэдгийг харж болно.

https://huggingface.co/datasets/eduge

Дараагийн 1 дасгал нь Wave2Vec-г туршсан. Текст дээр хийсэн шиг зураг болон дуу дээр яг адилхан санааг хэрэгжүүлж болно. Wave2Vec нь дууг 2 CNN дамжуулаад, Transformers оруулаад Contrastive loss тооцно.

Мэдээж хэрэгтэй сангуудаа суулгаад, import хийгээд, бэлэн сургасан сангаа ашиглахаар оруулцгаая. Мөн ямархуу загвар гэдэг мэдээллийг нь харья.

AI/ML

Trending AI/ML Article Identified & Digested via Granola by Ramsey Elbasheer; a Machine-Driven RSS Bot

%d bloggers like this: