Trách nhiệm chính
- Phân tích vấn đề kinh doanh, khai phá dữ liệu (EDA), mô hình hóa dữ liệu để tìm ra xu hướng vận động, hành vi người dùng,...và đưa ra các nhận định trong việc ứng dụng khai thác dữ liệu vào hoạt động kinh doanh tạo ra giá trị.
- Làm việc với các bộ dữ liệu lớn để khai thác thông tin và chuẩn bị dữ liệu sạch, có cấu trúc cho việc xây dựng mô hình.
- Xây dựng luồng ETL tổng hợp dữ liệu, tiền xử lý, trích xuất đặc trưng với định dạng phù hợp với mục đích xây dựng từng loại mô hình.
- Nghiên cứu công cụ, giải pháp, thuật toán nhằm xây dựng mô hình học máy, học sâu trên quy mô dữ liệu lớn với pyspark, tensorflow/pytorch,... ứng dụng triển khai các chương trình kinh doanh, marketing, ứng dụng xây dựng hệ thống khuyến nghị, phân khúc khách hàng, tích hợp gia tăng hiệu quả app/web...
- Nghiên cứu thiết kế, cài đặt, tối ưu các thuật toán, công nghệ học máy, học sâu triển khai hiệu quả các bài toán (Customer segmentation, Customer churn, Cross-sell & Up-sell, Recommendation, …).
- Thực hiện kiểm thử, A/B testing với các mô hình áp dụng vào bài toán thực tế.
Yêu cầu công việc
- Tốt nghiệp đại học chính quy chuyên ngành: Khoa học dữ liệu, Khoa học máy tính, CNTT, Toán học ứng dụng, Điện tử viễn thông hoặc chuyên ngành Tài chính, Ngân hàng, Toán (Tin) kinh tế, Thống kê.
- Có kinh nghiệm tối thiểu từ 2 năm trở lên triển khai các bài toán về Machine learning, Deep learning, AI,….ưu tiên các ứng viên đã có kinh nghiệm làm việc/am hiểu lĩnh vực ngân hàng/tài chính/chứng khoán.
- Kiến thức về mô hình học máy decision trees, linear regression, ensemble (random forest, boosting tree), k-means, SVM, PCA....
- Kiến thức về học sâu, mạng neural nhân tạo, các kiểu mạng MLP, CNN, LSTM, RNN...
- Kiến thức về xác suất thống kê, đại số tuyến tính, giải tích, lập trình, cấu trúc dữ liệu & giải thuật, lý thuyết đồ thị, cơ sở dữ liệu và áp dụng vào bài toán thực tế.
- Kinh nghiệm về phân tích khám phá dữ liệu (Exploratory Data Analysis - EDA).
- Kỹ năng sử dụng thành thạo một trong các package học máy (scikit-learn, TensorFlow, Keras, PyTorch, Pyspark MLlib, Caffe, Theano, Pylearn2, DeepPy, H2O, v.v).
- Kỹ năng sử dụng ngôn ngữ lập trình (R, Python, Java, Scala, v.v), SQL.
- Kỹ năng sử dụng các công cụ trực quan hóa dữ liệu, đánh giá mô hình.
- Có kinh nghiệm về xử lý dữ liệu phân tán, xử lý dữ liệu lớn (Hadoop, Spark, ...) là một lợi thế.