Ngôn ngữ gì không quan trọng. Bây giờ hầu như data science ai cũng dùng Python (để test thuật toán). Để tối ưu hóa tốc độ cả phần cứng (ra sản phẩm) thì dùng Kotlin, Rust, Nim-lang... Mình cá là bạn chưa từng nghe qua những ngôn ngữ đó. C/C++ cũng được dùng rộng rãi, nhưng đã bớt thông dụng.
Về thuật toán AlphaZero, nó không search nước đi thuần túy. Nó dựa trên Reinforcement Learning, tức là Học bổ sung. Cách học này dựa trên data (những ván cờ có sẵn đã từng được đánh), và có thể ngoại suy ra những hình cờ CHƯA TỪNG GẶP. Mình không cần phải dạy nó đi cờ, mà nó sẽ tự học, giống như em bé học đi: mới đầu sẽ té lên té xuống, nhưng rồi càng ngày càng thành thạo. Nó khác với thuật toán search thuần túy (mà hầu hết các sw cờ tướng hiện nay), đó là nó có thể học từ chính nó: nó đánh cờ với chính nó. Nói cách khác, nó học bằng cách tích lũy kinh nghiệm: tự đánh với mình, nếu thắng thì ghi nhớ các nước đi mạnh, nếu thua thì ghi nhớ các nước đi yếu. Khi ra 1 hình cờ bất kì, nó ko cần phải search nước nhiều nữa, mà nó đã có 1 "mô hình" được huấn luyện sẵn, nên search nước rất nhanh, do đó cải thiện được chất lượng nước đi.
Bạn có thể tìm hiểu bài báo do chính Google xuất bản c, về thuật toán Alpha Zero ở link dưới mình share (chỉ 1 bài tượng trưng, nếu thích mình sẽ gởi thêm). Mấy bài này bạn khó download trên mạng được, vì phải đóng phí, nhưng ở đây mình gởi tặng free luôn. Có gì thì pm riêng mình sẽ tư vấn thêm.
https://www.dropbox.com/s/ocrixwr61ba8tca/go.pdf?dl=0