Giải trình tự de novo virus SARS-CoV-2 gây bệnh viêm đường hô hấp cấp COVID-19 bằng hệ máy giải trình tự thế hệ mới PacBio Sequel
Để thực hiện nhiệm vụ này Viện CNSH đã phối hợp với Viện Pasteur Thành phố Hồ Chí Minh (TPHCM) và Viện Vệ sinh Dịch tễ Trung ương Hà Nội (NIHE) xây dựng quy trình kỹ thuật giải trình tự toàn bộ hệ gen virus SARS-CoV-2 bằng công nghệ giải trình tự đoạn dài của PacBio. Nhiệm vụ đã hoàn thành sau một năm thực hiện với việc xây dựng thành công quy trình giải trình tự hệ gen virus ARN gồm 6 bước như sau: (1) Nuôi cấy và tách chiết ARN virus. (2) Tổng hợp cDNA sợi đôi từ ARN virus. Hai bước này được thực hiện tại Viện Pasteur TPHCM và NIHE trong điều kiện phòng sạch an toàn sinh học cấp III. (3) Chuẩn bị thư viện DNA để giải trình tự gen. (4) Giải trình tự toàn bộ hệ gen virus SARS-CoV-2. (5) Lắp ráp de novo hệ gen virus. (6) Chú giải và phân tích hệ gen virus. Bốn bước sau thực hiện tại Viện CNSH. Thời gian thực hiện bốn bước này khoảng 48 giờ.
Về kết quả, đề tài đã giải trình tự toàn bộ hệ gen của bốn chủng virus SARS-CoV-2 với chiều dài trên 29500 nucleotide/hệ gen, và chú giải thành công 14 ORF của virus. Kết quả lắp ráp hệ gen cho một contig, không có các lỗi đọc hay đoạn trống. Chất lượng giải trình tự đạt Q40 (tương đương độ chính xác 99,99%). Kết quả phân tích cho thấy chủng virus phân lập bởi Viện Pasteur TPHCM chứa 10 đột biến liên quan đến các gen mã hóa Nsp2, Nsp3, RNA primase, helicase, protein S, và protein N. Đây là chủng virus phân lập từ bệnh nhân Việt Nam trở về từ bang Pennsylvania, Mỹ ngày 15/3/2020, hạ cánh tại TPHCM ngày 17/3/2020. Ba mẫu virus còn lại do NIHE cung cấp đều có nguồn gốc từ ổ dịch của Bệnh viện Bạch Mai thu thập trong các ngày 25 và 28/3/2020. Các chủng này chứa 5 đột biến giống nhau và có một chủng chứa 6 đột biến. Các đột biến liên quan đến các gen mã hóa protein Nsp3, RNA primase, protein S và N. Cả bốn chủng virus trên đều chứa đột biến D614G ở protein S.
Hệ gen bốn chủng virus trong đề tài do Viện CNSH giải trình tự được phân tích so sánh với trình tự các mẫu virus do các đơn vị khác trong nước thực hiện (gồm Đơn vị nghiên cứu lâm sàng thuộc Đại học Oxford (OUCRU), Viện Pasteur TPHCM và NIHE). Phân tích dựa vào các trình tự đã được đưa lên cơ sở dữ liệu GISAID cho đến ngày 25/8/2020 (tổng 75 trình tự) cho thấy sự phân biệt rõ rệt của các chủng theo thời gian và địa điểm, cũng như sự có mặt đủ của 6 nhóm phân loại GISAID (clade) L, S, V, G, GR và GH tại Việt Nam trong năm 2020.
Phân bố của các nhóm virus tại Việt Nam chịu ảnh hưởng lớn của các chủng virus lưu hành trên thế giới: các chủng thuộc các nhóm S, L, V chiếm chủ yếu trong số những người trở về từ Trung Quốc hay có sự liên hệ với các nước châu Á nơi có nhiều giao thương với Trung Quốc trong tháng 1 và 2/2020; Chủng GH liên quan nhiều đến những trường hợp trở về từ Bắc Mỹ, còn chủng GR là từ khu vực châu Âu.
Trong đó, những chủng được giải trình tự trong nghiên cứu này đều có những biến đổi giống với các chủng có nguồn gốc châu Âu và Mỹ, lưu hành từ tháng 3/2020 – thời điểm chủng G (mang đột biến D614G) của virus SARS-CoV-2 bắt đầu lan rộng ra toàn thế giới. Kết quả phân tích cũng cho thấy chủng do viện Pasteur TPHCM cung cấp nằm trong nhóm GH, lưu hành chủ yếu ở Bắc Mỹ, còn ba chủng mà viện NIHE cung cấp nằm trong ổ dịch Bạch Mai nằm trong nhóm GR cho thấy nguồn gốc châu Âu, với khả năng lây truyền từ đợt có nhiều người nhập cảnh vào đầu tháng 3/2020 tại Hà Nội.
Hình 1: Cây phát sinh chủng loại gồm các chủng SARS-CoV-2 được thu thập tại Việt Nam cho đến ngày 1/4/2021. Tham chiếu MN908947.3 của NCBI cũng được đưa vào sử dụng làm so sánh (màu đen), trong khi đó các hệ gen SARS-CoV-2 do Viện CNSH giải và cung cấp được đưa vào so sánh (đóng khung đỏ). Các trình tự được tô màu theo phân loại GISAID. Cây phân loại cho thấy sự tiến hóa của SARS-CoV-2 cũng như thời điểm các chủng lần lượt xâm nhập vào Việt Nam.
Kết quả so sánh trình tự hệ gen của các chủng virus lưu hành ở Việt Nam cho đến 1/4/2021 (được trình bày trên Hình 1) cho thấy hiện nay ở Việt Nam đã xuất hiện đủ 8 nhóm (clade S,L,V,G,GR,GH,GV và GRY) của virus SARS-CoV-2 theo phân loại của GISAID với hàng chục biến thể khác nhau.
Việc ứng dụng thành công kỹ thuật giải trình tự hệ gen đoạn dài của PacBio đối với virus SARS-CoV-2 mở ra khả năng giải trình tự hệ gen virus nhanh, chính xác mà không cần dựa vào trình tự gen tham chiếu quốc tế. Điều này cho phép các nhà khoa học Việt Nam có thể giải trình tự những đối tượng virus gây bệnh mới trong tương lai mà không cần hệ gen tham chiếu. Dữ liệu giải trình tự hệ gen góp phần vào việc xác định nguồn gốc virus và số lượng nguồn lây (F0) trong các ổ dịch, là cơ sở khoa học, thông tin quan trọng trong xây dựng chiến lược, phương án phòng, chống hiệu quả sự lây lan của virus trong cộng đồng.
Với việc làm chủ quy trình công nghệ, năng lực và điều kiện hiện có, Viện Hàn lâm KHCNVN sẵn sàng tham gia hợp tác với các đơn vị ngành y tế trong việc giải trình tự hệ gen của virus SARS-CoV-2 với quy mô lớn trong các trường hợp cấp bách.