VIỆN CÔNG NGHỆ SINH HỌC
BÁO CÁO TỔNG KẾT ĐỀ TÀI
XÂY DỰNG CƠ SỞ KHOA HỌC CHO DỰ ÁN KHẢ THI
GIẢI TRÌNH TỰ VÀ PHÂN TÍCH BỘ GEN
NGƯỜI VIỆT NAM
CNĐT : NÔNG VĂN HẢI
9175
HÀ NỘI – 2011
ĐẶT VẤN ĐỀ
Bộ gen hay còn gọi là hệ gen (toàn bộ tập hợp các gen) người là có một cấu trúc
hết sức tinh vi và phức tạp, gồm 2 thành phần: i) Bộ gen nhân: kích thước khoảng 3,2
tỷ đơn vị chiều dài, được gọi là nucleotide hoặc cặp bazơ (base pairs, bp; 1000 bp= 1
kilobazơ, kb) và ii) Bộ gen ty thể có kích thước chỉ hơn 16 kb. Mọi biểu hiện của sự
sống, bao gồm các yếu tố quyết định sức khỏe mỗi người (khỏe mạnh hay ốm đau…)
đều liên quan đến chức năng gen. Vì vậy, việc nghiên cứu cấu trúc và chức năng toàn
bộ các gen của cơ thể là một vấn đề khoa học cơ bản có định hướng ứng dụng hết sức
quan trọng.
- Dự án Hệ gen người (Human Genome Project, HGP), thời gian thực hiện:
~15 năm (1989-2003), do Nhóm các cơ quan khoa học nhà nước do Mỹ đứng đầu với
khoảng 20 nước và vùng lãnh thổ tham gia. Dự án đã chi 3-4 tỷ USD tiền ngân nhà
nước cho giải mã hoàn chỉnh hệ gen người (~3,2 tỷ bp), với DNA lấy từ 5 cá thể đại
diện 5 chủng tộc người trên thế giới. Đồng thời, việc giải mã hệ gen người cũng đã
được Công ty tư nhân Celera Genomics của Mỹ tiến hành (số tiền đã chi ước tính
cũng phải hàng tỉ USD). Kết quả là mỗi nhóm giải mã hoàn chỉnh 1 hệ gen người,
đồng thời công bố “bản nháp” trên 2 tạp chí khoa học danh tiếng nhất là Nature, Anh
(McPherson et al., 2001), và Science, Mỹ (Venter et al., 2001). Trình tự của Nhóm
được tài trợ từ ngân sách của các chính phủ đã được công khai, dữ liệu thông tin về hệ
gen cho toàn thế giới cùng sử dụng, được gọi là “trình tự chuẩn” hay “trình tự tham
chiếu” (reference sequence).
Kết quả quan trọng nhất sau khi có bản đồ gen người “chi tiết” (2003) cho thấy,
các chủng tộc, các cá thể người giống nhau đến 99,9% và chỉ khác nhau về một tỷ lệ
rất nhỏ (0,1%) về cấu trúc hệ gen (hay ~3 triệu/ ~3,2 tỷ bp của cấu trúc toàn bộ bộ/ hệ
gen). Tuy nhiên, phần khác biệt rất nhỏ này lại có ý nghĩa quyết định đối với đặc điểm
nhân chủng học của một dân tộc, là yếu tố di truyền liên quan đến sức khỏe của cả dân
tộc và mỗi cá thể.
Bước phát triển logic tiếp theo của công trình giải mã hệ gen người đầu tiên
được hình thành như sau:
Trên sơ sở các dữ liệu về hệ gen (trình tự chuẩn) đã được công bố và sử dụng
miễn phí, các quốc gia đi sâu nghiên cứu các đặc điểm gen của các dân tộc, các cá thể
khỏe mạnh và mắc các bệnh khác nhau của nước mình;
1
Thu nhận vật liệu gen (DNA) và sản phẩm gen (protein) của đại điện các dân
tộc, các cá thể để nghiên cứu sâu về cấu trúc, chức năng của chúng theo hướng nghiên
cứu cơ bản cũng như ứng dụng trong chẩn đoán và điều trị.
Một trong những thành tựu mới nhất về nghiên cứu hệ gen người là việc giải
mã xong hệ gen của cả 4 thành viên trong 1 gia đình đầu tiên (gồm bố mẹ, 1 con trai
và 1 con gái) tại Viện Sinh học Hệ thống, Seatle (Hoa Kỳ) phối hợp với một số cơ
quan khác. Qua đó, người ta phát hiện được các gen ứng cử viên liên quan đến hội
chứng Miller - bệnh di truyền có tính chất gia đình (Roach et al., 2010).
Tin sinh học là bộ môn khoa học mới liên ngành giữa sinh học và tin học, trong
đó các trung tâm tính toán hiệu năng cao, các cơ sở dữ liệu gen khổng lồ được thiết
lập, cũng như các phần mềm, công cụ tính toán được phát triển để phân tích, xử lý số
liệu sinh học, mô hình hóa, mô phỏng để nghiên cứu chức năng gen và protein…
Bộ gen người, trước hết là hệ gen ty thể và một số gen chức năng của hệ gen
nhân, đã được các nhà khoa học Việt Nam quan tâm nghiên cứu từ đầu những năm
2000 trở lại đây. Đặc biệt, sau khi Nhà nước phê duyệt các chương trình công nghệ
sinh học và đầu tư một số phòng thí nghiệm trọng điểm, các nghiên cứu theo hướng
này đã đạt được những kết quả bước đầu.
- Giải mã gen, biết được đặc điểm cấu trúc gen người khỏe mạnh làm cơ sở tham
chiếu cho các nghiên cứu đa hình/ đột biến gen ở người bệnh;
- Giải mã các hệ gen người bệnh (ung thư, tim mạch, tiểu đường, Alzheimer...)
giúp tìm ra bản chất di truyền của các yếu tố liên quan; tìm ra các chỉ thị chẩn đoán và
phát triển dược phẩm cho điều trị;
- Làm chủ việc giải mã hệ gen người, có thể áp dụng cho việc giải mã các tác
nhân gây bệnh cho người cũng như mọi cơ thể sinh vật khác; qua đó có thể phát triển
các ứng dụng trong nhiều lĩnh vực rất khác nhau.
- Các chuyên ngành khoa học sự sống (sinh học) và công nghệ sinh học hiện đại:
sinh học phân tử, công nghệ gen, hệ gen học cấu trúc và chức năng, hệ protein học, tin
sinh học, hệ gen học người, di truyền phân tử, công nghệ protein và enzyme, tiến hóa
phân tử người, nhân học phân tử…
- Các chuyên ngành y học, dược học, khoa học hình sự, quốc phòng-an ninh: Y
học phân tử, di truyền y học phân tử, dịch tễ học phân tử, bệnh học phân tử, hệ gen y
học, hệ protein y học, liệu pháp gen, miễn dịch học phân tử, hệ gen học cá thể người,
di truyền quần thể người, pháp y, giám định gen, y-dược học quân sự…
2
- Công nghệ thông tin (các trung tâm/ hệ thống tính toán hiệu năng cao, các phần
mềm chuyên dụng phân tích gen và protein, các hệ thống mô hình, mô phỏng, xây
dựng các cơ sở dữ liệu…).
Nhu cầu phát triển khoa học đạt trình độ khu vực và quốc tế: công bố khoa học có
trình độ cao (các bài có hệ số ảnh hưởng - IF cao, ví dụ trong nhóm tạp chí Nature);
xây dựng tiềm lực (cơ sở vật chất, đội ngũ cán bộ…) có khả năng hội nhập quốc tế.
Nhu cầu phát triển của đất nước: Như trên đã trình bày, mặc dù các chủng tộc, các
cá thể chỉ khác nhau về cấu trúc ~0,1% (hay ~3 triệu/ ~3,2 tỷ bp của cấu trúc toàn bộ
bộ/ hệ gen), nhưng phần khác biệt rất nhỏ này lại có ý nghĩa quyết định đối với đặc
điểm nhân chủng học, giống nòi của cả một dân tộc, là yếu tố di truyền liên quan đến
sức khỏe của mỗi cá thể. Vì vậy, việc nghiên cứu hệ gen các cá thể thuộc mỗi dân tộc
là vấn đề rất cấp bách và là giai đoạn phát triển tiếp theo về Bộ gen học người (Human
Genomics). Đặc biệt, cần lưu ý là mỗi nước phải đầu tư giải mã gen cho người của
dân tộc mình và không thể có ai làm hộ, làm thay.
Việt Nam, quốc gia với trên 86 triệu dân (đứng thứ 13 trên thế giới về dân số)
với 54 dân tộc anh em, cần có một chiến lược lâu dài và chương trình cấp bách và cụ
thể về nghiên cứu cơ bản, nhằm định hướng ứng dụng, liên quan đến hệ gen người
Việt Nam. Tuy nhiên, việc nghiên cứu đồng bộ về hệ gen người Việt Nam (với trang
thiết bị tầm trung như hiện có) sẽ rất khó khăn, tốn kém về thời gian và chi phí và
không khả thi. Vì vậy, cần có một dự án (chương trình) mang tầm cỡ quốc gia và hội
nhập quốc tế thì mới thực hiện được.
3
A. NỘI DUNG 1
BẢN THẢO DỰ ÁN NGHIÊN CỨU KHOA HỌC CƠ BẢN
(BÁO CÁO CƠ SỞ KHOA HỌC CHO DỰ ÁN GIẢI TRÌNH TỰ VÀ PHÂN
TÍCH HỆ GEN NGƯỜI VIỆT NAM)
4
DỰ ÁN NGHIÊN CỨU KHOA HỌC CƠ BẢN
(GIAI ĐOẠN I: 2012-2015; GIAI ĐOẠN II: 2016 – 2020, TẦM NHÌN ĐẾN 2030)
I.
THÔNG TIN CHUNG (TÓM TẮT DỰ ÁN)
1.1.
Tên Dự án:
Giải mã/ đọc trình tự hệ gen (Genome) người Việt Nam
Tên tiếng Anh: Vietnam Human Genome Sequencing Project
Tên viết tắt: Tiếng Việt - HGNV (Hệ gen Người Việt)
Tiếng Anh - VHGP
1.2.
C
an h
ì hự hiện
Viện Nghiên cứu Hệ gen (Genome)
Viện Khoa học và Công nghệ Việt Nam
1.3.
C
an h
n
Viện hoa học và Công nghệ Việt Nam
1.4.
Ch nhiệ
ự n
G . T . Nông Văn Hải, NCVCC
1.5.
Đ a đi
hự hiện
18 Hoàng Quốc Việt, Cầu Giấy, Hà Nội
1.6.
hời gian hự hiện
9 năm (2011-2020), chia ra thành 2 giai đoạn (2012-2015
và 2016-2020)
1.7.
Mục tiêu c a Dự án
Mục tiêu chung: Giải mã hoàn chỉnh hệ gen (genome) người Việt Nam, làm cơ sở
cho các nghiên cứu cơ bản và ứng dụng trong y-dược và các lĩnh vực khác. ây
dựng được tập thể khoa học mạnh có đủ năng lực về trang thiết bị và con người để
thực hiện các dự án giải mã genome người và sinh vật đặc hữu của Việt Nam.
Mục tiêu cụ thể:
- Giải mã được hệ gen của một số cá thể người VN (thành viên của một số gia
đình) làm ình ự h n (reference sequence) cho các nghiên cứu lâu dài về hệ
gen người Việt Nam;
5
- hân tích được đặc điểm đa hình cấu trúc phân tử (đa hình nucleotide đơn, N s)
trên toàn bộ hệ gen của các cá thể đại điện cho các nhóm dân tộc trong công đồng
người Việt Nam, qua đó xác định nguồn gốc các dân tộc, quan hệ chủng loại phát
sinh và tiến hóa nhân chủng học tiến hóa người Việt;
- Giải mã, so sánh toàn bộ hệ gen biểu hiện (exome) của một số người mắc các
bệnh: di truyền, ung thư, tiểu đường, tim mạch… ở Việt Nam nhằm phát hiện các
chỉ thị phân tử cho chẩn đoán và điều trị.
- Xây dựng được tập thể khoa học mạnh, liên ngành để giải quyết các vấn đề khoa
học công nghệ trong giải mã gen người; Đào tạo nguồn nhân lực có năng lực để
thực hiện các dự án giải mã toàn bộ hệ gen các sinh vật đặc hữu (cây trồng, vật
nuôi, vi sinh vật) có giá trị cho khoa học và giá trị thực tiễn của Việt Nam.
- Tham gia đào tạo và hợp tác quốc tế với các Trung tâm/ Viện nghiên cứu genome
hàng đầu của thế giới.
1.8. Nội dung, tổ chức và tiến độ thực hiện
1.8.1. Nội dung
1.8.1.1. Các nội dung khoa học của dự án
-2015):
trình tự
ộ
ộ
ể
ự
: Giải
trình tự toàn bộ hệ gen của 3 – 5 gia đình (10-15 cá thể) với mức độ bao phủ là 30
d ng làm trình tự chuẩn.
ự
ộ
ể
(exome) của 50 cá thể (với độ
bao phủ 30 ) mắc một số bệnh di truyền, ung thư, tiểu đường, tim mạch…ở Việt Nam
nhằm phát hiện chỉ thị phân tử cho chẩn đoán và điều trị.
ộ
ủ
ể
ộ 2-3 dân tộc hiện đang sinh sống ở
Việt Nam, mỗi dân tộc khoảng 15 - 20 cá thể, với độ bao phủ từ 30 . o sánh sự khác
biệt về trình tự toàn bộ hệ gen của các cá thể thuộc 2-3 dân tộc nghiên cứu, từ đó tìm
hiểu mối quan hệ di truyền giữa các dân tộc trong cộng đồng các dân tộc Việt Nam.
G
-2020):
ự
ộ
ể
(exome) của 50 cá thể (với độ bao phủ
30x) mắc một số bệnh di truyền, ung thư, tiều đường, tim mạch…Tìm hiểu sự khác
biệt giữa toàn bộ trình tự của những người bệnh so với người thường, từ đó định
hướng cho việc tiên lượng và điều trị các bệnh nói trên.
ộ
ể ủ
ộ đại diện cho 8 nhóm ngôn
ngữ hiện đang sinh sống ở Việt Nam, mỗi dân tộc khoảng 50-60 cá thể, với độ bao
phủ từ 30 lần. o sánh sự khác biệt về trình tự toàn bộ hệ gen của các cá thể thuộc 8
6
dân tộc nghiên cứu, từ đó tìm hiểu mối quan hệ di truyền giữa các dân tộc trong cộng
đồng các dân tộc Việt Nam.
Tầ
ế
3 v x ơ
- Thực hiện giải mã và so sánh hệ gen người với số lượng lớn hơn. Tập trung vào
nghiên cứu so sánh hệ gen của một số nhóm bệnh xuất hiện với tần số cao hoặc các
bệnh có tính chất di truyền với nhóm người bình thường trong cộng đồng, kết hợp với
các cơ sở nghiên cứu về y – dược để tìm ra phương pháp điều trị hoặc thuốc điều trị
cho các nhóm bệnh này.
- Thực hiện các nghiên cứu hậu hệ gen: proteome, transcriptome, metagenome…
- Nghiên cứu so sánh hệ gen của các nhóm dân tộc để nghiên cứu về đa dạng di
truyền người Việt Nam.
- Giải mã và phân tích hệ gen của các sinh vật có giá trị kinh tế, đặc hữu của Việt
Nam. Từ đó, tìm ra được khả năng nâng cao chất lượng tăng khả năng chống chịu với
các điều kiện bất lợi như bệnh tật, điều kiện môi trường…
1.8.1.2.
Yêu cầ
ầ
ết bị và xây dự
ơ ở h tầng
Tổng đầu tư trang thiết bị cho dự án và Viện Nghiên cứu Hệ gen (Genome) được
chia thành 2 giai đoạn, giai đoạn I được bắt đầu từ 2012 đến 2015, giai đoạn II từ
2016-2020. Trong giai đoạn I, có 3 phương án lựa chọn, tuỳ thuộc vào nguồn kinh phí
có thể lựa chọn phương án I, II hoặc III.
- Phương án I là phương án tối thiểu, chỉ có 01 thiết bị giải trình tự thế hệ mới,
01 hệ thống siêu máy tính tối thiểu (512 CPU cores, 1,4 TB RAM và 500 TB storage).
Mục tiêu của phương án này là giải trình tự và phân tích hệ gen người Việt Nam với
quy mô từ 100 – 500 cá thể.
- Trong phương án II, tăng thêm 01 thiết bị giải trình tự thế hệ mới của Roche
và 01 máy khối phổ để phân tích cấu trúc và chức năng protein. Thiết bị giải trình tự
Roche có thể giải trình tự được các đoạn DNA có kích thước đến 800 nucleotide.
Ngoài mục tiêu giải trình tự và phân tích hệ gen người, với thiết bị giải trình tự thế hệ
mới của Roche, chúng ta có thể thực hiện giải trình tự các sinh vật có giá trị khác.
Cùng với các thiết bị giải trình tự thế hệ mới là hệ thống phân tích hệ protein (máy
khối phổ) cho phép tiến hành các phân tích sâu hơn về hệ protein học của người, từ đó
có thể tìm ra các chỉ thị sinh học giúp chẩn đoán và điều trị các bệnh ở người (truyền
nhiễm, ung thư, tim mạch…).
- Phương án III là phương án tối ưu nhất đối với một Viện nghiên cứu hệ gen
và hậu hệ gen. Tổng mức đầu tư đã tăng lên 1,5 lần so với phương án I. ố thiết bị giải
trình tự ở phương án này là 3 – 4 máy (có máy dự phòng, phòng trường hợp máy kia
7
gặp trục trặc), khả năng tính toán và lưu trữ của hệ thống siêu máy tính cũng được
tăng lên gấp đôi.
1.8.2. Tổ chức thực hiện
Hiện nay, Viện Công nghệ sinh học là cơ quan chủ trì Phòng thí nghiệm trọng
điểm Công nghệ gen thực hiện các nhiệm vụ theo hướng nghiên cứu hệ gen học, tin
sinh học, hệ protein học. Tuy nhiên, Phòng thí nghiệm trọng điểm Công nghệ gen là
đơn vị hoạt động theo cơ chế mở, cho phép tất cả các nhà khoa học trong cả nước có
nhu cầu có thể đến làm việc. Quy mô của phòng thí nghiệm nhỏ, quy chế hoạt động
theo chế độ hạch toán phụ thuộc Viện Công nghệ sinh học. Trong khi đó, để thực hiện
được mục tiêu và nhiệm vụ nói trên, đơn vị chủ trì nghiên cứu dự án hệ gen phải là
một Viện nghiên cứu quốc gia có tầm cỡ lớn hơn so với Phòng thí nghiệm trọng điểm.
Đây là một đơn vị nghiên cứu chuyên về hệ gen người và các sinh vật khác của Việt
Nam, vì vậy nó phải hoạt động độc lập, với cơ chế đảm bảo tính bảo mật thông tin cao
hơn. Chính vì vậy, nếu dự án được đầu tư đồng bộ về trang thiết bị thì phương án
thành lập viện nghiên cứu chuyên ngành chuyên về hệ gen là cấp bách và cần thiết.
Ngoài việc thực hiện dự án giải trình tự hệ gen người Việt Nam, các trang thiết bị của
dự án còn thực hiện các dự án giải trình tự và phân tích hệ gen của những cơ thể sinh
vật khác.
Khi dự án được xem xét phê duyệt đầu tư, cần triển khai đồng thời việc thành lập
Viện Nghiên cứu Hệ gen (Genome). Dự án do Viện Nghiên cứu Hệ gen (Genome)
quản lý và thực hiện dưới sự điều hành, giám sát của Viện Khoa học và Công nghệ
Việt Nam. Ban Quản lý dự án do Viện Nghiên cứu Hệ gen (Genome) quyết định thành
lập, có nhiệm vụ điều hành toàn bộ quá trình thực hiện, từ giai đoạn đầu tư. Dự án
được chia thành 2 giai đoạn: giai đoạn I (2012-2015) và giai đoạn II (2016-2020),
định hướng phát triển đến 2030. Ở giai đoạn 2012-2013: Đề nghị Viện Khoa học và
Công nghệ Việt Nam cho phép tạm thời sử dụng một số diện tích của các đơn vị chức
năng đã được giải phóng tại nhà A2 hoặc các tòa nhà khác, sau khi toà nhà điều hành
của Viện được đưa vào sử dụng. Nếu cần thiết, xin thuê thêm 80 – 100 m2 tại Khu nhà
Ứng dụng - Triển khai của Viện KH&CNVN (18 –Hoàng Quốc Việt); Lập kế hoạch
xin cấp đất và xây dựng Dự án nhà làm việc của Viện Nghiên cứu Hệ gen. Từ 20132016: xây dựng khu nhà làm việc mới với mặt bằng từ 500-1000m2 (có thể liên kết
với các đơn vị khác trong Viện Khoa học và Công nghệ Việt Nam).
Giai đoạn I, thành lập tổ chức nghiên cứu mới là Viện Nghiên cứu Hệ gen
(Genome) do Chủ tịch Viện Khoa học và Công nghệ Việt Nam quyết định thành lập,
với quy mô về nhân sự, từ 20-30 (chủ yếu xin Chủ tịch Viện điều động người từ
8
Phòng Công nghệ ADN ứng dụng, Viện Công nghệ sinh học). Đầu tư trang thiết bị
ban đầu cần thiết để thực hiện việc giải mã và phân tích hệ gen người Việt, với mục
tiêu kết thúc giai đoạn I có thể giải mã được 100 hệ gen người Việt Nam. Đào tạo
nguồn nhân lực cần thiết để thực hiện các dự án giải mã hệ gen người và các sinh vật
có giá trị kinh tế và khoa học của Việt Nam. Thực hiện việc giải mã toàn bộ hệ gen
của 100+ người Việt Nam.
Giai đoạn II, nâng cấp Viện nghiên cứu Hệ gen (Genome) thành đơn vị nghiên
cứu Quốc gia (Nghị định chính phủ) thuộc Viện Khoa học và Công nghệ Việt Nam,
đạt trình độ khu vực quốc tế, với quy mô về nhân lực từ 50 – 70 người. Tiếp tục đầu
tư, nâng cấp trang thiết bị phục vụ do việc giải mã hệ gen người, nghiên cứu chức
năng gen và giải mã các cơ thể sinh vật có giá trị khoa học và kinh tế của Việt Nam.
Tiếp tục đào tạo (trong và ngoài nước) đủ nguồn nhân lực để có thể thực hiện các dự
án giải mã hệ gen. Tiến hành giải mã hệ gen người Việt Nam, với mục tiêu kết thúc
giai đoạn II sẽ giải mã được 1000+ hệ gen người Việt Nam. Thực hiện các nghiên cứu
hậu giải mã như nghiên cứu transcriptomics, proteomics… và thực hiện các dự án giải
mã cơ thể sinh vật có giá trịnh khoa học và kinh tế của Việt Nam.
Tầm nhìn đến năm 2030 và xa hơn: Nâng quy mô Viện Nghiên cứu Hệ gen
(Genome) lên mức 150 – 180 người, với các chuyên gia đạt trình độ quốc tế về các
lĩnh vực hệ gen học (genomics), tin sinh học (bioinformatics), hệ protein học
(proteomics)…Đầu tư thêm các trang thiết bị thế hệ mới phục vụ các dự án của Viện.
Tiếp tục giải mã và phân tích hệ gen người Việt Nam với số lượng lớn hơn. Tiến hành
các nghiên cứu hậu giải mã và các nghiên cứu giải mã các sinh vật khác.
1.9. S n h
ự iến
1.9.1. Giai đoạn I (2012- 2015): “100 genome người Việt”
Giải mã hoàn chỉnh hệ gen một số phả hệ (“trios”, 2 – 3 phả hệ, bao gồm 2-3
thế hệ, 10 -15 cá thể khỏe mạnh) được giải mã với số lần lặp lại cao (30 ). Qua đó
chọn được 1-2 hệ gen làm “trình tự chuẩn” của người Việt Nam: Lựa chọn lấy 1-2
trình tự làm “trình tự chuẩn” của người Việt Nam để cho các số liệu sau này có thể
làm chuẩn tham chiếu.
50 hệ gen hoàn chỉnh (lặp lại cao, 30X) của các cá thể thuộc 2-3 dân tộc khác
nhau của người Việt Nam, mỗi dân tộc ~15-20 cá thể các dân tộc cho nghiên cứu mối
quan hệ, đa dạng di truyền và tiến hóa phân tử.
50 hệ gen biểu hiện (exome, lặp lại cao, 30 ) của các bệnh nhân mắc bệnh di
truyền, ung thư, tiểu đường, tim mạch...
9
Tổng số: Giai đoạn 2012-2015, giải mã được khoảng 100-115 genome/ exome
người Việt Nam (bao gồm: 10 -15 cá thể cho “trình tự chuẩn”, 50 cá thể dân tộc, 50
bệnh nhân), có tập hợp số liệu so sánh về sự sai khác trình tự nucleotide và trình tự
protein suy diễn từ hệ gen. Các bài báo khoa học đăng trên các tạp chí quốc tế có chí
số I (Impact actor) cao.
Viện Nghiên cứu Hệ gen (Genome) Quốc gia có đủ năng lực về trang thiết bị
để tiến hành các dự án về giải mã hệ gen người và các sinh vật nói chung.
Đội ngũ chuyên gia thuộc các lĩnh vực sinh học phân tử, di truyền, tin sinh học,
thống kê sinh học đáp ứng nhu cầu của các dự án giải mã hệ gen trong nước.
Tham gia thực hiện một số dự án giải mã hệ gen các sinh vật khác: vi sinh vật,
cây trồng, vật nuôi (kinh phí vận hành từ các đề tài, dự án khác).
1.9.2. Giai đoạn II (2016- 2020): “1000 genome người Việt”
Tiếp tục giải mã hệ gen các cá thể thuộc 8 nhóm dân tộc trong cộng đồng các
dân tộc Việt Nam, đưa tổng số hệ gen được giải mã hoàn chỉnh của cả 2 giai đoạn lên
500 (+450).
Tiếp tục giải mã hệ gen (exome) các bệnh nhân, đưa tổng số exome các bệnh
nhân được giải mã lên 500 (+450).
Đến năm 2020, tổng cộng có 1010 -1015 hệ gen (genome) người Việt được giải
mã hoàn chỉnh và phân tích số liệu chi tiết.
Tiếp tục tham gia thực hiện một số dự án giải mã hệ gen các sinh vật khác: vi
sinh vật, cây trồng, vật nuôi (kinh phí vận hành từ các đề tài, dự án khác).
Viện Nghiên cứu Hệ gen Quốc gia có đủ năng lực về trang thiết bị, đạt trình độ
quốc tế về giải mã hệ gen người và các sinh vật nói chung. ây dựng cơ sở hạ tầng
phòng thí nghiệm cho Trung tâm/ Viện nghiên cứu Hệ gen được triển khai cuối giai
đoạn I, đầu giai đoạn II, kết thúc trong 2 - 3 năm.
1.8.3. Tầm nhìn đến 2030 và xa hơn:
Phát triển nhanh các nghiên cứu giải mã hệ gen cá thể người Việt Nam, đưa
con số hệ gen được giải mã lên 104 - 105, thậm chí lên 106, làm cơ sở khoa học cho
phát triển hệ gen dược học (Pharmacogenomics), hệ gen học cá thể (Individual
Genomics) và y học cá nhân (Personal Medicine).
Phát triển các hướng nghiên cứu ứng dụng và dịch vụ của nghiên cứu hệ gen
người khỏe mạnh và các loại bệnh nan y.
Phát triển nhanh các nghiên giải mã hệ gen và ứng dụng đối với các sinh vật
đặc hữu của Việt Nam, bao gồm: vi sinh vật, cây trồng, vật nuôi.
Phát triển Viện Nghiên cứu Hệ gen Quốc gia đạt trình độ khu vực và quốc tế.
10
1.10. ổng inh h
n ộ ự n (2 giai đ ạn 9 nă 2012-2020):
1.10.1.Phương án I, phương án tối thiểu: 13 005 000 USD
Tổ
-2015): 7 3
USD
ó:
- Kinh phí mua thiết bị giải trình tự gen thế hệ mới (Illumina Hiseq 2000): 1 hệ
thống = 1,2 triệu USD
- Kinh phí mua hệ thống siêu máy tính (HPC): 1 hệ thống (500cores, 1,4 TB
RAM, 500 TB storage) = 1,3 triệu USD
- Các thiết bị văn phòng, hệ thống lưu điện, máy phát điện, xe ô tô đi thực địa
( ều tra, thu thập mẫ
ợ
i dân tộc thiểu s ): 190 000
USD
- Kinh phí vận hành (thực hi n các nộ
o, hợp tác qu c tế): 1 265
nghìn U D/ năm
- Kinh phí mua sắm thiết bị phụ trợ: 850 nghìn U D/ năm
- Kinh phí xây dựng hạ tầng Phòng thí nghiệm của Trung tâm/ Viện nghiên cứu
Hệ gen: 2,5 triệu U D (năm thứ 2 và thứ 3 của giai đoạn I: 2014-2015).
Tổ
:
USD
ó
- Mua thêm 1 máy giải trình tự gen thế hệ mới hơn: 1, triệu USD
- Thay thế phụ tùng, nâng cấp máy mua trong giai đoạn trước: 0,2 triệu USD
- Nâng cấp hệ siêu máy tính: 0,8 triệu USD
- Kinh phí vận hành: 0,5 triệu U D/ năm = 2,5 triệu U D/ 5 năm
- Kinh phí trả thù lao cán bộ tham gia thực hiện: 60 nghìn/ năm = 300 nghìn/ 5
năm
- Kinh phí mua sắm thiết bị phụ trợ mới: 0,4 triệu U D/ 5 năm
- inh phí đào tạo/ hợp tác quốc tế: 0,1 triệu/ 5 năm
ự
: 3
USD ơ
ơ
282 tri
ồng
1.10.2.Phương án II: 15 655 000 USD
Tổ
m (2012-2015): 9 9
USD
ó:
- Kinh phí mua thiết bị giải trình tự gen thế hệ mới (Illumina Hiseq 2000): 1 hệ
thống = 1,2 triệu USD
- Kinh phí mua hệ thống siêu máy tính (HPC): 1 hệ thống (500 cores, 1,4 TB
RAM, 500 TB storage) = 1,3 triệu USD
- Thiết bị giải trình tự thế hệ mới Roche FS FLX+: 700 nghìn USD
- Hệ thống phân tích proteome (máy khối phổ): 1,5 triệu USD
- Các thiết bị văn phòng, hệ thống lưu điện, máy phát điện, xe ô tô đi thực địa
(điều tra, thu thập mẫu máu các đối tượng là người dân tộc thiểu số): 190 000
USD
11
- Kinh phí vận hành (thực hi n các nộ
o, hợp tác qu c tế): 1 265
nghìn U D/ năm
- Kinh phí mua sắm thiết bị phụ trợ: 1,3 triệu U D/ năm
- Kinh phí xây dựng hạ tầng Phòng thí nghiệm của Trung tâm/ Viện nghiên cứu
Hệ gen: 2,5 triệu U D (năm thứ 2 và thứ 3 của giai đoạn I: 2014-2015).
Tổ
:
USD
ó
- Mua thêm 1 máy giải trình tự gen thế hệ mới hơn: 1, triệu USD
- Thay thế phụ tùng, nâng cấp máy mua trong giai đoạn trước: 0,2 triệu USD
- Nâng cấp hệ siêu máy tính: 0,8 triệu USD
- Kinh phí vận hành: 0,5 triệu U D/ năm = 2,5 triệu U D/ 5 năm
- Kinh phí trả thù lao cán bộ tham gia thực hiện: 60 nghìn/ năm = 300 nghìn/ 5
năm
- Kinh phí mua sắm thiết bị phụ trợ mới: 0,4 triệu U D/ 5 năm
- inh phí đào tạo/ hợp tác quốc tế: 0,1 triệu/ 5 năm
ự
: 3
USD ơ
ơ
282 tri
ồng
1.10.3.Phương án III, phương án tối đa: 18 390 000 USD
Tổng kinh p
-2015): 12 9
USD
ó:
- Kinh phí mua thiết bị giải trình tự gen thế hệ mới (Illumina Hiseq 2000): 2 hệ
thống = 2,4 triệu USD
- Thiết bị giải trình tự thế hệ mới Roche FS FLX+: 700 nghìn USD
- Kinh phí mua hệ thống siêu máy tính (HPC): 1 hệ thống (1000 cores, 3TB
RAM, 1000 TB storage) = 2,4 triệu USD
- Hệ thống phân tích proteome (máy khối phổ, UHPLC, FPLC...): 1.935.000
USD
- Các thiết bị văn phòng, hệ thống lưu điện, máy phát điện, xe ô tô đi thực địa
(điều tra, thu thập mẫu máu các đối tượng là người dân tộc thiểu số): 190 000
USD
- Kinh phí vận hành (thực hi n các nộ
o, hợp tác qu c tế): 1 265
nghìn U D/ năm
- Kinh phí mua sắm thiết bị phụ trợ: 1,3 triệu U D/ năm
- Kinh phí xây dựng hạ tầng Phòng thí nghiệm của Trung tâm/ Viện nghiên cứu
Hệ gen: 2,5 triệu U D (năm thứ 2 và thứ 3 của giai đoạn I: 2014-2015).
Tổ
:
USD
ó
- Mua thêm 1 máy giải trình tự gen thế hệ mới hơn: 1, triệu USD
- Thay thế phụ tùng, nâng cấp máy mua trong giai đoạn trước: 0,2 triệu USD
- Nâng cấp hệ siêu máy tính: 0,8 triệu USD
- Kinh phí vận hành: 0,5 triệu U D/ năm = 2,5 triệu U D/ 5 năm
12
- Kinh phí trả thù lao cán bộ tham gia thực hiện: 60 nghìn/ năm = 300 nghìn/ 5
năm
- Kinh phí mua sắm thiết bị phụ trợ mới: 0,4 triệu U D/ 5 năm
- inh phí đào tạo/ hợp tác quốc tế: 0,1 triệu/ 5 năm
ự
: 3
USD ơ
ơ
282 tri
ồng
1.10. Dự kiến đầ
ư h giai đ ạn tầ
nhìn đến 2030 v xa h n
inh phí hàng năm 3-5 triệu USD
13
II.
MỤC TIÊU CỦA DỰ ÁN
Mục tiêu chung: Giải mã hoàn chỉnh hệ gen (genome) người Việt Nam, làm
cơ sở cho các nghiên cứu cơ bản và ứng dụng trong y-dược và các lĩnh vực khác. Xây
dựng được tập thể khoa học mạnh có đủ năng lực về trang thiết bị và con người để
thực hiện các dự án giải mã hệ gen người và sinh vật đặc hữu của Việt Nam.
Mục tiêu cụ th :
- Giải mã được hệ gen của một số cá thể người VN (thành viên của một số gia
đình) làm
ình ự h
n (reference sequence) cho các nghiên cứu lâu dài về hệ gen
người Việt Nam;
- hân tích được đặc điểm đa hình cấu trúc phân tử (đa hình nucleotide đơn,
N s) trên toàn bộ hệ gen của các cá thể đại điện cho các nhóm dân tộc trong công
đồng người Việt Nam, qua đó xác định nguồn gốc các dân tộc, quan hệ chủng loại
phát sinh và tiến hóa nhân chủng học tiến hóa người Việt;
- Giải mã, so sánh toàn bộ hệ gen biểu hiện (exome) của một số người mắc các
bệnh: di truyền, ung thư, tiểu đường, tim mạch… ở Việt Nam nhằm phát hiện các chỉ
thị phân tử cho chẩn đoán và điều trị.
- Xây dựng được tập thể khoa học mạnh, liên ngành để giải quyết các vấn đề
khoa học công nghệ trong giải mã gen người; Đào tạo nguồn nhân lực có năng lực để
thực hiện các dự án giải mã toàn bộ hệ gen các sinh vật đặc hữu (cây trồng, vật nuôi,
vi sinh vật) có giá trị cho khoa học và giá trị thực tiễn của Việt Nam.
- Tham gia đào tạo và hợp tác quốc tế với các Trung tâm/ Viện nghiên cứu hệ
gen hàng đầu của thế giới.
14
III.
CƠ SỞ KHOA HỌC CỦA DỰ ÁN
3.1. C
hư ng ình ự n nghi n ứ hệ g n người n hế giới
3.1.1. Dự án Genome người (Human Genome Project, HGP)
Tóm tắt lịch sử của dự án
Dự án Hệ gen người thực hiện trong khoảng 13 năm, chính thức khởi động từ
tháng 10 năm 1990 và hoàn thành vào tháng 9 năm 2003, do Nhóm các cơ quan khoa
học nhà nước do Mỹ đứng đầu với khoảng 20 nước và vùng lãnh thổ tham gia. Trên
thực tế, trước khi dự án được vận hành chính thức vào năm 1990, từ trước đó, năm
1983 các thư viện dòng DNA (cosmid) chứa từng nhiễm sắc thể riêng rẽ của người đã
được xây dựng tại Phòng thí nghiệm Quốc gia Los Alamos (Los Alamos National
Laboratory - LANL) và Phòng thí nghiệm Quốc gia Lawrence Livermore (Lawrence
Livermore National Laboratory - LLNL), Hoa Kỳ. au năm 2003, công tác phân tích
kết quả trình tự của từng nhiễm sắc thể vẫn tiếp tục được tiến hành cho tới năm 2008.
Dự án đã chi 3-4 tỷ USD tiền ngân nhà nước cho giải mã hoàn chỉnh hệ gen
người (khoảng 3,2 tỷ bp), với DNA lấy từ 5 cá thể đại diện 5 chủng tộc người trên thế
giới. Đồng thời, việc giải mã hệ gen người cũng đã được Công ty tư nhân Celera
Genomics của Mỹ tiến hành (số tiền đã chi ước tính cũng phải hàng tỷ USD). Kết quả
là mỗi nhóm giải mã hoàn chỉnh 1 hệ gen người, đồng thời công bố “bản nháp” trên 2
tạp chí khoa học danh tiếng nhất là Nature, Anh (McPherson et al., 2001), và Science,
Mỹ (Venter et al., 2001). Trình tự của Nhóm được tài trợ từ ngân sách của các chính
phủ đã được công khai, dữ liệu thông tin về hệ gen cho toàn thế giới cùng sử dụng,
được gọi là “trình tự chuẩn” hay “trình tự tham chiếu” (reference sequence).
Mục tiêu của dự án
Mục tiêu chung của dự án là nhằm giải mã tất cả khoảng 20.000 đến 25.000
gen người, cung cấp thông tin về cấu trúc và tổ chức của các gen, phục vụ các nghiên
cứu sâu hơn về di truyền và bệnh học ở người. Bên cạnh đó, dự án còn đặt ra một
nhiệm vụ khác là phải giải trình tự toàn bộ hơn 3 tỷ cặp base trong hệ gen của người.
Như là một phần của dự án Hệ gen người, các nghiên cứu song song tiến hành trên các
15
sinh vật mô hình như vi khuẩn Escherichia coli và chuột đã giúp phát triển các kỹ
thuật và giải thích chức năng của các gen đã giải mã.
Dự án Hệ gen người được chia thành hai giai đoạn: Giai đoạn 1 từ 1990 đến
1998 và giai đoạn 2 từ 1998 đến 2003. Giai đoạn đầu tiên dự định được tiến hành
trong năm năm từ 1990 đến 1995 nhưng sau đó được sửa đổi kế hoạch và kéo dài thời
gian thêm ba năm nữa đến năm 1998 (Collins & Galas, 1993). Trong giai đoạn này,
các mục tiêu được đặt ra bao gồm:
-
Lập b
ồ di truyền
Hoàn thành bản đồ với độ phân giải 2 - 5 cM vào năm 1995;
Phát triển kỹ thuật xác định nhanh kiểu gen;
Phát triển các dấu chuẩn (marker) dễ sử dụng;
-
-
Phát triển các kỹ thuật lập bản đồ mới.
Lập b
ồ hình thể
Hoàn thành bản đồ các vị trí đánh dấu trên trình tự (sequence tagged site STS) của hệ gen người với độ phân giải 100 kb.
Gi i trình tự DNA
Phát triển các phương pháp hiệu quả để giải trình tự một tới vài vùng DNA
quan tâm có chiều dài hàng Mb;
Phát triển kỹ thuật giải trình tự nhanh, tập trung và các hệ thống tích hợp tất
cả các bước từ chuẩn bị khuôn DNA tới phân tích dữ liệu;
-
-
-
Xây dựng công suất giải trình tự cho phép giải trình tự với tốc độ 50 Mb/
năm cho tới cuối giai đoạn.
X
ịnh các gen
Phát triển các phương pháp hiệu quả để xác định các gen và sắp xếp các gen
đã biết vào bản đồ vật lý hoặc DNA đã được giải trình tự.
Phát triển kỹ thuật
Mở rộng hỗ trợ phát triển các kỹ thuật mới cũng như cải tiến kỹ thuật hiện
tại về giải trình tự DNA nói riêng và đáp ứng như cầu của dự án Hệ gen
người nói chung.
Các sinh vật mô hình
Hoàn thành bản đồ STS của hệ gen chuột với độ phân giải 300 kb;
Hoàn thành trình tự hệ gen vi khuẩn Escherichia coli và nấm men
Saccharomyces cerevisiae tới năm 1998 hoặc sớm hơn;
16
Tiếp tục giải trình tự hệ gen Caenorhabditis elegans và Drosophila
melanogaster nhằm hoàn chỉnh trình tự C. elegans trước năm 1998;
-
Giải trình tự một số vùng chọn lọc trên DNA chuột cùng với các v ng tương
ứng trên DNA người đang nghiên cứu.
Công ngh thông tin
Tiếp tục tạo ra, phát triển và vận hành các cơ sở dữ liệu và các công cụ cơ
sở dữ liệu để có thể dễ dàng truy cập các dữ liệu, bao gồm các công cụ tiện
ích và các tiêu chuẩn trao đổi dữ liệu và các liên kết trong cơ sở dữ liệu;
Củng cố, xây dựng và tiếp tục phát triển các phần mềm tiện ích phục vụ các
dự án hệ gen ở quy mô lớn;
-
Tiếp tục phát triển các công cụ so sánh và giải mã thông tin của hệ gen.
Các vấ ề về
ức, luật pháp và xã hội
Tiếp tục xác định và định nghĩa các vấn đề và phát triển các lựa chọn chính
sách để giải quyết các vấn đề đó;
Phát triển và phổ biến các chính sách liên quan đến các dịch vụ thử nghiệm
di truyền với mục tiêu sử dụng đại trà;
-
-
-
Khuyến khích sự chấp nhận sự đa dạng di truyền người.
Đ
o
Tiếp tục khuyến khích đào tạo các nhà khoa học liên ngành có liên quan đến
nghiên cứu hệ gen.
Chuyển giao công ngh
Khuyến khích và tăng cường chuyển giao công nghệ cả trong và ngoài
nghiên cứu hệ gen.
Mục tiêu lâu dài
Hợp tác với các cơ quan thiết lập các trung tâm về các vật liệu hệ gen;
Chia sẻ tất cả các thông tin và vật liệu trong vòng 6 tháng, bao gồm gửi
thông tin tới cơ sở dữ liệu công khai hoặc cơ sở lưu trữ hoặc cả hai nếu phù
hợp.
Giai đoạn thứ hai được thực hiện từ năm 1998 và chú trọng vào các nội dung sau
(Collins et al., 2003):
- Gi i trình tự DNA ở
i
Hoàn thành trình tự hệ gen hoàn chỉnh của người vào cuối năm 2003;
Hoàn thành 1/3 trình tự DNA người vào cuối năm 2001;
Đạt độ bao phủ ít nhất 90% hệ gen trong bản nháp dựa trên các dòng đã lập
bản đồ được vào cuối năm 2001;
17
Hoàn chỉnh toàn bộ trình tự và cung cấp các công cụ phân tích dữ liệu miễn
-
phí.
Kỹ thuật gi i trình tự
Tiếp tục tăng số lượng vật liệu đưa vào và giảm giá thành của kỹ thuật giải
trình tự hiện tại;
Hỗ trợ nghiên cứu các kỹ thuật mới có thể đưa tới những cải tiến đáng kể
trong kỹ thuật giải trình tự;
Phát triển các phương pháp hiệu quả để cải tiến kỹ thuật và đưa các kỹ thuật
giải trình tự mới vào quá trình giải trình tự.
-
Đ
ự h gen
i
Phát triển các kỹ thuật nhằm xác định nhanh và trên quy mô lớn và/ hoặc
ghi lại các đa hình nucleotide đơn ( N s) và các đa hình khác trong trình tự
DNA;
ác định các đa hình phổ biến trong các vùng mã hóa của phần lớn các gen
được giải mã trong suốt giai đoạn này;
Tạo ra bản đồ SNP của ít nhất 100 000 marker;
Phát triển các cơ sở trí tuệ phục vụ các nghiên cứu về đa dạng trình tự;
-
Tạo ra các nguồn miễn phí về mẫu DNA và dòng tế bào.
H gen học chứ
Tạo ra một bộ sưu tập các trình tự và các dòng cDNA có kích thước hoàn
chỉnh mang các gen của người và của sinh vật mô hình;
Hỗ trợ nghiên cứu về các phương pháp nghiên cứu chức năng của các trình
tự mã hóa các phân tử không phải protein;
Phát triển kỹ thuật phân tích toàn diện sự biểu hiện của gen;
Cải tiến các phương pháp phát sinh đột biến trên quy mô hệ gen;
-
Phát triển kỹ thuật phân tích protein trên quy mô lớn.
H gen học so sánh
Hoàn thiện trình tự của hệ gen giun tròn C. elegans vào năm 1998;
Hoàn thiện trình tự của hệ gen ruồi giấm Drosophila vào năm 2002;
Phát triển bản đồ kết hợp giữa bản đồ vật lý và bản đồ di truyền của chuột,
tạo ra nguồn cDNA bổ sung từ chuột, và hoàn thiện trình tự hệ gen chuột
vào năm 2008;
ác định các sinh vật mô hình hữu ích khác và hỗ trợ các nghiên cứu hệ gen
thích hợp.
18
-
Các vấ ề về
ức, luật pháp và xã hội
Khảo sát các vấn đề xung quanh việc hoàn thiện trình tự DNA của người và
nghiên cứu về sự đa dạng di truyền ở người;
Khảo sát các vấn đề phát sinh từ việc kết hợp các kỹ thuật di truyền với các
thông tin liên quan tới chăm sóc sức khỏe và các hoạt động sức khỏe cộng
đồng;
Khảo sát các vấn đề phát sinh từ việc kết hợp những hiểu biết về hệ gen học
và các tương tác giữa gen với môi trường trong các trường hợp phi lâm
sàng;
Tìm hiểu xem những kiến thức di truyền mới này sẽ tương tác như thế nào
với một loạt các vấn đề về triết học, lý luận và đạo đức;
Tìm hiểu xem các nhân tố về chủng tộc, dân tộc và kinh tế xã hội sẽ ảnh
-
hưởng như thế nào tới việc sử dụng, hiểu biết và giải thích về thông tin di
truyền, sự sử dụng các dịch vụ di truyền và sự phát triển chính sách.
Tin sinh học và sinh học tính toán
Cải tiến nội dung và tính thiết thực của các cơ sở dữ liệu;
Phát triển các công cụ tiên tiến hơn trong việc phát sinh, nắm bắt và giải
thích dữ liệu;
Phát triển và cải tiến các công cụ và cơ sở dữ liệu về các nghiên cứu chức
năng toàn diện;
Phát triển và cải tiến các công cụ nhằm thể hiện và phân tích mức độ tương
đồng và đa dạng của trình tự;
-
Tạo ra các cơ chế nhằm hỗ trợ các phương pháp hiệu quả trong việc sản
xuất các phần mềm mạnh và có tiềm năng xuất khẩu có thể được sử dụng
rộng rãi sau này.
Đ
o nguồn nhân lực
Đào tạo các nhà khoa học thành thạo trong nghiên cứu hệ gen học;
Hỗ trợ định hướng sự nghiệp khoa học cho các nhà khoa học nghiên cứu hệ
gen;
Nâng cao số lượng các học giả có kiến thức chuyên sâu về khoa học hệ gen,
di truyền học và cả trong các lĩnh vực về đạo đức, luật pháp hoặc khoa học
xã hội.
Các kết qu
ợc của dự án
19
- Xem thêm -