「数据处理求助」两个基因检测公司得到的两份碱基序列报告不一致

vps网友提供 08-30 讨论归档 14

各位工程师好,我个人在两家基因检测公司做了检测,得到两份“位点-序列”( rsid-genotype )测序结果,理论上这两份序列结果应该是一样的,但我发现有一定比例的不一致,我想知道不一致的准确比例是多少,由于有超过 59 万条对应关系,我无法在个人电脑上处理,且没有数据处理软件使用能力,希望可以得到帮助。恳请有兴趣的工程师与我联系。子弹短信:ggyy https://s1.ax1x.com/2018/08/30/PXfHl8.png

本文由 vps网友提供,转载请注明出处

本文链接: https://www.vpsvsvps.com/discuss/a/1676471931785711616.html

标签:
yorkyoung
08-30

@wqzjk393 别的不懂 只会 vlookup

wqzjk393
08-30

pd.read_csv/excel 把两个数据读进来,df1.merge(df2,how=left)左关联第二份数据,然后比较呗。但是如果你位点数据都一样的话为什么不先排序然后直接用 excel 的'='做对比呢

wqzjk393
08-30

哪有用 vlookup 做大数据匹配的,vlookup 感觉就是完全的挨个遍历,慢的厉害还特别占资源

zhouquan03
08-30

BWA SOAP 软件了解一下

HankAviator
08-30

@LadyChunsKite 不在居住国家做问题不大,倒是保险送的基因检测万万做不得

Wolther47
08-30

碱基对比对? Smith waterman 了解一下?

dacer250
08-30

子弹短信无法在 8.0 的 ios 上运行,可以联系我 qq:OTgzMTM5MDk3

jccg90
08-30

@LadyChunsKite 基因信息虽然很重要,但是完全无法保护。。。比如上个厕所,吐个痰,去饭店吃个饭。。。到处都是完整的基因信息吧

LadyChunsKite

题外话:
其实我有时候就在想,自己的基因可是一个很重要的个人信息呀,比什么手机号,年龄重要多了。
就不怕被公司拿走干坏事?

krixaar
08-30

导数据库里两张表,然后(select * from A minus select * from B) union all (select * from B minus select * from A)这样?

yorkyoung
08-30

@marcong95 已经尝试过了,在 Excel 中运行了 vlookup 就跑了 15 个小时还是 17 款 256G MPB

marcong95
08-30

理论上这两份序列结果应该是不完全一样的把,DNA 复制的时候有一定概率会产生变异,这个概率放大到全基因组的话,“不完全一样”的概率是很高的。

提供一个不知道可不可行的办法:把注释删掉,然后行排序,然后 diff 之,应该是不需要上什么专业软件,找个编辑器之类的。59w 行可能要跑一段时间,不过应该还好?

RangerWolf
08-30

数据可以传到公司外面?
59W 条数据应该还好, 用 Pandas 感觉普通电脑应该能搞定

TheWalkingDead

流行子弹短信吗 哈哈